説明

多義語抽出システム、多義語抽出方法、およびプログラム

【課題】情報システム構築に関する提案書や仕様書といった特定の案件に関する文書群で一般的な意味と異なる意味を有して使用されている多義語を判別してその文章の曖昧さを改善する。
【解決手段】多義語抽出システムとして、入力を受けた所定の文章中の各単語を抽出する単語分析部と、任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、推定した共起語概念群について、対応する共起語概念間の類似性に基づき、選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、複数のクラスタが存在した際に多義語候補として抽出する多義語候補推定部と、抽出した候補を出力する多義語候補出力部とを設ける。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、多義語抽出システム、多義語抽出方法およびプログラムに関し、特に、情報システム構築に関する提案書や仕様書等といった 所定の案件に関する文書内で複数の意味を割り当てられている多義語を抽出する多義語抽出システム、方法およびプログラムに関する。
【背景技術】
【0002】
近年、情報処理装置を用いて、自然言語で書かれた文書を分析して、その文書の意味や意義を自動抽出するシステムが開発されている。そのなかで、文章中の多義語の取り扱いが問題になることがある。
【0003】
多義語抽出システムに関する技術の一例が、特許文献1に「単語シソーラス構築システム」として記載されている。この特許文献1に開示された単語シソーラス構築システムは、文章解析部、名詞間距離計算部、名詞クラスタリング部、多義性解消部、再クラスタリング部、シソーラス生成部、データ格納部から構成されている。このような構成を有する単語シソーラス構築システムは、次のように動作する。
すなわち、文章解析部は、解析対象とするコーパス中の文章の形態素解析及び構文解析を実行して動詞各関係基礎データを生成し、名詞リスト、動詞リスト及び共起関係データを生成する。名詞間距離計算部は、生成した各リスト、及び共起関係データに基づいて名詞間距離を求める。名詞クラスタリング部は、計算された名詞間距離に基づいて名詞クラスタを生成する。多義性解消部は、この名詞クラスタの有するツリー構造に基づいて各名詞と共起関係のある動詞の多義性を解消し前記動詞リスト及び共起関係データを修正する。再クラスタリング部は、この多義性解消部によって修正された動詞リスト及び共起関係データに基づいて再度名詞クラスタリングを実行する。シソーラス生成部は、この再クラスタリング結果に基づいて単語のシソーラスを生成する。データ格納部は、解析対象である大量の文章であるコーパスと、このコーパスを解析することで生成された動詞格関係基礎データと、文章中に出現した動詞をその出現頻度と共に格納する動詞リストと、文書中に出現する名詞をその出現頻度と共に格納する名詞リストと、前記各リスト中の動詞と名詞の共起関係を格納する共起関係データと、名詞間距離計算部によって求められる名詞間距離と、クラスタリング処理によって生成された名詞クラスタと、シソーラス生成処理によって生成された名詞及び動詞のシソーラスとを格納する。このような構成により、文書中の単語について、動詞と名詞の単語間距離とに基づいて、動詞の多義性を判断し、この判断に基づいて単語リスト及び共起関係データを修正し、これに基づいて再度名詞のクラスタリングを行うことで、精度の高いシソーラスが構築できるとしている。
【0004】
さらに、多義語抽出システムに関する技術の他の例が、特許文献2に「機械翻訳装置」として記載されている。この特許文献2に開示された機械翻訳装置は、入力部、入力文字列記憶部、翻訳辞書部、辞書検索部、翻訳処理部、知識ベース部、単語シソーラス部、多義性解消部、翻訳結果出力部から構成されている。このような構成を有する機械翻訳装置は、次のように動作する。
入力部は、原言語文字列を入力する。次に、入力文字列記憶部は、入力された文字列を記憶する。翻訳辞書部は、原言語単語と相手言語の形態情報、原言語と相手言語の対訳情報などを保持している。辞書検索部は、翻訳辞書を検索する。翻訳処理部は、原言語を前記翻訳辞書部を参照して他の言語に翻訳し、翻訳処理において多義性を識別したとき、多義性解消部に多義性の解消を指示する。知識ベース部は、原言語における単語間の共起関係と、それに対応する相手言語の表現とを集める。単語シソーラス部は、意味的に類似した単語を記憶する。多義性解消部は、入力文字列を相手言語に翻訳するときに生じる多義性を解消する。そのため、多義性解消部は前記知識ベースを参照して訳語を検出し、検出できないときは前記単語シソーラス部中の意味類似単語に置き換えた原文で前記知識ベースを検索して訳語を検出し、さらに検出できないときは、訳語を頻度により決定する。翻訳結果出力部は、翻訳処理結果を出力する。このような構成により、訳語に多義性が発生したとき、知識ベースの規模が、単語シソーラスで補われて、等価的に大きな知識ベースをもとに多義性を解消することを実現している。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2001−331515号公報
【特許文献2】特開平05−158970号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記のような技術の問題は、情報システム構築に関する提案書や仕様書等といった 所定の案件に関する文書内で複数の意味を割り当てられている多義語の抽出に、例示した技術による多義語の抽出方法を適用すると、多義語の抽出率が低くなってしまうことが挙げられる。
【0007】
その理由は、このような多義語が使用されている文書の多くは、一般的に文章量が限られているため任意の単語に対する共起語として同一の単語が出現する可能性が低く、大量のコーパスを前提とした特許文献1の手法で用いられているような共起語のクラスタリングを行うことが難しいためである。換言すれば、特許文献1の手法では、少量のコーパスに基づいて共起語をクラスタ化したとしても、所望の精度での多義語の抽出が行なえない課題を有している。
【0008】
また、別の観点での問題は、情報システム構築に関する提案書や仕様書等といった 所定の案件に関する文書内で複数の意味を割り当てられている多義語の抽出に、例示した技術による多義語の抽出方法を適用すると、特定の案件に関する文書群で成り立つている多義語を抽出することができないことである。
【0009】
その理由は、このような多義語は、事前にその同義関係を把握することが難しく、特許文献2の手法で用いられているような翻訳辞書によって多義性のために訳しわけを行なう必要のある箇所の有無を判断することが困難であるためである。このため、特殊な多義語用に既存辞書とは別にシソーラスを準備するなどの対策が必要と成る。しかし、そのシソーラスを準備するためには多大な負担が必要となってしまう。
【0010】
そこで、特定の範囲で用いられている独特な多義語を含む文書中からその多義語を所要に抽出することを課題とする。
【0011】
本発明の目的は、上記事柄に鑑み、情報システム構築に関する提案書や仕様書等といった 所定の案件に関する文書内で複数の意味を割り当てられている多義語を抽出する、多義語抽出システム、方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0012】
本発明に係る多義語抽出システムは、入力を受けた所定の文章に使用されている各単語の抽出を行う単語分析部と、前記単語の内で任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出する多義語候補推定部と、抽出した多義語候補を出力する多義語候補出力部とを備えることを特徴とする。
【発明の効果】
【0013】
本発明によれば、情報システム構築に関する提案書や仕様書等といった 所定の案件に関する文書内で複数の意味を割り当てられている多義語を抽出する、多義語抽出システム、方法およびプログラムを提供できる。
【図面の簡単な説明】
【0014】
【図1】第1の実施形態に係る多義語抽出システムの構成を示すブロック図である。
【図2】図1に示した多義語抽出システムの動作例を示す流れ図である。
【図3】第2の実施形態に係る多義語抽出システムの構成を示すブロック図である。
【図4】図3に示した多義語抽出システムの動作例を示す流れ図である。
【図5】第1の実施例に係る多義語抽出システムの構成を示すブロック図である。
【図6】基軸単語共起ベクトルNiをまとめた表の例を示す説明図である。
【図7】基軸単語共起語Vijに関するシソーラスの一般概念情報Cgの分類体系例を示す説明図である。
【図8】基軸単語「資材」に関する共起語概念図Cvwjを樹形図として表した例である。
【図9】周辺語構成表VVの例を示す説明図である。
【図10】周辺語Vvwjfに関するシソーラスの一般概念情報Cgの分類体系の例を示す説明図である。
【図11】基軸単語「資材」の共起語の周辺語Vvwjfに基づく大分類の共起語概念表VC1を示す説明図である。
【図12】基軸単語「資材」の共起語の周辺語Vvwjfに基づく中分類の共起語概念表VC2を示す説明図である。
【図13】基軸単語「資材」の共起語の周辺語Vvwjfに基づく小分類の共起語概念表VC3を示す説明図である。
【図14】基軸単語「資材」に関する共起語概念図Cvwjの樹形図に基づくクラスタリング結果の一例を示す説明図である。
【図15】基軸単語「資材」に関する共起語概念図Cvwjのデンドログラムに基づくクラスタリング結果の一例を示す説明図である。
【図16】第2の実施例に係る多義語抽出システムの構成を示すブロック図である。
【図17】構成語「処理」を含む部分一致複合語共起表VUxの例を示す説明図である。
【図18】構成語「変更」を含む部分一致複合語共起表VUxの例を示す説明図である。
【図19】複合語「変更処理」に関する複合語構成配分表Teの例を示す説明図である。
【図20】複合語を考慮した基軸単語共起ベクトルNiをまとめた表の例を示す説明図である。
【図21】複合語を考慮した基軸単語共起語Vijに関するシソーラスの一般概念情報Cgの分類体系例を示す説明図である。
【図22】基軸単語「資材」に関して、複合語を考慮した共起語概念図Cvwjを樹形図として表した例である。
【図23】基軸単語「資材」に関して、複合語を考慮した共起語概念図Cvwjの樹形図に基づくクラスタリング結果の一例を示す説明図である。
【発明を実施するための形態】
【0015】
[実施形態1]
最初に、本発明の第1の実施形態について、図面を参照して詳細に説明する。
図1は、本発明の第1の実施形態に係る多義語抽出システム100の構成を示すブロック図である。
【0016】
図1を参照すると、本発明の第1の実施形態に係る多義語抽出システム100は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、文書入力部10、単語分析部20、基軸単語共起ベクトル抽出部30、共起語概念推定部40、共起語分類部50、多義語候補推定部60、多義語候補出力部70、概念データベース110と、を含む。
図示の多義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった 所定の案件に関する文書内で複数の意味を割り当てられている多義語を抽出する多義語抽出システムである。
【0017】
電子機器で多義語抽出システムを構成する場合、多義語抽出システム100は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ(ROM)と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ(RAM)と、ROMに記憶されたプログラムに従って、RAMに記憶されているデータを処理する中央処理装置(CPU)とから構成される。
この場合、データ処理装置が、文書入力部10、単語分析部20、基軸単語共起ベクトル抽出部30、共起語概念推定部40、共起語分類部50、多義語候補推定部60として働き、補助記憶装置が概念データベース110として動作し、出力装置が多義語候補出力部70として働く。
【0018】
次に、多義語抽出システム100を構成する各構成要素の動作について説明する。
【0019】
文書入力部10は、多義語を抽出する対象とする文書もしくは文書群の入力を受け付ける。
【0020】
単語分析部20は、文書もしくは文書群を構成する各文章に形態素解析や構文解析などを適用することで、各文章に使用されている名詞、動詞、形容詞、形容動詞など単独で意味をなす自立語を単語として抽出し、さらに必要に応じて単語毎の品詞や直後に使用された助詞の種類、単語間の係り受け関係などの単語情報の抽出を行う。なお、自立語ではなく形態素をそのまま使用するようにしてもよい。
【0021】
基軸単語共起ベクトル抽出部30は、単語分析部20で抽出された各文章に使用されている任意の単語を基軸単語として順次選択し、基軸単語毎の単語情報などを用いて任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出する。ここで、前記基軸単語共起判定ルールとしては、基軸単語と係り受けの関係にある単語を共起語と見なすルールや、基軸単語と同一の文内で特定の助詞を伴って使用されている単語を共起語と見なすルールなどが考えられる。また、共起数は共起回数でも良いが、共起回数を基軸単語毎の全共起語数で除した頻度などでも良い。また、基軸単語共起語とその共起数について、抽出元とする所定文書について、重要度や確度、文書間の親子関係などに基づく重み付けを行なうようにしても良い。
【0022】
概念データベース110は、収集された単語の概念分類および一般的な同義語、類義語、用法などの一般概念情報を蓄積し、特定の単語に関する問い合わせに対して、単語の意味や用法に関連する一般概念情報を検索し応答するデータベースである。概念データベース110は、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスなどが相当する。概念データベース110としてインターネット上のデータベースを使用することとしてもよい。
【0023】
共起語概念推定部40は、概念データベース110の一般概念情報を利用して、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する。
【0024】
前記概念推定方法としては、直接、各基軸単語共起語に関する一般概念情報を概念データベース110に問い合わせ、特定の基軸単語の全基軸単語共起語を一般概念情報に基づく一般概念に置き換えた基軸単語共起概念ベクトルを共起語概念とする方法が良い。概念への置き換えで異なる基軸単語共起語が同じ一般概念となる場合はそれぞれの基軸単語共起語を合流し、共起数の和を対応箇所へ登録する。また、概念データベース110として大分類、中分類、小分類のような複数の階層での概念が一般概念情報として登録されたシソーラスを用いる場合、階層毎に基軸単語共起概念ベクトルを作成し、大分類など広い概念での基軸単語共起概念ベクトルで異なる共起語が同じ概念となる場合は、それぞれの共起語を合流させて、共起数の和を対応箇所へ登録する。他に、概念データベース110として同義語を含む類義語群が一般概念情報として登録された類語辞書を用いた場合、基軸単語共起語を対応する類義語群の各類義語に変換し、各類義語の共起数として対応する基軸単語共起語の共起数を割り当て、同一の基軸単語の基軸単語共起語に関して変換された類義語毎の共起数の延べ数を基軸単語共起概念ベクトルとして算出しても良い。なお、概念データベース110に基軸単語共起語に対応する概念が無い場合、前記共起語を概念に変換せず、共起語の単語をそのまま概念として扱い残す。
【0025】
また前記概念推定方法の他の例としては、基軸単語共起語について任意の周辺語判定ルールで基軸単語共起語の周辺に存在する周辺語とその存在数に基づく周辺語構成ベクトルを全基軸単語共起語についてまとめた周辺語構成表を作成し、周辺語構成表の周辺語構成ベクトルにおける各周辺語のそれぞれについて、概念データベース110に一般概念情報を問い合わせ、任意の範囲内で周辺語構成表における各周辺語構成ベクトルの各周辺語を一般概念に変換した周辺語概念ベクトルを対応する基軸単語共起語毎に作成し、特定の基軸単語の全基軸単語共起語に対応する周辺概念ベクトルをまとめた基軸単語共起概念表を共起語概念とする方法でも良い。
ここで、前記周辺語判定ルールとしては1文、1段落内の全文章、目次上の同一項目内での全文章、文書全体など、文書の特徴に合わせて周辺と見なす範囲を設定して良く、1文内で共存する動詞、および目次上の同一項目内の文章内の名詞のように品詞毎に周辺とみなす範囲を変えても良い。さらに、単語間の係り受け関係のある単語かどうかを前記周辺語判定ルールとして利用しても良い。また、存在数は存在個数でも良いが、存在個数を基軸単語共起語毎の全周辺語数で除した頻度などでも良い。また、周辺語構成表とは各行が各基軸単語共起語に、各列が各周辺語に対応している行列で、基軸単語共起語に対する周辺語の存在数が表の各値として登録されたものである。概念への変換で異なる周辺語が同じ概念となる場合はそれぞれの周辺語を合流し、存在数の和を対応箇所へ登録する。また、概念データベース110として大分類、中分類、小分類のような複数の階層での概念が一般概念情報として登録されたシソーラスを用いる場合、階層毎に基軸単語共起概念表を作成し、大分類など広い概念での基軸単語共起概念表で異なる周辺語が同じ概念となる場合は、それぞれの周辺語を合流し、存在数の和を対応箇所へ登録する。他に、概念データベース110として同義語を含む類義語群が一般概念情報として登録された類語辞書を用いた場合、周辺語を対応する類義語群の各類義語に変換し、各類義語の存在数として対応する周辺語の存在数を割り当て、同一の基軸単語共起語の周辺語に関して変換された類義語毎の共起数の延べ数を周辺語概念ベクトルとして算出し、特定の基軸単語の全基軸単語共起語に対応する周辺概念ベクトルをまとめることで基軸単語共起概念表を作成しても良い。なお、概念データベース110に周辺語に対応する概念が無い場合、前記共起語を概念に変換せず、共起語の単語をそのまま仮の概念として扱い残す。
【0026】
共起語分類部50は、特定の基軸単語に関する基軸単語共起語の各共起語概念について、所定の類似性指標によって対応する共起語概念間の類似性を算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングを行う。ここで、類似性の判定を行う「類似性指標」は共起語概念間の意味的な類似性を判断する基準であれば良く、例えば、共起語概念が、特定の基軸単語の全基軸単語共起語を一般概念情報に基づく一般概念に置き換えた基軸単語共起概念ベクトルで、概念データベース110として前記シソーラスを用いる場合、全基軸単語共起語が同一の一般概念と見なされるまでの分類の深さが類似性指標として有効であり、概念データベース110として前記類語辞書を用いた場合、基軸単語共起語に関して変換された類義語毎の共起数の延べ数で作成した基軸単語共起概念ベクトル間のコサイン距離やユークリッド距離などの距離と単調減少の関係にある関数値が類似性指標として適当である。また、共起語概念が、特定の基軸単語の全基軸単語共起語に対応する前記周辺語概念ベクトルをまとめた前記基軸単語共起概念表で、概念データベース110として前記シソーラスを用いる場合、階層毎に各基軸単語共起語に対応する前記周辺語概念ベクトル間のコサイン距離やユークリッド距離などを算出し、小分類などより詳細な深い分類での距離ほど重視するように重み付けした距離と単調減少の関係にある関数値が類似性指標として適切である。また、クラスタリングの手法は一般的な手法で良く、デンドログラムなどを用いた階層的クラスタリングを適用しても良いし、周辺単語間の類似性と単調減少する指標を距離として導かれる仮想的な周辺単語の位置情報にk−means法やFussy−c−means法などの非階層的クラスタリングを適用しても良い。
【0027】
多義語候補推定部60は、基軸単語としたそれぞれの単語について、それぞれの基軸単語に関する各基軸単語共起語のクラスタリング結果から、クラスタの規模が任意に定めた閾値以上である複数のクラスタが存在する基軸単語を、意味的に複数の用法が見られるとして、多義語の可能性が想定される多義語候補として抽出する。なお、前記クラスタの規模としては、クラスタに帰属する各基軸単語共起語の共起数などを指標とすれば良い。
【0028】
多義語候補出力部70は、多義語候補推定部60で抽出した多義語候補を出力する。ここで、出力形態は、所要の形態で出力すればよく、文書内における多義語候補の基軸単語を色分けや太字による強調などで明示することで、文書全体を出力する形態などが適当である。他にも、出力形態としては、多義語候補の組合せを抽出した表などの形態であって良い。また、他の出力形態としては、多義語候補とされた基軸単語を主ノード、その基軸単語共起語の概念に基づく各クラスタを中間ノード、各クラスタに帰属する基軸単語共起語を端ノードとして関係をリンクで結んだグラフを表示し、共起数の多いリンクを色分けして強調するなどの形態であって良い。また、出力形態としては、多義語候補を抽出する際に用いた類似性指標などで多義語間に定量的な多義度を付加し、多義度が任意に設定された閾値より大きい多義語のみに表示を限定しても良い。もしくは、出力形態としては、多義語候補間の多義度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えるなどしても良い。また、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表やグラフに移行できるようにしてもよい。また、必要に応じて動詞や名詞などを選択的に出力するようにしてもよい。
次に、図1、及び図2に示すシーケンスを参照して、第1の実施形態に係る多義語抽出システム100の全体の動作について詳細に説明する。なお、図2に示す流れ図および以下の説明は処理例であり、適宜求める効果に応じて処理順等を入れ替えたり処理を戻したり繰り返したりすることを行ってもよい。
【0029】
文書入力部10は、対象とする文書もしくは文書群の入力を受け付ける(図2のステップA1)。
単語分析部20は、文書もしくは文書群を構成する各文章に形態素解析や構文解析などを適用することで、各文章に使用されている名詞、動詞、形容詞、形容動詞など単独で意味をなす自立語を単語として抽出し、さらに単語毎の品詞や直後に使用された助詞の種類、単語間の係り受け関係などの単語情報の抽出を行う(ステップA2)。
【0030】
基軸単語共起ベクトル抽出部30は、単語分析部20で抽出された各文章に使用されている任意の単語を基軸単語として選択し、基軸単語毎の単語情報に基づき、所定の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する(ステップA3)。
【0031】
概念データベース110は、収集蓄積されている単語の概念分類および一般的な同義語、類義語、用法などの一般概念情報から、特定の単語に関する問い合わせに対して、適宜単語の意味や用法に関連する一般概念情報を検索し応答する(ステップA4)。
【0032】
共起語概念推定部40は、概念データベース110の一般概念情報を利用して、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語について個々の共起語概念を推定する(ステップA5)。
【0033】
共起語分類部50は、特定の基軸単語に関する各基軸単語共起語について、推定した個々の共起語概念を参照することにより対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、その共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングを行う(ステップA6)。
【0034】
多義語候補推定部60は、特定の基軸単語に関する各基軸単語共起語のクラスタリング結果から、各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、意味的に複数の用法が見られ多義語の可能性が想定される多義語候補として順次抽出する(ステップA7)。
【0035】
多義語候補出力部70は、多義語候補推定部60で抽出できた多義語候補を出力する(ステップA8)。
【0036】
次に、本発明の第1の実施形態に係る多義語抽出システム100の効果について説明する。
本第1の実施形態では、文書内もしくは文書群内の基軸単語共起語を共起語概念に変換することによって、意味的には類似するが単語としては一致しない共起語をクラスタリングした結果に基づいて多義語候補を抽出するように構成しているため、各基軸単語共起語の出現回数が少なく基軸単語共起語間の距離が0となりがちな文章量の少ない条件でも基軸単語について用法のパターンが複数あるかどうかの把握が可能になり、所定の案件に関する文書内で複数の意味を割り当てられている多義語を精度よく抽出できる。
尚、上記第1の実施形態に係る多義語抽出システム100は、多義語抽出方法として実現され得る。また、上記第1の実施形態に係る多義語抽出システム100は、多義語抽出プログラムによりコンピュータによって実行させるようにしても良い。
【0037】
[実施形態2]
次に、第2の実施形態について、図面を参照して詳細に説明する。
図3は、第3の実施形態に係る多義語抽出システム100Aの構成を示すブロック図である。
【0038】
図3を参照すると、第2の実施形態に係る多義語抽出システム100Aは、構成語支配度算出部35と、複合語構成配分推定部36と、を更に含むと共に、後述するように単語分析部と共起語概念推定部の動作が相違する点を除いて、図1に示した第1の実施形態に係る多義語抽出システム100と同様の構成を有し、動作をする。したがって、単語分析部に20Aの参照符号を付し、共起語概念推定部に40Aの参照符号を付してある。
【0039】
図示の多義語抽出システム100Aを上述したコンピュータで実現した場合、データ処理装置が、文書入力部10、単語分析部20A、基軸単語共起ベクトル抽出部30、構成語支配度算出部35、複合語構成配分推定部36、共起語概念推定部40A、共起語分類部50、多義語候補推定部60として働き、補助記憶装置が概念データベース110として動作し、出力装置が多義語候補出力部70として働く。
そして、単語分析部20Aが文書中の単語の中の複合語および複合語の構成語を取得し、構成語支配度算出部35が、複合語の構成語毎の構成語支配度を算出し、複合語構成配分推定部36が、構成語支配度に基づき複合語の構成語毎の概念に重み付けを行った複合語構成配分表を作成し、共起語概念推定部40Aが、基軸単語共起語を概念に変換する前に、基軸単語共起ベクトルの中で複合語となっている基軸単語共起語の共起数を複合語構成配分表に基づいて分配した共起数に換算を行う。
【0040】
次に、多義語抽出システム100Aを構成する各構成要素の動作について説明する。
【0041】
単語分析部20Aは、図1に示した単語分析部20の動作に加え、抽出された各単語の一般概念情報を概念データベース110に問い合わせ、概念データベース110に登録が無く、かつ文字数が2文字以上の単語を複合語として抽出する点で、図1に示した単語分析部20と異なる。さらに単語分析部20Aは、複合語を構成するあらゆる部分文字列について、概念データベース110に一般概念情報を問い合わせ、一般概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベース110に一般概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出する点で、図1に示した単語分析部20と異なる。
なお複合語を構成する部分文字列の内、概念データベース110に一般概念情報の登録がある部分文字列の組合せパターンが複数考えられる場合は、任意の構成語分離ルールに基づいて最適な組合せパターンを判定し、その組合せパターンでの有意構成語、不明構成語を抽出する。ここで、構成語分離ルールとしては、不明構成語の文字数が最も少なくなるパターンを優先するルールや、入力された文書中に単独の単語として出現する頻度が高い有意構成語を優先するルール、一般の文書中に単独の単語として出現する頻度が高い有意構成語を優先するルール、およびこれらを組合せたルールなどが有効である。また、入力された文書中に含まれる他の複合語に共通して使用されている文字列が所定頻度以上に使用されている場合にはその文字列を除いた残りの文字列について、有意構成語として優先するルールを用いてもよい。
なお、一般概念情報とはシソ−ラスにおける分類や、単語の意味を直接的に表すキーワード、類語の集合などが考えられる。
なお、以下で単に構成語と記載した場合は有意構成語と不明構成語を含む。
【0042】
構成語支配度算出部35は、単語分析部20Aで抽出された各文章に使用されている単語および複合語に基づき、任意の複合語共起判定ルールで複合語と共起する単語を複合語共起語として、複合語毎に複合語共起語とその共起数を抽出し、これらをまとめることで複合語共起表を作成する。
ここで、複合語共起判定ルールとしては1文、1段落内の全文章、目次上の同一項目内での全文章、文書全体、文書のタイトル、文書群の中での位置付けなど、文書の特徴に合わせて選択して良い。例えば、品詞が動詞であれば1文内での共起、名詞であれば目次上の同一項目内での全文章内共起のように品詞毎に文書群の範囲を変えるようにすれば良い。
また、共起数は共起回数でも良いが、共起回数を複合語毎の全共起語数で除した頻度などでも良い。
さらに、単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語かどうかを複合語共起判定ルールとして利用しても良い。
また、複合語共起表とは各行が各複合語に、各列が各複合語共起語に対応している行列で、複合語に対する複合語共起語の共起数が表の各値として登録されたものである。
【0043】
さらに、構成語支配度算出部35は、複合共起表と単語分析部20Aで抽出された構成語に基づき、その複合語共起表から同じ構成語を含む部分一致複合語の複合語共起語からなる複合語共起ベクトルを抽出し、構成語別に部分一致複合語共起表を作成する。そして、部分一致複合語共起表の複合語共起ベクトルから得られる共起ベクトル空間における各部分一致複合語間の集約度を構成語支配度として算出する。
ここで、共起ベクトル空間は各ベクトルを対等としても良いが、複合語共起語の品詞によって重み付けを行ったベクトル空間に変換しても良い。また、各部分一致複合語間の集約度とは各部分一致複合語に対応するベクトル間の散らばりの小ささを表す指標であればどのような算出方法によっても良い。例えば分散や標準偏差、変動係数などの一般に統計で用いられるばらつきを示す指標と単調減少の関係にある関数であればよく、分散の逆数や変動係数の逆数などが適している。
【0044】
複合語構成配分推定部36は、構成語支配度算出部35で算出した各構成語支配度で複合語毎の各構成語間の構成語重み付け係数を算出し、構成語重み付け係数をまとめた複合語構成配分表を作成する。
複合語概念構成表とは、各行が各複合語に、各列が複合語の各構成語に対応した行列で、対応する構成語重み付け係数が登録されたものである。
ここで、構成語重み付け係数の算出方法としては、各構成語の構成語支配度を複合語毎の構成語支配度の総和で除すことで正規化した値を指標とする方法などが有効である。
【0045】
共起語概念推定部40Aは、上記説明した共起語概念推定部40の動作に加え、基軸単語共起ベクトル抽出部30で作成された基軸単語共起表の基軸単語共起ベクトルの各共起語の内で複合語になっている基軸単語共起語について、複合語構成配分推定部36で作成した複合語構成配分表に基づく係数を使用して、所要の推定方法に合致させて各複合語に適する共起語概念を推定する。一例としては、共起語概念推定部40Aに、各複合語を構成する各構成語をそれぞれ基軸単語共起語として独立させ、複合語構成配分推定部36で作成した複合語構成配分表に基づき、前記基軸単語共起語の共起数に各構成語の構成語重み付け係数を掛けて算出した値を各構成語の共起数として基軸単語共起ベクトルを変更し、前記所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する。
なお、使用する概念推定方法として、複合語を含む周辺語を考慮し、特定の基軸単語の全基軸単語共起語に対応する周辺概念ベクトルをまとめた基軸単語共起概念表を共起語概念とする場合、前記基軸単語共起表の周辺語構成ベクトルの各周辺語の内で複合語になっている周辺語について、各構成語をそれぞれ周辺語として独立させ、複合語構成配分推定部36で作成した複合語構成配分表に基づき、前記周辺語の存在数に各構成語の構成語重み付け係数を掛けて算出した値を各構成語の存在数として周辺語構成ベクトルを変更しても良い。
【0046】
それ以外の文書入力部10、基軸単語共起ベクトル抽出部30、共起語分類部50、多義語候補推定部60、多義語候補出力部70、概念データベース110の構成と機能は、第1の実施形態のそれらとそれぞれ同じであるので、説明を省略する。
【0047】
次に、図3、及び図4に示すシーケンスを参照して、第2の実施形態に係る多義語抽出システム100Aの全体の動作について説明する。なお、図4に示す流れ図および以下の説明は処理例であり、第1の実施形態と同様に処理順等を入れ替えたり処理を戻したりすることを行ってもよい。
上述した第1の実施形態の動作と比較すると、以下に説明する本第2の実施形態の動作は、次の動作が加わっている点で異なる。
【0048】
単語分析部20Aは、図1に示した単語分析部20の動作(ステップA2)に加え、抽出された各単語の一般概念情報を概念データベース110に問い合わせ、概念データベース110に登録が無く、かつ文字数が2文字以上の単語を複合語として抽出する(ステップB1)。
さらに単語分析部20Aは、複合語を構成するあらゆる部分文字列について、概念データベース110に一般概念情報を問い合わせ、一般概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベース110に一般概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出する(ステップB2)。
【0049】
次に構成語支配度算出部35は、単語分析部20Aで抽出された各文章に使用されている単語の単語情報および複合語に基づき、複合語共起判定ルールで複合語と共起する単語を複合語共起語として、複合語毎に複合語共起語とその共起数を抽出し、これらをまとめることで複合語共起表を作成する(ステップB3)。
さらに構成語支配度算出部35は、複合共起表と単語分析部20Aで抽出された構成語に基づき、前記複合語共起表から同じ構成語を含む部分一致複合語の複合語共起語からなる複合語共起ベクトルを抽出し、構成語別に部分一致複合語共起表を作成し、部分一致複合語共起表の複合語共起ベクトルから得られる共起ベクトル空間における各部分一致複合語間の集約度を構成語支配度として算出する(ステップB4)。
【0050】
次に複合語構成配分推定部36は、構成語支配度算出部35で算出した各構成語支配度で複合語毎の各構成語間の構成語重み付け係数を算出し、構成語重み付け係数をまとめた複合語構成配分表を作成する(ステップB5)。
【0051】
共起語概念推定部40Aは、図1に示した共起語概念推定部40の動作内容(ステップA5)に加え、基軸単語共起ベクトル抽出部30で作成された基軸単語共起表の基軸単語共起ベクトルの各共起語の内で複合語になっている基軸単語共起語について、各構成語をそれぞれ基軸単語共起語として独立させ、複合語構成配分推定部36で作成した複合語構成配分表に基づき、前記基軸単語共起語の共起数に各構成語の構成語重み付け係数を掛けて算出した値を各構成語の共起数として基軸単語共起ベクトルを変更し、前記所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する(ステップA5’)。
他のステップの動作は、上述した第1の実施形態における動作と同一であるので、それらの説明については省略する。
【0052】
次に、第2の実施形態の上記動作での効果について説明する。
第2の実施形態では、第1の実施の形態の効果に加え、基軸単語共起語の中の複合語について構成語毎の構成語支配度を算出し、構成語支配度に基づき重み付けを行った概念に変換する。このことによって、シソーラスなどに一般概念情報の登録が無い複合語なども考慮して多義語候補を抽出するように構成できるため、基軸単語共起ベクトルから基軸単語概念ベクトルへの変換の障害となる、独自の複合語の多い文章群でも基軸単語共起語間の類似性の評価が可能になり、所定の案件に関する文書内で複数の意味を割り当てられている多義語をより精度よく抽出できる。
尚、上記第2の実施形態に係る多義語抽出システム100Aは、多義語抽出方法として実現され得る。また、上記本発明の第2の実施形態に係る多義語抽出システム100Aは、多義語抽出プログラムによりコンピュータによって実行させるようにしても良い。
【実施例1】
【0053】
次に、図5を参照して、具体的な第1の実施例を用いて、第1の実施形態に係る多義語抽出システム100の動作について説明する。
【0054】
本第1の実施例では、次のことを目的としている。
先ず、多義語抽出システム100は、情報システム構築に関する提案書や仕様書といった一般的な意味と異なった概念を示す意味としても使用される多義語を含む文書D内に含まれる特定の案件に関する文書群でのみ成り立つ多義語候補Aを推定する。そして、多義語抽出システム100は、推定結果を出力することで、未登録の用語に関する用語集の作成や単語の定義を支援する。また、本第1の実施例では、多義語抽出システム100は、図5に示されるように、文書解析システムYと、インターネット・サーバZとで構成されるものとする。
文書解析システムYは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが多義語を抽出したい文書群を構成する文章の入力と、多義語候補Aの提示を実現する。
インターネット・サーバZは、通信ネットワークを介して文書解析システムYを実装した分析実施者Bの持つPC端末と接続されている。インターネット・サーバZは、文書解析システムYからの単語の意味などの概念情報の問い合わせに対して、単語の概念分類や一般的な多義語や類義語、用法に関連する一般概念情報Cgの検索を可能にする装置である。
【0055】
図5と図1との対応関係について説明する。
文書入力部10と、単語分析部20と、基軸単語共起ベクトル抽出部30と、共起語概念推定部40と、共起語分類部50と、多義語候補推定部60とは、文書解析システムY内に含まれている。多義語候補出力部70は、PC端末の出力部として動作する。概念データベース110はインターネット・サーバZ内に含まれている。この様な手段を備えた文書解析システムY、インターネット・サーバZは以下のような動作をする。
【0056】
文書解析システムYは、入力部から、分析実施者Bが特定の案件に関する文書群でのみ成り立つ多義語候補Aを推定したい文書群を構成する文書Dの入力を受け付ける。そして、文書解析システムYは、文書Dを構成する文章毎に形態素解析および構文解析を適用して文書を構成する単語に分解し、各単語の品詞とその係り受け関係を解析することで、名詞および、動詞、形容詞、形容動詞を単語Wとして抽出する。なお、動詞の内でサ行変格活用に属する動詞は活用部分を除去しいわゆるサ変名詞化したものを動詞として抽出することとする。
【0057】
さらに文書解析システムYは、文書Dに含まれる単語Wの内で名詞を基軸単語Sとし、各基軸単語Si(i=1、2、・・・、n)について、特定の基軸単語Sw(i=w)と係り受け関係にある動詞と形容詞と形容動詞を、基軸単語共起語Vwj(j=1、2、・・・、m)として抽出し、基軸単語Swに対する各基軸単語共起語Vwjの共起回数を共起数Nwjとして集計し、基軸単語共起ベクトルNwを作成する。例えば、文書Dから、基軸単語Swとして「資材」、「総務」、・・・などの単語が、共起語Vとして「製造」、「備蓄」、「採掘」、「廃棄」、「混合」、「購買処理」、「見積」、「発注」、「予算」、「変更処理」、・・・などの単語が抽出され、各基軸単語Swに対する基軸単語共起語Vwjの共起数Nwjが図6のようになっていた場合、図6の表の各行のデータセットが基軸単語共起ベクトルNiに、特定の基軸単語Swのデータセットが基軸単語共起ベクトルNwに相当し、「資材」の基軸単語共起ベクトルNwは{5,1,1,1,3,3,4,2,1,4・・・}のように表される。
【0058】
インターネット・サーバZは、単語の一般的な上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類して体系づけたシソーラスの一般概念情報Cgを蓄積する。また、インターネット・サーバZは、任意の単語の情報を抽出する検索エンジンなどの機能も提供することで、文書解析システムYからの問い合わせに応じて、問い合わせ対象の単語の一般的な概念分類として大分類、中分類、小分類を一般概念情報Cgとして抽出し、提示する。
【0059】
文書解析システムYは、基軸単語共起ベクトルNwの各基軸単語共起語Vwjのそれぞれに関する共起語概念Cvwjを、インターネット・サーバZに問い合わせた一般概念情報Cgに基づき抽出する。
【0060】
共起語概念Cvwjの抽出方法としては、直接的に各基軸単語共起語Vwjのそれぞれの一般概念情報Cgについてインターネット・サーバZに問い合わせを行うことで、インターネット・サーバZ内に保存されたシソーラスの一般概念情報Cgの分類体系から、各基軸単語共起語Vwjが属する共起語概念Cvwjとして大分類の共起語概念C1vwjと、中分類の共起語概念C2vwjと、小分類の共起語概念C3vwjとを抽出し、各分類の階層での概念共起数Ncwjが分かるように木構造などにまとめた共起語概念図Cvwjを作成する方法が適切である。この方法を概念直接抽出法とする。概念直接抽出方法に寄れば、図6の基軸単語Sw「資材」に関する基軸単語共起ベクトルNwの共起数Nwjの各基軸単語共起語Vwjについて、図7のような共起語概念C1vwj、共起語概念C2vwj、共起語概念C3vwjが抽出された場合、共起語概念図Cvwjは図8のような樹形図で表される。図8で共起語概念図Cvwの各分類の階層での概念共起数Ncwjはより下位に帰属する基軸単語共起語Vwjの共起数Nwjの総和で算出される。なお、インターネット・サーバZに一般概念情報Cgの登録が無い「変更処理」、「購買処理」などの複合語は、基軸単語共起語の単語をそのまま仮の概念として残して処理する。
【0061】
また、より高度な共起語概念Cvwjの抽出方法として概念間接抽出法を以下に解説する。概念間接抽出方法では、各基軸単語共起語Vwjのそれぞれについて、各基軸単語共起語Vwjと係り受け関係にある動詞と形容詞と形容動詞、および目次上の同一項目内の文章内で共起する名詞を、周辺語Vvwjf(f=1、2、・・・、y)として抽出し、基軸単語共起語Vwjに対する各周辺語Vvwjfの共起回数を存在数Ljfとして集計し、全ての基軸単語共起語Vwjに対する各周辺語Vvwjfについて表形式にまとめた周辺語構成表VVを作成する。
なお、周辺語構成表VVの基軸単語共起語Vwjに対する各周辺語Vvwjfの存在数Ljfをまとめたデータセットを周辺語構成ベクトルLjと呼ぶ。周辺語構成表VVの各周辺語Vvwjfのそれぞれの一般概念情報Cgについてインターネット・サーバZに問い合わせを行うことで、インターネット・サーバZ内に保存されたシソーラスの一般概念情報Cgの分類体系から取得する。その後、各周辺語Vvwjfが属する大分類の周辺語概念C1vwjfと、中分類の周辺語概念C2vwjfと、小分類の周辺語概念C3vwjfとを抽出し、周辺語構成表VVにおける周辺語Vvwjfを周辺語概念C1vwjfに変換し、同じ概念となる周辺語Vvwjfをまとめ、存在数Ljfの和を対応箇所へ登録した大分類の共起語概念表VC1、周辺語構成表VVにおける周辺語Vvwjfを周辺語概念C2vfwjfに変換し、同じ概念となる周辺語Vvwjfをまとめ、存在数Ljfの和を対応箇所へ登録した中分類の共起語概念表VC2、周辺語構成表VVにおける周辺語Vvwjfを周辺語概念C3vfwjfに変換し、同じ概念となる周辺語Vvwjfをまとめ、存在数Ljfの和を対応箇所へ登録した小分類の共起語概念表VC3を作成する。
なお、大分類の共起語概念表VC1の基軸単語共起語Vwjに対する各周辺語概念C1vfwjfの存在数Lc1jfをまとめたデータセットを大分類共起語概念ベクトルLc1jと呼び、中分類の共起語概念表VC2の基軸単語共起語Vwjに対する各周辺語概念C2vfwjfの存在数Lc2jfをまとめたデータセットを中分類基軸単語概念ベクトルLc2jと呼び、小分類の共起語概念表VC3の基軸単語共起語Vwjに対する各周辺語概念C3vfwjfの存在数Lc3jfをまとめたデータセットを小分類共起語概念ベクトルLc3jと呼ぶ。
【0062】
ここで、大分類共起語概念ベクトルLc1jと中分類基軸単語概念ベクトルLc2jと小分類共起語概念ベクトルLc3jとが共起語概念Cvwjに相当する。例えば、図6のように、文書Dから基軸単語共起語Vwjとして「製造」、「変更処理」、・・・などの単語が抽出され、これらの基軸単語共起語Vwjの周辺語Vvwjfとして「利用」、「操作」、「構築」、「改善」、「システム変更」、「メカニズム」、「瞬時」、「短期」、「稼働」、「高速処理」、・・・などの単語が抽出された場合、周辺語構成表VVは図9のような、各行に基軸単語共起語Vwjを各列に周辺語Vvwjfを配置し、その存在数Ljfを記載した表になる。また、図9の基軸単語共起語Vwjの行のデータセットが周辺語構成ベクトルLjに相当し、「製造」の周辺語構成ベクトルLjは{0、3、2、0、4、0、1、0、3、0、・・・}のように表される。なお、基軸単語共起語Vwjと周辺語Vvwjfはいずれも名詞を含むため、先に基軸単語共起語Vwjとして選択された単語も、他の単語が基軸単語共起語Vwjの場合は周辺語Vvwjfとして扱われることがある。
【0063】
さらに図9の周辺語構成表VVにおける各周辺語Vvwjfについて、図10のような周辺語概念C1vwjf、周辺語概念C2vwjf、周辺語概念C3vwjfが抽出された場合、大分類の共起語概念表VC1は図11、中分類の共起語概念表VC2は図12、小分類の共起語概念表VC3は図13のような各行に基軸単語共起語Vwjを各列に各分類の周辺語概念Cvwjfを配置した表となる。共起語概念表VC1、VC2、VC3の各共起数は、大分類の共起語概念表VC1を例とすると、周辺語Vvwjfの内で「利用」、「操作」、「構築」、「改善」、「稼働」の周辺語概念C1vwjfは「人間活動」で共通のため、これらの周辺語Vvwjfにおける存在数を同一の基軸単語共起語「製造」に関して足し合わせた「8」が存在数Lc1jfとなる。同様に周辺語Vvwjfの内で「メカニズム」、「瞬時」、「短期」の周辺語概念C1vwjfは「抽象」で共通のため、これらの周辺語Vvwjfにおける存在数を基軸単語共起語「製造」に関して足し合わせた「1」が存在数Lc1jfとなる。なお、インターネット・サーバZに一般概念情報Cgの登録が無い「システム変更」、「高速処理」などの複合語は、共起語の単語をそのまま仮の概念として残して処理する。図11より、基軸単語共起語「製造」の大分類共起語概念ベクトルLc1jは{8、4、1、0、・・・}のように表される。
【0064】
さらに文書解析システムYは、各共起語概念Cvwjに基づき各基軸単語共起語Vwj間の類似性Fwを算出し、任意の閾値よりも類似性Fwが大きい各基軸単語共起語Vwjをまとめ、各基軸単語共起語Vwjをクラスタリングすることで、各基軸単語共起語クラスタEwzを抽出する。
【0065】
基軸単語共起語Vwp(j=p)と基軸単語共起語Vwq(j=q)の類似性Fwpqの算出方法の例としては、前記概念直接抽出法によって各共起語概念Cvwjを求めた場合は、共起語概念Cvwpと共起語概念Cvwqが同一の分類になる分類階層と分類体系における最も大まかな分類階層までの階層差によって定量化する。例えば、図8の例のように大分類(1層目)、中分類(2層目)、小分類(3層目)の3階層からなる分類体系を持つシソーラスで基軸単語共起語Vwp「製造」と基軸単語共起語Vwq「採掘」は小分類の共起語概念C3vwj「生産」で一致しているため、1層目と3層目の差分として「2」が類似性の指標となる。また、図8の例で類似性Fwの閾値を1以上とすると、中分類の共起語概念C2vwj以下で各基軸単語共起語Vwjがクラスタリングされることになり、図14に示すような点線で囲まれた5つのクラスタが基軸単語共起語クラスタEwzとして抽出される。
【0066】
一方、前記概念間接抽出法によって各共起語概念Cvwjを求めた場合は、基軸単語共起語Vwpに対応する大分類共起語概念ベクトルLc1pと基軸単語共起語Vwqに対応する大分類共起語概念ベクトルLc1qの間のコサイン距離dc1pqと、中分類共起語概念ベクトルLc2pとLc2qの間のコサイン距離dc2pqと、小分類共起語概念ベクトルLc3pとLc3qの間のコサイン距離dc3pqとを算出し、以下の(1)式によりそれぞれの分類重み付け係数β1、β2、β3(β1<β2<β3)を掛けた和を基軸単語共起語間距離dwpqとして算出し、逆数など基軸単語共起語間距離dpqと単調減少の関係にある関数によって類似性Fwpqを算出する。この処理を全ての基軸単語共起語Vijの組合せについて行う。
dpq=β1×dc1pq+β2×dc2pq+β3×dc3pq・・・(1)式
【0067】
例えば、図11〜13の例では基軸単語「製造」と「蓄積」のコサイン距離は、dc1pq=0.26、dc2pq=0.57、dc3pq=0.68となり、分類重み付け係数をβ1=0.009、β2=0.09、β3=0.9とすると、基軸単語共起語間距離dpq=0.67となる。さらに、クラスタリング方法としては各基軸単語共起語Vwjを初期のクラスタと見なし、基軸単語共起語間距離dpqについて、最もクラスタ間距離が近いクラスタ同士を新しいクラスタとし、さらに新しい全てのクラスタ間の距離を求め、最も近い2つを結合して新しくクラスタを作るという処理を繰り返し、全てのクラスタが一つのクラスタに結合されるまで繰り返すことでデンドログラムを作成し、任意のクラスタ間距離基準でまとめられた基軸単語共起語Vwjの集団を基軸単語共起語クラスタEwzとする。図9〜13の情報に基づき、得られたデンドログラムでクラスタ間距離基準を5とした場合、図15に示すように2つのクラスタが基軸単語共起語クラスタEwzとして抽出される。
【0068】
文書解析システムYは、特定の基軸単語Swに関する各基軸単語共起語Vwjのクラスタリング結果として得られた基軸単語共起語クラスタEwzについて、また各基軸単語共起語クラスタEwzに属する基軸単語共起語Vwjの共起数Nwjの総和をクラスタ規模Nwzとして抽出する。そして、クラスタ規模Nwzが任意に定めた閾値以上のクラスタが複数存在する基軸単語Swを、意味的に複数の用法が見られ、多義語の可能性が想定される多義語候補Awとして抽出する。
前記概念直接抽出法によって各共起語概念Cvwjを求めた図6〜9の例で、閾値を20%とすると、基軸単語共起語Vwjは25個あるため、5個以上の基軸単語共起語Vwjが属する基軸単語共起語クラスタEwzとして「産業」と「経済」の二つが抽出され、基軸単語Sw「資材」は多義語候補Awと判定される。これは基軸単語共起語クラスタEwz「産業」に属する基軸単語共起語Vwjの意味、および基軸単語共起語クラスタEwz「経済」に属する基軸単語共起語Vwjの意味から、「資材」は「材料」および「資材調達部門」の略語としての二つの意味を持った可能性が高く、このような多義性を見出すことができる。同様に、前記概念間接抽出法によって各共起語概念Cvwjを求めた図15の例で、閾値を20%とすると、2つのクラスタはいずれも5個以上の基軸単語共起語Vwjが属しているため基軸単語Sw「資材」は多義語候補Awと判定される。
さらに文書解析システムYは、多義語候補Awについて、要求文書Dで該当する多義語候補Awを色分けや太字による強調などの加工を行い、加工後の要求文書Dを、出力部から出力する。
【実施例2】
【0069】
次に、図10を参照して、具体的な第2の実施例を用いて、第2の実施形態に係る多義語抽出システム100Aの動作を説明する。
本第2の実施例では、多義語抽出システム100Aは、図16に示されるように、インターネット・サーバZ’を利用するものとする。
文書解析システムYaは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが多義語を抽出したい文書群を構成する文章の入力と、多義語候補Aの提示を実現する。
【0070】
インターネット・サーバZ’は、既存のシソーラスを提供するサーバであり、通信ネットワークを介して文書解析システムYaを実装した分析実施者Bの持つPC端末と接続されている。インターネット・サーバZ’は、文書解析システムYaからの単語の概念情報の問い合わせに対して、単語の概念分類や一般的な同義語や類義語、用法に関連する一般概念情報Cgの検索を可能にする装置である。
【0071】
本第2の実施例では、第1の実施例の動作に加え、文書解析システムYaが構成語支配度算出部35と、複合語構成配分推定部36と、を更に含む。
すなわち、図16と図3との対応関係は次のように成る。
文書入力部10と、単語分析部20Aと、構成語支配度算出部35と、複合語構成配分推定部36と、基軸単語共起ベクトル抽出部30と、共起語概念推定部40Aと、共起語分類部50と、多義語候補推定部60とは、文書解析システムYa内に含まれている。多義語候補出力部70は、PC端末の出力部として動作する。概念データベース110はインターネット・サーバZ’内に含まれている。
【0072】
この様な構成を含めた文書解析システムYaは、上述した第1の実施例に対して、以下のような動作を加える。
文書解析システムYaは、各基軸単語共起語Vijのそれぞれの一般概念情報Cgをインターネット・サーバZ’に問い合わせることで、インターネット・サーバZ’内に保存されたシソーラスに、各単語Vijの一般概念情報Cgが登録されているかどうかを検索し、シソーラスに一般概念情報Cgの登録が無く、かつ文字数が2文字以上の単語を複合語Vme(e=1、2、・・・、h)として抽出する。例えば「購買処理」という単語がシソーラスに登録されていない場合は、2文字以上であるため複合語として抽出する。
【0073】
さらに文書解析システムYaは、複合語Vme毎に複合語Vmeの文字列をあらゆるパターンで分離し、分離した全ての部分文字列について、インターネット・サーバZ’内に保存されたシソーラスに一般概念情報Cgが登録されているかどうかを検索する。そして、一般概念情報の登録がない部分文字列の文字数が最も少なくなるパターンでの、部分文字列を複合語Vmeの構成語Pek(k=1、2、・・・、l)として処理し、構成語Pekの内、一般概念情報Cgの登録が有る部分文字列は有意構成語Paekとし、登録が無い部分文字列は不明構成語Pbekとして、それぞれ複合語毎に抽出する。
図6の「購買処理」という複合語の例では、{「購」、「買処理」}、{「購買」、「処理」}、{「購買処」、「理」}が分離可能な文字列として想定され、「買処理」と「購買処」がシソーラスに登録されていない場合は、「購」、「購買」、「処理」、「理」が有意構成語Paekの候補、「買処理」、「購買処」が不明構成語Pbekの候補となるが、一般概念情報Cgの登録がない部分文字列の文字数が最も少ない{「購買」、「処理」}の組合せが複合語「購買処理」の有意構成語として選択される。
【0074】
文書解析システムYaは、「構築する情報システムの機能」など文書Dで一定の範囲の内容に言及している文章群として分析者Bが指定した段落の文章内で複合語Vmeと共起する名詞、および複合語Vmeに係る動詞と形容詞、形容動詞をs個の複合語共起語Umer(r=1、2、・・・、s)として、複合語Vme毎に複合語共起語Umerと、共起と見なした範囲内での共起回数Merを抽出し、各行を各複合語Vmeに各列を各複合語共起語Umerに対応させ、複合語Vmeに対する複合語共起語Umerの共起回数Merを各値として登録した疎行列からなる複合語共起表VUmを作成する。
さらに、文書解析システムYaは、前記複合語共起表VUmの各構成語Pek別に、同じ構成語Px(x=1、2、・・・、t)を含むt個の複合語Vmxの行成分(Mx1,Mx2,Mx3,・,・,・,Mxs)を抽出し、各行成分を各複合語Vmxに、各列を各複合語共起語Umxrに対応させ、複合語Vmxに対する複合語共起語Umxrの共起回数Mxrを各値として登録した疎行列からなる部分一致複合語共起表VUxを作成する。
例えば「処理」という構成語を含む部分一致複合語共起表としては図17、「変更」という構成語を含む部分一致複合語共起表としては図18のような表が作成される。さらに、文書解析システムYaは、以下の数1のように、部分一致複合語共起表VUxの複合語共起語Umxr毎のデータ列(M1r,M2r,M3r,・,・,・,Mtr)で分散σxrを算出し、全複合語共起語Umxrの分散σxrの平均値の平方根の逆数を構成語Pxの構成語支配度Gxとして算出する。
【数1】

【0075】
文書解析システムYaは、複合語Vme毎の各構成語Pekに対応する各構成語支配度Gxekの値を構成語支配度Gxekの総和で除すことで正規化した構成語重み付け係数αekを算出し、各行を各複合語Vmeに各列を各構成語Pekに対応させ、複合語Vmeに対する各構成語Pekの構成語重み付け係数αekを各値として登録した疎行列からなる、複合語構成配分表Teを作成する。
例えば、図6の基軸単語共起語の内で複合語であった「変更処理」、「購買処理」に関して、構成語「処理」の構成語支配度Gxが1.47で、構成語「変更」の構成語支配度Gxが2.21、構成語「購買」の構成語支配度Gxが3.43であった場合、複合語構成配分表Teは図19のようになる。図19は、複合語「変更処理」を構成語「変更」と構成語「処理」の組合せとして理解する場合、構成語「変更」の方が構成語「処理」よりも重要であることを示している。
【0076】
文書解析システムYaは、複合語Vmeが基軸単語共起語Vijの一つであるという観点から、特定の基軸単語Swと共起した複合語Vmweの構成語Pekを、それぞれ基軸単語共起語Vmwekとして独立させる。そして、複合語構成配分表Teに基づき複合語Vmweの共起数Nweに各構成語Pekに対応する構成語重み付け係数αekを掛けた値を共起数Nwekとして算出することで、基軸単語共起ベクトルNwを変更する。図6の基軸単語「資材」について詳細に説明すれば、複合語である「変更処理」と「購買処理」の構成語「処理」と「変更」、および「購買」と「処理」が基軸単語共起語として独立し、図19に示しているように「変更処理」の構成語重み付け係数が「変更=0.6」、「処理=0.4」で、同様に「購買処理」の構成語重み付け係数が「購買=0.7」と「処理=0.3」であるので、重み付け共起数Nwekは「変更:2.4=4×0.6」、「処理:2.5=4×0.4+3×0.3」、「購買:2.1=3×0.7」となる。他の各基軸単語共起語Vwも同様に処理を行い、図6に示した基軸単語共起ベクトルは図20に示す基軸単語共起ベクトルのように変換される。
【0077】
文書解析システムYaの他の動作は第一の実施例と同様である。例えば、図20の基軸単語Sw「資材」に関する基軸単語共起ベクトルNwの共起数Nwjの各基軸単語共起語Vwjについて、前記概念直接抽出法によって、図21のような共起語概念C1vwj、共起語概念C2vwj、共起語概念C3vwjが抽出された場合、共起語概念図Cvwjは図22のような樹形図で表される。さらに、図22の例で類似性Fwの閾値を1以上とすると、中分類の共起語概念C2vwj以下で各基軸単語共起語Vwjがクラスタリングされることになり、図23に示すような点線で囲まれた3つのクラスタが基軸単語共起語クラスタEwzとして抽出される。クラスタ規模の閾値を第一の実施例よりも高く30%としても、基軸単語共起語Vwjが属する基軸単語共起語クラスタEwzとして「産業」と「経済」の二つが抽出され、基軸単語Sw「資材」は多義語候補Awと判定される。このように辞書に登録されていない未知の複合語を、構成語毎に考慮することでより多くの基軸単語共起語を考慮した多義語の推定が精度よく可能となる。
【0078】
以上説明したように、本発明の多義語抽出システムによれば、情報システム構築に関する提案書や仕様書等といった 所定の案件に関する文書内で複数の意味を割り当てられている多義語のある文書について、その文書で成り立っている多義語を把握することが分析に使用した文書又は文書群から可能となる。もって、情報システムの構築時に、誤解に基づく混乱や失敗などの削減につながる。その理由は、単語の共起語の類似性を概念レベルでの一致具合で算出し、共起語をクラスタリングすることで、特定の案件に関する文書群という限られた文書量の情報で同一の共起語の使用が無くても、用法的に複数の共起語群を持ち多義である可能性の高い単語を抽出可能にしているためである。
【0079】
また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。
【0080】
例えば、一般概念と異なる概念での用法を有する多義語を含む文書中からその多義語を所要に抽出するため、多義語抽出システムとして動作する情報処理装置を、入力部から受け付けた文書から多義語を抽出する際に、文章として使用されている各単語の抽出を行うと共に、抽出した単語群から任意の単語を基軸単語として共起関係を有する基軸単語共起語及び共起数から前記基軸単語の基軸単語共起ベクトルを抽出し、該基軸単語共起ベクトルに含まれる各基軸単語共起語の共起語概念を個々に推定し、推定した共起語概念間の類似性に基づいて含まれていた各基軸単語共起語をクラスタ化し、前記任意の単語として選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補とする処理を繰り返して、抽出した多義語候補を出力部から出力する。
【0081】
この際に、分析対象とする文書毎(文章群毎)に重み付けを与えられるようにしてもよい。
例えば、確度の高い文書とそうではない文書とを重み付けと共に入力を受け付けて、各係数として使用してもよい。
また、分析対象とする文書群(文章群)の作成者や所属機関などについて重み付けを与えられるようにしてもよい。
また、文書群の有する引用関係や引用数に基づいて重み付けを算定してもよい。
また、翻訳されている文章についてその多義語を抽出する際に、使用する一般概念を翻訳前の元言語の一般概念を使用するようにしてもよい。
これらの情報は、操作者から受け付けることとしてもよいし、文章を構文解析や意味解析などの自然言語解析を行って自動的に抽出するようにしてもよい。
また、自然言語解析によって、使用する概念推定方法などのアルゴリズムを、適する候補の抽出や自動選択を行うようにしてもよい。
【産業上の利用可能性】
【0082】
本発明によれば、ソフトウェアやシステムの開発における要件定義などの作業においてやり取りされる各種文書に関して、文書の曖昧さを除外することで文書の理解・作成・修正を支援することが可能になり、手戻りの減少や顧客満足の向上などシステム開発の効率化に関する用途に適用できる。
また、多義語を精度よく抽出できるので、翻訳システムに用いて訳し分けに利用できる。
【符号の説明】
【0083】
10 文書入力部
20、20A 単語分析部
30 基軸単語共起ベクトル抽出部
35 構成語支配度算出部
36 複合語構成配分推定部
40、40A 共起語概念推定部
50 共起語分類部
60 多義語候補推定部
70 多義語候補出力部
100、100A 多義語抽出システム
D 文書
Y、Ya 文書解析システム
Z、Z’ インターネット・サーバ

【特許請求の範囲】
【請求項1】
入力を受けた所定の文章に使用されている各単語の抽出を行う単語分析部と、
前記単語の内で任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、
基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、
推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、
前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部と、
を備えたことを特徴とする多義語抽出システム。
【請求項2】
対象とする文書もしくは文書群の入力を受け付ける文書入力部と、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報の抽出を行う単語分析部と、
前記単語の内で任意の単語を基軸単語として選択して、基軸単語毎の単語情報に基づき、任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出する基軸単語共起ベクトル抽出部と、
単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースと、
概念データベースの一般概念情報を利用し、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する共起語概念推定部と、
特定の基軸単語に関する各基軸単語共起語について、対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングを行う共起語分類部と、
各基軸単語に関する各基軸単語共起語の各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部と、
を備えたことを特徴とする多義語抽出システム。
【請求項3】
入力を受けた所定の文章に使用されている各単語の抽出を行い、各単語の内で複合語とその構成語を抽出する単語分析部と、
構成語毎に構成語支配度を算出する構成語支配度算出部と、
各構成語支配度を使用して複合語毎に構成語重み付け係数を算出する複合語構成配分推定部と、
前記単語の内で任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、
基軸単語共起表の基軸単語共起ベクトルの各共起語の内で複合語になっている基軸単語共起語について、各構成語をそれぞれ基軸単語共起語として扱い、前記基軸単語共起語の共起数に各構成語の構成語重み付け係数を掛けて算出した値を各構成語の共起数として基軸単語共起ベクトルを更新し、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、
推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、
前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部と、
を備えたことを特徴とする多義語抽出システム。
【請求項4】
対象とする文書もしくは文書群の入力を受け付ける文書入力部と、
単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースと、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報の抽出を行い、概念データベースに抽出された各単語で一般概念情報の登録が無く、かつ文字数が2文字以上の単語を複合語として抽出し、複合語を構成するあらゆる部分文字列について、一般概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、登録が無い部分文字列を不明構成語として抽出する単語分析部と、
各単語の単語情報、および複合語に基づき、複合語共起判定ルールで複合語と共起する単語を複合語共起語として、複合語毎に複合語共起語とその共起数を抽出し、これらをまとめることで複合語共起表を作成し、前記複合語共起表から同じ構成語を含む部分一致複合語の複合語共起語からなる複合語共起ベクトルを抽出し、構成語別に部分一致複合語共起表を作成し、部分一致複合語共起表の複合語共起ベクトルから得られる共起ベクトル空間における各部分一致複合語間の集約度を構成語支配度として算出する構成語支配度算出部と、
各構成語支配度を使用して複合語毎の各構成語間の構成語重み付け係数を算出し、構成語重み付け係数をまとめた複合語構成配分表を作成する複合語構成配分推定部と、
前記単語の内で任意の単語を基軸単語として選択して、基軸単語毎の単語情報に基づき、任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出する基軸単語共起ベクトル抽出部と、
基軸単語共起表の基軸単語共起ベクトルの各共起語の内で複合語になっている基軸単語共起語について、各構成語をそれぞれ基軸単語共起語として扱い、複合語構成配分表に基づき、前記基軸単語共起語の共起数に各構成語の構成語重み付け係数を掛けて算出した値を各構成語の共起数として基軸単語共起ベクトルを更新し、概念データベースの一般概念情報を利用し、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する共起語概念推定部と、
前記任意の基軸単語に関する各基軸単語共起語について、対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングをそれぞれ行う共起語分類部と、
各基軸単語に関する各基軸単語共起語の各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部と、
を備えたことを特徴とする多義語抽出システム。
【請求項5】
前記基軸単語共起ベクトル抽出部における基軸単語共起判定ルールが、基軸単語と係り受けの関係にある単語を共起語と見なすルール、又は基軸単語と同一の文内で特定の助詞を伴って使用されている単語を共起語と見なすルールを用いることを特徴とする請求項2又は4に記載の多義語抽出システム。
【請求項6】
前記概念データベースは、単語を分類体系付けて記憶しており、単語間の同義関係、類義関係、上位/下位関係、部分/全体関係について、一般概念情報として取得できるシソーラスである、ことを特徴とする請求項2又は4に記載の多義語抽出システム。
【請求項7】
前記共起語概念推定部の概念推定方法が、各基軸単語共起語に関する一般概念情報を前記概念データベースに問い合わせ、特定の基軸単語の全基軸単語共起語を一般概念情報概念に置き換えた基軸単語共起概念ベクトルを共起語概念とし、前記共起語分類部が、全基軸単語共起語が同一の一般概念情報概念と見なされるまでの分類の深さを類似性指標としてクラスタリングを行う、ことを特徴とする請求項6に記載の多義語抽出システム。
【請求項8】
前記共起語概念推定部の概念推定方法が、基軸単語共起語について任意の周辺語判定ルールで基軸単語共起語の周辺に存在する周辺語とその存在数に基づく周辺語構成ベクトルを全基軸単語共起語についてまとめた周辺語構成表を作成し、周辺語構成表の周辺語構成ベクトルにおける各周辺語のそれぞれについて、前記概念データベースに一般概念情報を問い合わせ、任意の範囲内で周辺語構成表における各周辺語構成ベクトルの各周辺語を一般概念に変換した周辺語概念ベクトルを対応する基軸単語共起語毎に作成し、特定の基軸単語の全基軸単語共起語に対応する周辺概念ベクトルをまとめた基軸単語共起概念表を共起語概念とし、
前記共起語分類部が、階層毎に各基軸単語共起語に対応する前記周辺語概念ベクトル間の距離を算出し、より詳細な分類での距離ほど重視するように重み付けた距離と単調減少の関係にある関数値を類似性指標としてクラスタリングを行う、ことを特徴とする請求項6に記載の多義語抽出システム。
【請求項9】
前記共起語概念推定部の概念推定方法における任意の周辺語判定ルールが、1文内で共存する動詞、および目次上の同一項目内の文章内の名詞のように品詞毎に周辺とみなす範囲を変えるアルゴリズムを含む、ことを特徴とする請求項8に記載の多義語抽出システム。
【請求項10】
前記構成語支配度算出部の複合語共起判定ルールが、品詞が動詞であれば係り受け関係が有る単語、名詞であれば同一段落内の単語のように、品詞毎に共起と見なす範囲をおよび条件を変えて複合語共起語の抽出および複合語共起数の算出を行うアルゴリズムを含む、ことを特徴とする請求項4乃至9のいずれか1項に記載の多義語抽出システム。
【請求項11】
前記構成語支配度算出部における部分一致複合語間の集約度が、各部分一致複合語に対応するベクトル間の散らばりの小ささを表す指標として、ばらつきを示す指標と単調減少の関係にある関数で算出される、ことを特徴とする請求項4乃至10のいずれか1項に記載の多義語抽出システム。
【請求項12】
前記構成語支配度算出部における部分一致複合語間の集約度が、共起語の品詞によって重み付けを行ったベクトル空間に基づいて算出される、ことを特徴とする請求項4乃至11のいずれか1項に記載の多義語抽出システム。
【請求項13】
前記複合語構成配分推定部が、複合語の各構成語の構成語支配度を複合語毎の構成語支配度の総和で除すことで、正規化した重み付け係数を算出する、ことを特徴とする請求項4乃至12のいずれか1項に記載の多義語抽出システム。
【請求項14】
分析対象とする文書毎又は文章群毎に重み付け係数を与えて、任意の基軸単語に関する個々の基軸単語共起語の確度ある共起語概念を一般概念から推定することに使用し、該推定した共起語概念を用いてクラスタを形成して、前記基軸単語を多義語候補とするか判別することを特徴とする請求項1乃至13のいずれか1項に記載の多義語抽出システム。
【請求項15】
入力を受けた所定の文章に使用されている各単語を抽出処理し、
抽出した単語の内で任意の単語を基軸単語として選択して、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出処理し、
抽出した基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定処理し、
推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語をクラスタリングを行い、
前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出処理する
ことを特徴とする多義語抽出方法。
【請求項16】
入力部から受け付けた文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報の抽出を行い、
前記単語の内で任意の単語を基軸単語として選択して、基軸単語毎の単語情報に基づき、任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出し、
単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積すると共に特定の単語に関する問い合わせに対して、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースから、応答として得られる一般概念情報を利用し、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定し、
特定の基軸単語に関する各基軸単語共起語について、対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングを行い、
各基軸単語に関する各基軸単語共起語の各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、多義語候補として抽出する
ことを特徴とする多義語抽出方法。
【請求項17】
情報処理装置の制御部を、
入力を受けた所定の文章に使用されている各単語の抽出を行う単語分析部と、
前記単語の内で任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、
基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、
推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、
前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部
として動作させることを特徴とするプログラム。
【請求項18】
情報処理装置の制御部を、
対象とする文書もしくは文書群の入力を受け付ける文書入力部と、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報の抽出を行う単語分析部と、
前記単語の内で任意の単語を基軸単語として選択して、基軸単語毎の単語情報に基づき、任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出する基軸単語共起ベクトル抽出部と、
単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積すると共に特定の単語に関する問い合わせに対して、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースから応答として得られた一般概念情報を利用し、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する共起語概念推定部と、
特定の基軸単語に関する各基軸単語共起語について、対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングを行う共起語分類部と、
各基軸単語に関する各基軸単語共起語の各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部
として動作させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate


【公開番号】特開2013−20431(P2013−20431A)
【公開日】平成25年1月31日(2013.1.31)
【国際特許分類】
【出願番号】特願2011−152983(P2011−152983)
【出願日】平成23年7月11日(2011.7.11)
【出願人】(000004237)日本電気株式会社 (19,353)
【出願人】(504139662)国立大学法人名古屋大学 (996)
【Fターム(参考)】