説明

語彙階層構造抽出方法,装置,およびプログラム

【課題】 形態素情報が連結された語句,文書などのコーパスから,語彙の階層構造情報を自動的に抽出する。
【解決手段】 二語間階層関係導出手段11は,コーパス2の形態素が連結された文書などの集合体から,形態素ごとに連結関係にある他の形態素との包含関係を,統計的指標を用いて包含度を算出し,包含度から当該2語間の階層関係を導出し,情報ベース13に記憶する。階層構造構築手段15は,情報ベース13の同一形態素を上位語とする2語間の階層関係を抽出し,当該上位語の包含度が最も高い2語間の階層関係を初期階層に設定し,設定された2語間の階層関係の下位語が上位語であって包含度が最も高い2語間の階層関係を選択して前記初期階層の下位階層として連結し,前記抽出された2語間の階層関係が連結された語彙階層構造情報3を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は,複数の語句・文章からなる言語データから抽出した2語間の階層関係を導出し,該導出された2語間の階層関係にもとづいて,語彙の階層構造を構築する語彙階層構造抽出技術に関する。
【背景技術】
【0002】
語彙の階層構造は,言語資料として有用であり,さまざまな言語処理に使用される。しかし,語彙の階層構造は唯一のものではなく,利用分野や目的によって異なると考えられる。例えば,医療分野の文書における語彙の階層構造は,新聞記事のような一般文書における階層構造とは異なるであろう。また,文書の利用目的によっては,切り出される語の長短に差があり,一階層を構成する語の集合が異なる場合もある。したがって,ユーザが対象としている分野や目的に合致した語彙階層構造を作成し,利用できるようにすることが好ましい。
【0003】
これまで,さまざまな観点から階層構造を含むシソーラスが構築されているが,これらのシソーラスは分野や利用目的を限定しないものである。また,シソーラスの編集者の方針に大きく依存している。シソーラスでは語彙のカテゴリ化が人手によって行われ,作業者の知識や経験則にもとづいて語彙が分類される。このような方法は,語彙データベースを作成するためには良い手法であるが高コストである。したがって,ユーザ各々が,多くの人手を投入して自分用のシソーラスを構築することは現実的ではない。
【0004】
語の階層関係を自動抽出する従来方法として,辞書にある定義文を利用する手法,コーパスから語の意味関係を確率モデルによって取得する手法,辞書とコーパスの両方から得られる単語の依存関係を利用する手法などがある。
【0005】
また,非特許文献1には,既存のシソーラスと文字情報,コーパス中の共起情報とを利用して語彙の階層関係を現シソーラスに未登録語を追加していく手法が開示されている。
【0006】
また,英語を対象として,コーパスから“a part of”,“is−a”または“and”などを含むパターンを利用して語彙の階層関係を抽出する手法が良く知られている。非特許文献2には,同様に,日本語において,“の”,“などの”,“という”などを含むパターンを利用して語彙の階層関係を抽出する手法が開示されている。
【非特許文献1】中山拓也,松本裕治 「シソーラスへの未登録語の自動登録」 情報処理学会 研究報告NL−120,pp.103−108 1997年
【非特許文献2】安藤まや,関根聡 「上位語・下位語を含む連体修飾表現の言語的分析」 言語処理学会 第10回年次大会発表論文集,pp.205−208 2004年
【発明の開示】
【発明が解決しようとする課題】
【0007】
従来の手法,例えば非特許文献1または非特許文献2の手法は,一対一の語間の相互関係を導出するものであり,より詳細な自然言語の語彙相互間の包括関係を導出することができなかった。
【0008】
ところで,ユーザは,目的に応じて対象文書群を選択し,形態素解析などの前処理を行う。このようなユーザによる対象文書の選択と前処理の選択とは,例えば,医療分野での翻訳処理というように,ユーザの目的を示す情報とみなすことができる。また語彙の階層構造化に必要とされる階層構造上の特徴は,ユーザによって選択された前処理が施された対象文書群に含まれている。
【0009】
したがって,ユーザは,自らが用意した前処理済みの任意のコーパスから,語彙の階層構造情報を自動的に構築できれば,分野や利用目的に応じた語彙階層構造情報を得ることができる。
【0010】
本発明の目的は,ユーザが任意に用意した形態素情報が連結されたコーパスによって,ユーザの利用目的に合致した語彙の階層構造情報を自動的に構築できる語彙階層構造抽出方法,装置,およびプログラムを提供することである。
【課題を解決するための手段】
【0011】
本発明は,階層中で上下関係にある語に共起する語の集合は包含関係にあるという考えにもとづいて,コーパス中の語の出現状況の包含関係を利用して,2語間の階層関係を導出し,その関係を連結してゆくことによって階層構造を構築することを特徴とする。
【0012】
語彙の階層構造中,上位語は,下位語に比べて,より抽象的な意味,すなわち,より広い意味を持つ。このため,下位語を修飾しうる語は,一般的に上位語を修飾することができる。換言すると,上位語を修飾する語の集合は,下位語を修飾する語の集合を包含する傾向がある。
【0013】
本発明は,対象となる語彙について,コーパス中での出現状況を包含関係を統計的指標を用いて測り,その結果をもとに2語間の階層関係を決定する。そして,2語間の階層関係のリストから,語彙の階層構造を構築する。
【0014】
本発明にかかる処理方法は,形態素が連結された一または複数の語句,文書などの集合体であるコーパスから,各形態素について,当該形態素と連結関係にある他の形態素との包含関係を,統計的指標を用いて推定する処理過程と,形態素が他の形態素を包含する度合いを示す包含度を算出し,当該包含度を用いて当該2語間の階層関係を導出し,情報ベースに記憶する処理過程と,前記情報ベースに記憶された前記2語間の階層関係について,同一形態素を上位語とする2語間の階層関係を抽出する処理過程と,前記抽出された2語間の階層関係の一つを初期階層に設定し,当該初期階層の下位語が上位語であって包含度が最も高い2語間の階層関係を選択して前記初期階層の下位階層として連結し,当該初期階層の上位語が下位語であって包含度が最も高い2語間の階層関係を選択して前記初期階層の上位階層として連結する処理を,前記抽出された2語間の階層関係について繰り返し,前記抽出された2語間の階層関係が連結された階層構造情報を出力する処理過程とを備える。
【0015】
具体的には,ユーザによって用意された任意のコーパスであって,形態素が連結された一または複数の語句,文書などの集合体から,前記集合体で処理対象となる同類の形態素のグループNを抽出し,グループNの各形態素と連結関係にある同類の形態素のグループG1,…,Gmそれぞれにおいて,グループNを構成する要素(形態素の2語間の包含関係)を,グループNと連結関係を持つグループG1,…,Gmの要素の包含関係を用いて推定する。ここで,任意の統計的指標を採用して,形態素が他の形態素を包含する度合いを示す包含度を算出し,当該包含度を用いて,当該2つの形態素のうち,相手方を包含する度合いがより高い形態素を上位語とし,他方を下位語とする2語間の階層関係を決定する。そしてこの2語間の階層関係を情報ベースに記憶する。
【0016】
そして,情報ベースを参照して,2語間の階層関係について同一形態素を上位語とする2語間の階層関係を抽出する。さらに,抽出された2語間の階層関係の一つを初期階層に設定し,この初期階層の下位語が上位語であって包含度が最も高い2語間の階層関係を選択して初期階層の下位階層として連結する。また,この初期階層の上位語が下位語であって包含度が最も高い2語間の階層関係を選択して初期階層の上位階層として連結する。この連結処理を抽出された2語間の階層関係について繰り返し,グループNの2語間の階層関係が連結された語彙階層構造情報を出力する。
【0017】
これにより,与えられたコーパスを構成する語句や文書の集合体について,ある語彙に属する語について,連結関係を持つ2つの語同士の包含関係から2語間の階層関係を導出し,この階層関係を連結することによって語彙の多層的な階層構造を得ることができる。
【発明の効果】
【0018】
本発明によれば,複数の語間の包含関係を多段階の階層構造として把握することができ,自然言語の構造分析処理に応用することによって,より自然な翻訳処理や文書作成処理などの応用処理を実現することが可能となる。
【0019】
本発明では,ユーザが利用しようと思うコーパスから語彙の階層構造を自動抽出できる。そのため,ユーザが選択したコーパスが特定分野に限った特殊なコーパスであれば,抽出される語彙の階層構造も特殊なものとなり,ユーザは,所望する特定分野の語彙階層構造を得ることができる。
【0020】
また,従来のシソーラスでは,上下関係に加えて同義語や類義語が列挙されているが,これらの語の間の意味的または統計的な関係が明記されていない場合がある。本発明によれば,2語間の包含関係を,統計的指標を用いて導出しているため,語彙間の意味的な関係を数値によって示す語彙階層構造を出力することができる。
【発明を実施するための最良の形態】
【0021】
図1は,本発明の最良の実施形態における構成例を示す図である。
【0022】
語彙階層構造抽出装置1は,CPUおよびメモリからなるコンピュータであり,ソフトウェアプログラムなどによって構成される二語間階層関係導出手段11,情報ベース13,階層構造構築手段15を備える。
【0023】
二語間階層関係導出手段11は,与えられたコーパス2の形態素の集合について,2つの形態素を取り出し,形態素と連結関係にある他の形態素の包含関係を統計的指標を用いて推定し,その形態素が他の形態素を包含する度合いを示す包含度を算出し,包含度を用いて当該2語(形態素)間の階層関係(上位−下位関係)を導出し,情報ベース13に記憶する。
【0024】
階層構造構築手段15は,情報ベース13に記憶された2語間の階層関係について,同一形態素を上位語とする2語間の階層関係を抽出し,当該上位語の包含度が最も高い2語間の階層関係を初期階層に設定し,設定された2語間の階層関係の下位語が上位語であって包含度が最も高い2語間の階層関係を選択し,初期階層の下位階層として連結する。この連結処理を,抽出された2語間の階層関係について繰り返し,抽出された2語間の階層関係が連結された語彙階層構造情報3を出力する。
【0025】
コーパス2は,一または複数の語句,文書データなどの形態素が連結された集合体である。コーパス2には,階層構造化の処理対象となる同類の形態素のグループN,グループNの形態素と連結関係にある同類の形態素のグループG(G1,…,Gm)が含まれている。
【0026】
本実施形態では,コーパス2は,抽象名詞の分類を目的として作成されたものとし,語彙階層構造として,抽象名詞の階層構造を出力するものとする。対象とする抽象名詞は,抽象名詞の分類を目的として,形容詞・形容動詞の上位語として定義された抽象名詞とする。
【0027】
図2は,コーパス2に含まれるグループNおよびグループGの関係例を示す図である。グループNは,処理対象とする抽象名詞N1,…,Niを要素とする。グループNは,グループG1,…,Gmと,例えば修飾関係などの連結関係を持つ。グループG1は,グループNの各要素と連結関係を持つ形容詞A1,A2,…,Ajを要素とする。重みW(W11,W12,…,W1j,Wi1,Wi2,…,Wij)は,2語間の関係を示す統計的指標である。例えば,統計的指標として2語間の共起状況を用いた場合に,重みW11は,抽象名詞N1と形容詞A1との共起状況を示す値であり,“W=共起回数/(共起回数+1)”とする。
【0028】
以下,本発明の処理を,より詳細に説明する。
【0029】
図3に,コーパス2として使用する言語データの一部の例を示す。コーパス2として,処理対象とする抽象名詞として,小説,エッセイ,新聞記事などの文章をKNPによって構文解析し,構文解析できた文から,その抽象名詞に前接する形容詞・形容動詞を収集することによって作成された言語データを使用する。図3中,形容詞・形容動詞に続く数字は,全行の抽象名詞との共起頻度を示す。
【0030】
二語間階層関係導出手段11は,対象となる語彙についてコーパス2での出現状況をベクトル化し,2つのベクトル間の重なり度合いを測定できる指標として補完類似度およびオーバーラップ相関係数(overlap coefficient:OVLP)を用いてベクトルの包含関係を推定する。
【0031】
具体的には,抽象名詞N1,…,Niごとに,連結関係にある形容詞・形容動詞との共起状況の出現パターンを取得し,この出現パターンをベクトルで表現する。そして,ベクトル同士の重なり度合いを測定することによって,2つの抽象名詞の間の階層関係を決定する。
【0032】
図4に,共起状況の出現パターンを二値ベクトル化したイメージを示す。本実施例で用いるベクトルの次元数nは,形容詞・形容動詞の種類数に相当する。出現パターンを二値ベクトルで示す場合に,各要素は,抽象名詞Nがi番目の形容詞・形容動詞と共起するときは“1”で,共起しないときは“0”で表される。
【0033】
OVLPは,二値ベクトル間の類似度を測る尺度の一つであり,包含関係を測ることができる。2つのベクトル間で共通して“1”の要素を持つ次元について,一方のベクトルがその共通する次元以外のすべての次元で要素が“0”であれば,値=1.0となる。換言すると,他方のベクトルが,そのベクトルを完全に包含することを表す。
【0034】
ベクトルF(数式では,Fの上に→で示す)=(f,f,…,f,…,f)とベクトルT(数式では,Tの上に→で示す)=(t,t,…,t,…,t)(f,t=0または1)におけるOVLPは,次のように定義される。
【0035】
【数1】

【0036】
ここで,ベクトルF,ベクトルTは,図4に示す抽象名詞が,どの形容詞・形容動詞と共起出現し,または共起出現しないのかを表す出現パターンに相当し,次元数nは,形容詞・形容動詞の種類数に相当する。
【0037】
したがって,OVLPの定義式(1)におけるパラメータaは,ベクトルFを持つ抽象名詞とベクトルTを持つ抽象名詞の双方と共起する形容詞・形容動詞の種類数,パラメータbは,ベクトルFを持つ抽象名詞と共起するがベクトルTを持つ抽象名詞と共起しない形容詞・形容動詞の種類数,パラメータcは,ベクトルTを持つ抽象名詞と共起するがベクトルFを持つ抽象名詞と共起しない形容詞・形容動詞の種類数に,それぞれ相当する。
【0038】
補完類似度には,二値画像用の補完類似度と多値画像用の補完類似度の2つがある。
【0039】
二値画像用補完類似度(Complementary Similarity Measure for binary images:CSM−b)は,劣化印刷文字を認識するための類似尺度である。CSM−bは,テンプレート文字と印刷文字を二値ベクトルで表し,印刷文字のベクトルがテンプレート文字のベクトルをどの程度包含するかという包含関係を測る尺度である。
【0040】
階層関係にある語彙対において,上位語である語彙は広義語であるため,下位語である狭義語より頻繁に用いられる傾向があることに着目し,出現状況を比較して包含関係を推定した。
【0041】
ベクトルF=(f,f,…,f,…,f)とベクトルT=(t,t,…,t,…,t)(f,t=0または1)におけるCSM−bは次のように定義される。
【0042】
【数2】

【0043】
この定義式(2)において,パラメータa,b,cは,OVLPの定義式(1)に含まれるものと同じである。パラメータdは,どちらの抽象名詞とも共起しない形容詞・形容動詞の種類数に相当する。したがって,次元数nはa+b+c+dである。CSM(ベクトルF,ベクトルT)が1.0の場合,OVLPと同様に,ベクトルFはベクトルTを完全に包含することを表す。
【0044】
なお,分子であるad−bcは対称であるが,分母(a+c)(b+d)は非対称であるため,a=dという特殊な場合を除いて,CSM(ベクトルF,ベクトルT)とCSM(ベクトルT,ベクトルF)とは異なる。すなわち,定義式(2)は,非対称性を備えている。多くの場合はa<<dであるため,CSM(ベクトルF,ベクトルT)とCSM(ベクトルT,ベクトルF)が等しいことは稀である。
【0045】
多値画像用補完類似度(Complementary Similarity Measure for gray−scale images:CSM−g)は,
二値画像用補完類似度CSM−bを拡張した尺度である。CSM−bは,グラフィカルデザインなどの汚れに強いが,二値化状態やスキャン条件に強く影響される。CSM−bは,2×2分割表の特殊例であり,その一般形として,CSM−gが定義されている。このCSM−gは,直接グレースケールで表される多値画像を扱うことができるため,二値化状態やスキャン条件に影響されにくいという特徴をもつ。
【0046】
ベクトルF=(fg1,fg2,…,fgi,…,fgn)とベクトルT=(tg1,tg2,…,tgi,…,tgn)(fgi,tgi=0から1)におけるCSM−gは,次のように定義される。
【0047】
【数3】

【0048】
この定義式(3)において,本発明では,CSM−bと同様,次元数nは,形容詞・形容動詞の種類数に相当し,非対称性を持つ。しかし,各要素fgi,tgiは,抽象名詞がi番目の形容詞・形容動詞と頻繁に共起するかどうかの状況を表すという共起頻度にもとづく重みを用いる。実施形態では,以下の重みを用いた。
【0049】
Weight(noun,adj) = Freq(noun,adj)/(Freq(noun, adj)+1) 式(4)
式(4)中の‘Freq(noun,adj)’は,抽象名詞nounが,形容詞・形容動詞adjと共起する頻度である。
【0050】
CSM−gを用いる場合,抽象名詞が形容詞・形容動詞と共起する頻度に注目した。もし,その状況がコーパス2に頻繁に出現する場合には,その抽象名詞と形容詞・形容動詞とが親密な関係にあると推測できる。逆に,全く共起しない抽象名詞と形容詞・形容動詞とは疎遠な関係にあると推測できる。そこで,CSM−gが,多値ベクトル間の重なり度合いを測ることができることを利用して,それぞれの共起頻度にもとづく重みをベクトルの要素として採用した。この関数では,抽象名詞nounと形容詞・形容動詞adjとが共起しなければ‘0’を,1回共起すれば‘0.5’を得る。そして,共起頻度が2回以上であれば,緩やかに1.0に近づくまで増加する関数である。これは,1回の共起は,数回の共起よりも重要な情報であることを重みに含ませることを意味する。
【0051】
二語間階層関係導出手段11は,上記のような尺度を用いて,グループNの2語間ごとに,これに連結するグループGとの出現パターン間の包含関係を測り,2語間の階層関係を推定する。もし抽象名詞Nxの出現パターンが抽象名詞Nyの出現パターンを包含する度合い(包含度)が,抽象名詞Nyの出現パターンが抽象名詞Nxの出現パターンの包含度より高いならば,この2語間では,抽象名詞Nxが上位語,抽象名詞Nyが下位語という階層関係があると推定し,単語対(Nx,Ny)と表す。逆に,抽象名詞Nyが上位語,抽象名詞Nxが下位語という階層関係であれば,単語対(Ny,Nx)と表す。
【0052】
二語間階層関係導出手段11は,さらに,包含度を正規化し,閾値TH未満の単語対を削除する。
【0053】
階層構造構築手段15は,所定閾値TH以上の単語対を用いて,各単語Cについて,以下のようにして,3階層以上の構造を持つ階層構造を構築する。
【0054】
処理過程S1:単語Cが上位語である単語対のうち,最も高い包含度を持つ対(C,C−1)を階層の初期値C−C−1とする。
【0055】
処理過程S2:階層の最後尾に位置する単語C−1を上位語に持つ単語対のうち,最も高い包含度を持つ単語対(C−1,C−2)を取り出し,下位語である単語C−2を階層C−C−1の最後尾に連結する。ただし,単語C−2は現行の階層に含まれていないものに限る。
【0056】
処理過程S3:処理過程S2に沿った単語対(C−i,C−(i+1))(i>1)を選択できる間はその処理を繰り返す。
【0057】
処理過程S4:階層の先頭に位置する単語Cを下位語に持つ単語対のうち,最も高い包含度を持つ単語対(C,C)を取り出し,上位語である単語Cを階層C−C−1−C−2−…−C−nの先頭に連結する。ただし,単語Cは現行の階層に含まれていないものに限る。
【0058】
処理過程S5:処理過程S4に沿った単語対(Cj+1,C)(j>0)が選択できる間はその処理を繰り返す。
【0059】
階層構造構築手段15は,上記の処理過程S1〜S5によって構築した階層構造について,もし階層数が少ない階層構造Cxが単語の順序が保持された状態で,より階層数の多い階層構造Cyに完全に含まれるときは,階層数の少ない階層構造Cxを階層構造の集合から削除する。例えば,階層構造Cx[B−D−E−F]と階層構造Cy[A−B−C−D−E−F]がある場合に,階層構造Cxの階層は,階層構造Cy内に順序が保持された状態で存在する。したがって,階層構造Cxは階層構造Cyに包含されると判断して,階層構造Cxを階層構造の集合から削除する。
【0060】
そして,階層構造構築手段15は,階層構造の集合を,語彙階層構造情報3として出力する。
【0061】
以下,本発明の具体的な実施例と,その実施例の結果について説明する。
【0062】
本実施例では,コーパス2として,図3に示すような言語データを用いた。
【0063】
コーパス2の言語データは,2年分のM新聞に含まれる抽象名詞を対象とする抽象名詞として,100の小説,100のエッセイ,11年分のM新聞,14年分のY新聞などをKNPによって構文解析し,構文解析できた文から,その抽象名詞に前接する形容詞・形容動詞を収集することによって作成されたものである。この言語データには,抽象名詞354種類,形容詞・形容動詞6407種類が含まれている。
【0064】
本実施例では,2語間の包含関係を推定するための統計的指標として,前記の3つの尺度,OVLP,CSM−b,CSM−gを用いた。そして,抽象名詞「こと」を最上位語に持つ階層構造をできるだけ多く構築できる閾値を設定し,構築される階層の条件を以下のように揃えた。
【0065】
OVLPの場合,閾値TH=0.2
CSM−bの場合,閾値TH=0.2
CSM−gの場合,閾値TH=0.12
「こと」は,意味的に広く使用される抽象名詞であり,使用した言語データ中で共起する形容詞・形容動詞が最も多いものである。
【0066】
図5に,本発明によって構築された階層構造例を示す。
【0067】
本発明の処理結果を,既存のEDR電子化辞書に含まれる形容詞・形容動詞の概念階層を正解データとして比較した。EDR電子化辞書は,人手で編集された11個の辞書で構成され,概念辞書,単語辞書,日英辞書などが含まれている(http://www2.nict.go.jp/kk/e416/EDR/index.html,1995)。EDR電子化辞書には,形容詞・形容動詞に関する概念階層が932階層あり,構成されている階層の位置を示す深さ3から14の範囲に分布する。本実施例で構築できた階層は,深さ3から15の範囲に分布するため,EDR電子化辞書における概念階層との比較は,本発明の処理結果の評価に適切なものである。
【0068】
具体的には,EDR電子化辞書の階層概念の階層と一致する度合い(一致度)を,各指標(尺度)によって得られた階層構造の階層について測定することで,本発明によって構築された階層構造を比較評価した。
【0069】
しかし,EDR電子化辞書の概念階層は,本発明で構築できた階層構造と異なり,概念IDと説明文で記述されている。そのため,EDR電子化辞書の概念階層の各概念記述について,内容語である名詞,動詞を取り出し,それらの単語に類義語を付与し,その列で文を置き換えた。同様に,本発明で構築された階層構造中の抽象名詞にも類義語を付与し,使用単語の違いを軽減した。用いた類義語はEDR電子化辞書から抽出した。
【0070】
かかる変換処理を行った階層構造において,構築された階層構造の各ノードにある抽象名詞は,その抽象名詞とその類義語で,ノード(抽象名詞,類義語1,類義語2,‥)と表され,EDR電子化辞書から抽出した階層概念の各ノードにある概念は,その概念記述にある内容語とそれらの類義語で,ノード(内容語1,類義語11,類義語12,内容語2,類義語21,類義語22,‥)と表される。このとき,本発明によって構築された抽象名詞の階層構造のノードにある抽象名詞または類義語が,EDR電子化辞書の階層概念のノードにある内容語または類義語と一致する場合は,本発明の階層構造の当該ノードは,EDR電子化辞書の階層概念の該当ノードと一致すると考えた。例えば,‘x’を抽象名詞または内容語,x’,x”をxの類義語としたとき,実施例で構築された階層構造が次のように表現される階層構造であるとした。
【0071】
【数4】

【0072】
同様に,この階層構造に対応するEDR電子化辞書の階層概念が次のように表現される階層であるとした。
【0073】
【数5】

【0074】
下線が付与された要素は,階層構造間で一致する単語とその単語を持つノードを示し,単語aを持つノードAはノードP,単語bやb”を持つノードBはノードQ,単語dを持つノードDはノードSと一致する。したがって,本発明による階層構造は,EDR電子化辞書の階層概念と3つのノードが一致すると数え,階層の一致度を3と定義した。
【0075】
ただし,本発明による階層構造とEDR電子化辞書の階層概念とに共通するノードがあっても,その上下関係が逆転している場合は,一致するものとしては数えなかった。例えば,上記の例で,EDR電子化辞書の階層概念がQ−P−R−S−Tとなっている場合には,BとQ,DとSは一致するが,AとPは一致しない,あるいは,AとP,DとSは一致するが,BとQは一致しないと考え,この場合の一致度は2とした。なお,共通するノードの数え方が複数ある場合は,最も値が大きくなる数え方を採用した。
【0076】
また,このような方法によって,本発明による階層構造とEDR電子化辞書の階層概念とを比較する中で,本発明の階層構造において階層関係にある単語がEDR電子化辞書では類義語である場合があった。EDR電子化辞書では,類義語は「同じ概念にリンクされる単語」と定義されているため,例えば,本発明によって構築した階層構造「こと−ところ−イメージ−雰囲気−空気−感情−心情−心境−感慨−思い出」に対して,EDR電子化辞書では,「感情」と「心情,心境」は類義語,「雰囲気」と「空気」も類義語であった。
【0077】
厳密な比較の場合には「こと−ところ−イメージ−雰囲気(または,空気)−感情(または,心情,心境)−思い出」が一致して,一致度は6となる。一方で,EDR電子化辞書では類義語である単語間の階層関係を許す場合には「こと−ところ−イメージ−雰囲気−空気−感情−心情−心境−思い出」が一致し,一致度は9となる。したがって,本比較では,これらの類義語間の階層関係をコーパスに依存した関係として考えて,後者の条件で一致度を測った。
【0078】
はじめに,本発明によって構築した階層構造のうち,OVLPを用いたものと,CSM−bを用いたものとを比較する。図6に,EDR電子化辞書の概念階層と,OVLPによって得られた階層構造との一致度の深さごとの分布を示す。同様に,図7に,EDR電子化辞書の概念階層とCSM−bによって得られた階層構造との一致度の深さごとの分布を示す。
【0079】
例えば,図7において,深さ3のCSM−bの階層は4つあり,そのうちEDR電子化辞書との一致度が1のものは1つ,一致度が2のものは2つ,一致度が深さと同じ3,すなわち双方が完全に一致するものは1つある。図7中では,一致度と階層の深さが同じである階層の数は下線付きで表される。また,「平均」は深さ3の階層の一致度の平均((1*1+2*2+1*3)/4=2.00)であり,「全体の平均」は全階層の一致度の総和を階層の総数で割った値である。
【0080】
本実施例において,OVLPを用いて得られた階層は232個,CSM−bを用いて得られた階層は189個であった。図6および図7に示されるように,OVLPの階層は深さ3から10の範囲に分布し,CSM−bそれらの階層は深さ3から12の範囲に分布する。この結果から,CSM−bはOVLPより得られる階層の数は少ないが,OVLPよりも長い(深い)階層を得られることがわかる。
【0081】
また,図6から,OVLPの階層の多くは2から4の一致度を持ち,最も高い一致度は6を持つ階層が1つであることがわかる。これはOVLPによって得られた階層が深さ3から5に集中しているためである。一方,図7から,CSM−bの階層の多くは2から6の一致度を持っているが,全体的に広く分布し,最も高い一致度9を持つ階層が3つある。深さごとの平均を見ると,CSM−bの階層はより深い階層がより高い一致度を持つという,深さによる一致度の増加傾向が見られる。
【0082】
一致度の「全体の平均」を見ると,全体的にCSM−bの階層はOVLPの階層よりもEDR電子化辞書の階層に一致することがわかる。また,各深さにおける一致度の平均から,同じ深さの階層について,CSM−bは,OVLPよりもEDR電子化辞書の階層に一致する階層を構築していることがわかる。
【0083】
また,どちらの尺度を用いた階層においても,多くの抽象名詞はEDR電子化辞書の概念階層において,階層の根に近い上位概念と一致することがわかった。現在のシソーラスでは,語彙は人間の直感にもとづいて,アプリオリにカテゴリ化され,分類されている。このことから,少なくとも,本発明によって構築された階層構造は,根に近い部分は,人間の直感に近いものであることがわかった。そして,EDR電子化辞書の階層との一致度による評価から,CSM−bによって構築された階層はOVLPによって構築された階層よりも人間の直感に近い階層であることがわかった。
【0084】
次に,共起頻度を考慮することによる階層構造構築への影響を検証した。共起頻度は,共起する単語間の関係の強さを測ることができる重要な情報である。前記の比較結果からも,CSM−bが,OVLPよりも人間の直感に近い階層を得られることがわかった。しかし,CSM−bは,二値ベクトル間の包含関係を測る尺度であるため,出現パターンを表すベクトルには,0.1で表現可能な,共起するかしないかという状況しか考慮できず,その頻度情報を考慮することができない。そこで,CSM−gを階層構造の構築に適用し,ベクトルの要素に共起頻度にもとづく重みを利用した。
【0085】
具体的には,CSM−gによる階層構造を,CSM−bによる階層構造と比較し,共起頻度を考慮することで,よりよい階層構造が得られるかを考察した。
【0086】
CSM−bによる階層構造と,CSM−gによる階層構造とを照合した。図8に示すように,CSM−bは189個の階層,CSM−gは178個の階層を構築した。そのうち共通して構築した階層は28個であり,その階層の深さは,ほとんど3から6といった短い階層であった。例えば,深さ5の階層「こと−状態−関係−つながり−縁」が含まれる。また,一方の尺度による階層を,他方の尺度による階層が完全に包含する階層を比較すると,CSM−bの階層を完全に包含するCSM−gの階層は,CSM−bの階層を完全に包含するCSM−bの階層より多い((D)<(E))。これにより,CSM−gは,CSM−bよりも長い(深い)階層を構築できることを示していると考えられる。
【0087】
また,図9に,CSM−bの階層とCSM−gの階層の深さに関する分布を示す。図9から,CSM−gは,構築できる階層数は,CSM−bより少ないが,より深い階層を構築できることがわかる。
【0088】
さらに,OVLPと同様に,CSM−gによる階層構造をEDR電子化辞書における概念構造と比較し,階層の一致度を測った。図10に,EDR電子化辞書の概念階層と,OVLPによって得られた階層構造との一致度の深さごとの分布を示す。
【0089】
図7に示すCSM−bによる階層に関する一致度の分布と,図10に示すCSM−gによる階層に関する一致度の分布とから,CSM−gは,より深い階層において,より高い一致度を示す傾向にあることがわかった。
【0090】
また,図11に示すように,階層の深さごとに一致度の平均を比較すると,深さ8と9以外の深さにおいて,CSM−gのほうがCSM−bより高い値を持つことがわかった。
【0091】
以上のことから,本発明は,実施形態で採用した3つの尺度のいずれを採用しても,少なくとも形容詞・形容動詞の階層構造の上位辺りにおいて,人間の直感にあった抽象名詞の階層構造を構築できる。また,共起頻度を考慮したCSM−gは,全体的にCSM−bよりEDR電子化辞書の概念階層に近い,すなわち,人間の直感に近い階層を構築できる。
【0092】
以上,本発明をその実施の形態により説明したが,本発明はその主旨の範囲において種々の変形が可能であることは当然である。
【図面の簡単な説明】
【0093】
【図1】本発明の最良の実施形態における構成例を示す図である。
【図2】コーパスに含まれるグループNおよびグループGの関係例を示す図である。
【図3】コーパスとして使用する言語データの一部の例を示す図である。
【図4】共起状況の出現パターンを二値ベクトル化したイメージを示す図である。
【図5】本発明によって構築された階層構造例を示す図である。
【図6】EDR電子化辞書の概念階層と,OVLPによって得られた階層構造との一致度の深さごとの分布を示す図である。
【図7】EDR電子化辞書の概念階層とCSM−bによって得られた階層構造との一致度の深さごとの分布を示す図である。
【図8】CSM−bおよびCSM−gで構築した階層数の比較を示す図である。
【図9】CSM−bの階層とCSM−gの階層の深さに関する分布を示す図である。
【図10】EDR電子化辞書の概念階層と,OVLPによって得られた階層構造との一致度の深さごとの分布を示す図である。
【図11】CSM−bの階層とCSM−gの階層の深さごとの一致度の平均による比較を示す図である。
【符号の説明】
【0094】
1 語彙階層構造抽出装置
11 二語間階層関係導出手段
13 情報ベース
15 階層構造構築手段
2 コーパス
3 語彙階層構造情報

【特許請求の範囲】
【請求項1】
コンピュータが実行する処理方法であって,
ユーザによって用意されたコーパスであって,形態素が連結された一または複数の語句,文書などの集合体から,各形態素について,当該形態素と連結関係にある他の形態素との包含関係を統計的指標を用いて推定する処理過程と,
形態素が他の形態素を包含する度合いを示す包含度を算出し,当該包含度を用いて当該2語間の階層関係を導出し,情報ベースに記憶する処理過程と,
前記情報ベースに記憶された前記2語間の階層関係について,同一形態素を上位語とする2語間の階層関係を抽出する処理過程と,
前記抽出された2語間の階層関係の一つを初期階層に設定し,当該初期階層の下位語が上位語であって包含度が最も高い2語間の階層関係を選択して前記初期階層の下位階層として連結し,当該初期階層の上位語が下位語であって包含度が最も高い2語間の階層関係を選択して前記初期階層の上位階層として連結する処理を,前記抽出された2語間の階層関係について繰り返し,前記抽出された2語間の階層関係が連結された階層構造情報を出力する処理過程とを備える
ことを特徴とする語彙階層構造抽出方法。
【請求項2】
前記包含関係を統計的指標を用いて推定する処理過程において,前記形態素と連結関係にある前記他の形態素との共起状況をベクトルを用いて表し,前記ベクトルの包含関係を推定する
ことを特徴とする請求項1記載の語彙階層構造抽出方法。
【請求項3】
前記包含関係を統計的指標を用いて推定する処理過程において,前記ベクトル間の包含関係を補完類似度を用いて推定する
ことを特徴とする請求項2記載の語彙階層構造抽出方法。
【請求項4】
前記包含関係を統計的指標を用いて推定する処理過程において,前記ベクトル間の包含関係をオーバーラップ相関係数を用いて推定する
ことを特徴とする請求項2記載の語彙階層構造抽出方法。
【請求項5】
ユーザによって用意されたコーパスであって,形態素が連結された一または複数の語句,文書などの集合体から,各形態素について,当該形態素と連結関係にある他の形態素との包含関係を統計的指標を用いて推定し,形態素が他の形態素を包含する度合いを示す包含度を算出し,当該包含度を用いて当該2語間の階層関係を導出する二語間階層関係導出手段と,
前記2語間の階層関係を記憶する情報ベースと,
前記情報ベースに記憶された前記2語間の階層関係について,同一形態素を上位語とする2語間の階層関係を抽出し,前記抽出された2語間の階層関係の一つを初期階層に設定し,当該初期階層の下位語が上位語であって包含度が最も高い2語間の階層関係を選択して前記初期階層の下位階層として連結し,当該初期階層の上位語が下位語であって包含度が最も高い2語間の階層関係を選択して前記初期階層の上位階層として連結する処理を,前記抽出された2語間の階層関係のすべてについて行い,前記抽出された2語間の階層関係が連結された階層構造情報を出力する階層構造構築手段とを備える
ことを特徴とする語彙階層構造抽出装置。
【請求項6】
前記二語間階層関係導出手段は,前記形態素と連結関係にある前記他の形態素との共起状況をベクトルを用いて表し,前記ベクトルの包含関係を推定する
ことを特徴とする請求項5記載の語彙階層構造抽出装置。
【請求項7】
前記二語間階層関係導出手段は,前記ベクトル間の包含関係を補完類似度を用いて推定する
ことを特徴とする請求項6記載の語彙階層構造抽出装置。
【請求項8】
前記二語間階層関係導出手段は,前記ベクトル間の包含関係をオーバーラップ相関係数を用いて推定する
ことを特徴とする請求項6記載の語彙階層構造抽出方法。
【請求項9】
コンピュータに,
ユーザによって用意されたコーパスであって,形態素が連結された一または複数の語句,文書などの集合体から,各形態素について,当該形態素と連結関係にある他の形態素との包含関係を統計的指標を用いて推定する処理と,
形態素が他の形態素を包含する度合いを示す包含度を算出し,当該包含度を用いて当該2語間の階層関係を導出し,情報ベースに記憶する処理と,
前記情報ベースに記憶された前記2語間の階層関係について,同一形態素を上位語とする2語間の階層関係を抽出する処理と,
前記抽出された2語間の階層関係の一つを初期階層に設定し,当該初期階層の下位語が上位語であって包含度が最も高い2語間の階層関係を選択して前記初期階層の下位階層として連結し,当該初期階層の上位語が下位語であって包含度が最も高い2語の階層関係を選択して前記初期階層の上位階層として連結する処理を,前記抽出された2語間の階層関係について繰り返し,前記抽出された2語間の階層関係が連結された階層構造情報を出力する処理とを
実行させるための語彙階層構造抽出プログラム。
【請求項10】
前記包含関係を統計的指標を用いて推定する処理において,前記形態素と連結関係にある前記他の形態素との共起状況をベクトルを用いて表し,前記ベクトルの包含関係を推定する
ことを特徴とする請求項9記載の語彙階層構造抽出プログラム。
【請求項11】
前記包含関係を統計的指標を用いて推定する処理過程において,前記ベクトル間の包含関係を補完類似度を用いて推定する
ことを特徴とする請求項10記載の語彙階層構造抽出プログラム。
【請求項12】
前記包含関係を統計的指標を用いて推定する処理過程において,前記ベクトル間の包含関係をオーバーラップ相関係数を用いて推定する
ことを特徴とする請求項10記載の語彙階層構造抽出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2008−152324(P2008−152324A)
【公開日】平成20年7月3日(2008.7.3)
【国際特許分類】
【出願番号】特願2006−336652(P2006−336652)
【出願日】平成18年12月14日(2006.12.14)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成18年 6月15日 社団法人情報処理学会発行の「情報処理学会論文誌 Vol.47,No.6」に記載の文書に基づいて発表
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】