語彙階層構造抽出方法，装置，およびプログラム

【課題】形態素情報が連結された語句，文書などのコーパスから，語彙の階層構造情報を自動的に抽出する。
【解決手段】二語間階層関係導出手段１１は，コーパス２の形態素が連結された文書などの集合体から，形態素ごとに連結関係にある他の形態素との包含関係を，統計的指標を用いて包含度を算出し，包含度から当該２語間の階層関係を導出し，情報ベース１３に記憶する。階層構造構築手段１５は，情報ベース１３の同一形態素を上位語とする２語間の階層関係を抽出し，当該上位語の包含度が最も高い２語間の階層関係を初期階層に設定し，設定された２語間の階層関係の下位語が上位語であって包含度が最も高い２語間の階層関係を選択して前記初期階層の下位階層として連結し，前記抽出された２語間の階層関係が連結された語彙階層構造情報３を出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は，複数の語句・文章からなる言語データから抽出した２語間の階層関係を導出し，該導出された２語間の階層関係にもとづいて，語彙の階層構造を構築する語彙階層構造抽出技術に関する。
【背景技術】
【０００２】
語彙の階層構造は，言語資料として有用であり，さまざまな言語処理に使用される。しかし，語彙の階層構造は唯一のものではなく，利用分野や目的によって異なると考えられる。例えば，医療分野の文書における語彙の階層構造は，新聞記事のような一般文書における階層構造とは異なるであろう。また，文書の利用目的によっては，切り出される語の長短に差があり，一階層を構成する語の集合が異なる場合もある。したがって，ユーザが対象としている分野や目的に合致した語彙階層構造を作成し，利用できるようにすることが好ましい。
【０００３】
これまで，さまざまな観点から階層構造を含むシソーラスが構築されているが，これらのシソーラスは分野や利用目的を限定しないものである。また，シソーラスの編集者の方針に大きく依存している。シソーラスでは語彙のカテゴリ化が人手によって行われ，作業者の知識や経験則にもとづいて語彙が分類される。このような方法は，語彙データベースを作成するためには良い手法であるが高コストである。したがって，ユーザ各々が，多くの人手を投入して自分用のシソーラスを構築することは現実的ではない。
【０００４】
語の階層関係を自動抽出する従来方法として，辞書にある定義文を利用する手法，コーパスから語の意味関係を確率モデルによって取得する手法，辞書とコーパスの両方から得られる単語の依存関係を利用する手法などがある。
【０００５】
また，非特許文献１には，既存のシソーラスと文字情報，コーパス中の共起情報とを利用して語彙の階層関係を現シソーラスに未登録語を追加していく手法が開示されている。
【０００６】
また，英語を対象として，コーパスから“ａｐａｒｔｏｆ”，“ｉｓ−ａ”または“ａｎｄ”などを含むパターンを利用して語彙の階層関係を抽出する手法が良く知られている。非特許文献２には，同様に，日本語において，“の”，“などの”，“という”などを含むパターンを利用して語彙の階層関係を抽出する手法が開示されている。
【非特許文献１】中山拓也，松本裕治「シソーラスへの未登録語の自動登録」情報処理学会研究報告ＮＬ−１２０，ｐｐ．１０３−１０８１９９７年
【非特許文献２】安藤まや，関根聡「上位語・下位語を含む連体修飾表現の言語的分析」言語処理学会第１０回年次大会発表論文集，ｐｐ．２０５−２０８２００４年
【発明の開示】
【発明が解決しようとする課題】
【０００７】
従来の手法，例えば非特許文献１または非特許文献２の手法は，一対一の語間の相互関係を導出するものであり，より詳細な自然言語の語彙相互間の包括関係を導出することができなかった。
【０００８】
ところで，ユーザは，目的に応じて対象文書群を選択し，形態素解析などの前処理を行う。このようなユーザによる対象文書の選択と前処理の選択とは，例えば，医療分野での翻訳処理というように，ユーザの目的を示す情報とみなすことができる。また語彙の階層構造化に必要とされる階層構造上の特徴は，ユーザによって選択された前処理が施された対象文書群に含まれている。
【０００９】
したがって，ユーザは，自らが用意した前処理済みの任意のコーパスから，語彙の階層構造情報を自動的に構築できれば，分野や利用目的に応じた語彙階層構造情報を得ることができる。
【００１０】
本発明の目的は，ユーザが任意に用意した形態素情報が連結されたコーパスによって，ユーザの利用目的に合致した語彙の階層構造情報を自動的に構築できる語彙階層構造抽出方法，装置，およびプログラムを提供することである。
【課題を解決するための手段】
【００１１】
本発明は，階層中で上下関係にある語に共起する語の集合は包含関係にあるという考えにもとづいて，コーパス中の語の出現状況の包含関係を利用して，２語間の階層関係を導出し，その関係を連結してゆくことによって階層構造を構築することを特徴とする。
【００１２】
語彙の階層構造中，上位語は，下位語に比べて，より抽象的な意味，すなわち，より広い意味を持つ。このため，下位語を修飾しうる語は，一般的に上位語を修飾することができる。換言すると，上位語を修飾する語の集合は，下位語を修飾する語の集合を包含する傾向がある。
【００１３】
本発明は，対象となる語彙について，コーパス中での出現状況を包含関係を統計的指標を用いて測り，その結果をもとに２語間の階層関係を決定する。そして，２語間の階層関係のリストから，語彙の階層構造を構築する。
【００１４】
本発明にかかる処理方法は，形態素が連結された一または複数の語句，文書などの集合体であるコーパスから，各形態素について，当該形態素と連結関係にある他の形態素との包含関係を，統計的指標を用いて推定する処理過程と，形態素が他の形態素を包含する度合いを示す包含度を算出し，当該包含度を用いて当該２語間の階層関係を導出し，情報ベースに記憶する処理過程と，前記情報ベースに記憶された前記２語間の階層関係について，同一形態素を上位語とする２語間の階層関係を抽出する処理過程と，前記抽出された２語間の階層関係の一つを初期階層に設定し，当該初期階層の下位語が上位語であって包含度が最も高い２語間の階層関係を選択して前記初期階層の下位階層として連結し，当該初期階層の上位語が下位語であって包含度が最も高い２語間の階層関係を選択して前記初期階層の上位階層として連結する処理を，前記抽出された２語間の階層関係について繰り返し，前記抽出された２語間の階層関係が連結された階層構造情報を出力する処理過程とを備える。
【００１５】
具体的には，ユーザによって用意された任意のコーパスであって，形態素が連結された一または複数の語句，文書などの集合体から，前記集合体で処理対象となる同類の形態素のグループＮを抽出し，グループＮの各形態素と連結関係にある同類の形態素のグループＧ１，…，Ｇｍそれぞれにおいて，グループＮを構成する要素（形態素の２語間の包含関係）を，グループＮと連結関係を持つグループＧ１，…，Ｇｍの要素の包含関係を用いて推定する。ここで，任意の統計的指標を採用して，形態素が他の形態素を包含する度合いを示す包含度を算出し，当該包含度を用いて，当該２つの形態素のうち，相手方を包含する度合いがより高い形態素を上位語とし，他方を下位語とする２語間の階層関係を決定する。そしてこの２語間の階層関係を情報ベースに記憶する。
【００１６】
そして，情報ベースを参照して，２語間の階層関係について同一形態素を上位語とする２語間の階層関係を抽出する。さらに，抽出された２語間の階層関係の一つを初期階層に設定し，この初期階層の下位語が上位語であって包含度が最も高い２語間の階層関係を選択して初期階層の下位階層として連結する。また，この初期階層の上位語が下位語であって包含度が最も高い２語間の階層関係を選択して初期階層の上位階層として連結する。この連結処理を抽出された２語間の階層関係について繰り返し，グループＮの２語間の階層関係が連結された語彙階層構造情報を出力する。
【００１７】
これにより，与えられたコーパスを構成する語句や文書の集合体について，ある語彙に属する語について，連結関係を持つ２つの語同士の包含関係から２語間の階層関係を導出し，この階層関係を連結することによって語彙の多層的な階層構造を得ることができる。
【発明の効果】
【００１８】
本発明によれば，複数の語間の包含関係を多段階の階層構造として把握することができ，自然言語の構造分析処理に応用することによって，より自然な翻訳処理や文書作成処理などの応用処理を実現することが可能となる。
【００１９】
本発明では，ユーザが利用しようと思うコーパスから語彙の階層構造を自動抽出できる。そのため，ユーザが選択したコーパスが特定分野に限った特殊なコーパスであれば，抽出される語彙の階層構造も特殊なものとなり，ユーザは，所望する特定分野の語彙階層構造を得ることができる。
【００２０】
また，従来のシソーラスでは，上下関係に加えて同義語や類義語が列挙されているが，これらの語の間の意味的または統計的な関係が明記されていない場合がある。本発明によれば，２語間の包含関係を，統計的指標を用いて導出しているため，語彙間の意味的な関係を数値によって示す語彙階層構造を出力することができる。
【発明を実施するための最良の形態】
【００２１】
図１は，本発明の最良の実施形態における構成例を示す図である。
【００２２】
語彙階層構造抽出装置１は，ＣＰＵおよびメモリからなるコンピュータであり，ソフトウェアプログラムなどによって構成される二語間階層関係導出手段１１，情報ベース１３，階層構造構築手段１５を備える。
【００２３】
二語間階層関係導出手段１１は，与えられたコーパス２の形態素の集合について，２つの形態素を取り出し，形態素と連結関係にある他の形態素の包含関係を統計的指標を用いて推定し，その形態素が他の形態素を包含する度合いを示す包含度を算出し，包含度を用いて当該２語（形態素）間の階層関係（上位−下位関係）を導出し，情報ベース１３に記憶する。
【００２４】
階層構造構築手段１５は，情報ベース１３に記憶された２語間の階層関係について，同一形態素を上位語とする２語間の階層関係を抽出し，当該上位語の包含度が最も高い２語間の階層関係を初期階層に設定し，設定された２語間の階層関係の下位語が上位語であって包含度が最も高い２語間の階層関係を選択し，初期階層の下位階層として連結する。この連結処理を，抽出された２語間の階層関係について繰り返し，抽出された２語間の階層関係が連結された語彙階層構造情報３を出力する。
【００２５】
コーパス２は，一または複数の語句，文書データなどの形態素が連結された集合体である。コーパス２には，階層構造化の処理対象となる同類の形態素のグループＮ，グループＮの形態素と連結関係にある同類の形態素のグループＧ（Ｇ１，…，Ｇｍ）が含まれている。
【００２６】
本実施形態では，コーパス２は，抽象名詞の分類を目的として作成されたものとし，語彙階層構造として，抽象名詞の階層構造を出力するものとする。対象とする抽象名詞は，抽象名詞の分類を目的として，形容詞・形容動詞の上位語として定義された抽象名詞とする。
【００２７】
図２は，コーパス２に含まれるグループＮおよびグループＧの関係例を示す図である。グループＮは，処理対象とする抽象名詞Ｎ１，…，Ｎｉを要素とする。グループＮは，グループＧ１，…，Ｇｍと，例えば修飾関係などの連結関係を持つ。グループＧ１は，グループＮの各要素と連結関係を持つ形容詞Ａ１，Ａ２，…，Ａｊを要素とする。重みＷ（Ｗ１１，Ｗ１２，…，Ｗ１ｊ，Ｗｉ１，Ｗｉ２，…，Ｗｉｊ）は，２語間の関係を示す統計的指標である。例えば，統計的指標として２語間の共起状況を用いた場合に，重みＷ１１は，抽象名詞Ｎ１と形容詞Ａ１との共起状況を示す値であり，“Ｗ＝共起回数／（共起回数＋１）”とする。
【００２８】
以下，本発明の処理を，より詳細に説明する。
【００２９】
図３に，コーパス２として使用する言語データの一部の例を示す。コーパス２として，処理対象とする抽象名詞として，小説，エッセイ，新聞記事などの文章をＫＮＰによって構文解析し，構文解析できた文から，その抽象名詞に前接する形容詞・形容動詞を収集することによって作成された言語データを使用する。図３中，形容詞・形容動詞に続く数字は，全行の抽象名詞との共起頻度を示す。
【００３０】
二語間階層関係導出手段１１は，対象となる語彙についてコーパス２での出現状況をベクトル化し，２つのベクトル間の重なり度合いを測定できる指標として補完類似度およびオーバーラップ相関係数（ｏｖｅｒｌａｐｃｏｅｆｆｉｃｉｅｎｔ：ＯＶＬＰ）を用いてベクトルの包含関係を推定する。
【００３１】
具体的には，抽象名詞Ｎ１，…，Ｎｉごとに，連結関係にある形容詞・形容動詞との共起状況の出現パターンを取得し，この出現パターンをベクトルで表現する。そして，ベクトル同士の重なり度合いを測定することによって，２つの抽象名詞の間の階層関係を決定する。
【００３２】
図４に，共起状況の出現パターンを二値ベクトル化したイメージを示す。本実施例で用いるベクトルの次元数ｎは，形容詞・形容動詞の種類数に相当する。出現パターンを二値ベクトルで示す場合に，各要素は，抽象名詞Ｎがｉ番目の形容詞・形容動詞と共起するときは“１”で，共起しないときは“０”で表される。
【００３３】
ＯＶＬＰは，二値ベクトル間の類似度を測る尺度の一つであり，包含関係を測ることができる。２つのベクトル間で共通して“１”の要素を持つ次元について，一方のベクトルがその共通する次元以外のすべての次元で要素が“０”であれば，値＝１．０となる。換言すると，他方のベクトルが，そのベクトルを完全に包含することを表す。
【００３４】
ベクトルＦ（数式では，Ｆの上に→で示す）＝（ｆ_１，ｆ_２，…，ｆ_ｉ，…，ｆ_ｎ）とベクトルＴ（数式では，Ｔの上に→で示す）＝（ｔ_１，ｔ_２，…，ｔ_ｉ，…，ｔ_ｎ）（ｆ_ｉ，ｔ_ｉ＝０または１）におけるＯＶＬＰは，次のように定義される。
【００３５】
【数１】

【００３６】
ここで，ベクトルＦ，ベクトルＴは，図４に示す抽象名詞が，どの形容詞・形容動詞と共起出現し，または共起出現しないのかを表す出現パターンに相当し，次元数ｎは，形容詞・形容動詞の種類数に相当する。
【００３７】
したがって，ＯＶＬＰの定義式（１）におけるパラメータａは，ベクトルＦを持つ抽象名詞とベクトルＴを持つ抽象名詞の双方と共起する形容詞・形容動詞の種類数，パラメータｂは，ベクトルＦを持つ抽象名詞と共起するがベクトルＴを持つ抽象名詞と共起しない形容詞・形容動詞の種類数，パラメータｃは，ベクトルＴを持つ抽象名詞と共起するがベクトルＦを持つ抽象名詞と共起しない形容詞・形容動詞の種類数に，それぞれ相当する。
【００３８】
補完類似度には，二値画像用の補完類似度と多値画像用の補完類似度の２つがある。
【００３９】
二値画像用補完類似度（ＣｏｍｐｌｅｍｅｎｔａｒｙＳｉｍｉｌａｒｉｔｙＭｅａｓｕｒｅｆｏｒｂｉｎａｒｙｉｍａｇｅｓ：ＣＳＭ−ｂ）は，劣化印刷文字を認識するための類似尺度である。ＣＳＭ−ｂは，テンプレート文字と印刷文字を二値ベクトルで表し，印刷文字のベクトルがテンプレート文字のベクトルをどの程度包含するかという包含関係を測る尺度である。
【００４０】
階層関係にある語彙対において，上位語である語彙は広義語であるため，下位語である狭義語より頻繁に用いられる傾向があることに着目し，出現状況を比較して包含関係を推定した。
【００４１】
ベクトルＦ＝（ｆ_１，ｆ_２，…，ｆ_ｉ，…，ｆ_ｎ）とベクトルＴ＝（ｔ_１，ｔ_２，…，ｔ_ｉ，…，ｔ_ｎ）（ｆ_ｉ，ｔ_ｉ＝０または１）におけるＣＳＭ−ｂは次のように定義される。
【００４２】
【数２】

【００４３】
この定義式（２）において，パラメータａ，ｂ，ｃは，ＯＶＬＰの定義式（１）に含まれるものと同じである。パラメータｄは，どちらの抽象名詞とも共起しない形容詞・形容動詞の種類数に相当する。したがって，次元数ｎはａ＋ｂ＋ｃ＋ｄである。ＣＳＭ（ベクトルＦ，ベクトルＴ）が１．０の場合，ＯＶＬＰと同様に，ベクトルＦはベクトルＴを完全に包含することを表す。
【００４４】
なお，分子であるａｄ−ｂｃは対称であるが，分母（ａ＋ｃ）（ｂ＋ｄ）は非対称であるため，ａ＝ｄという特殊な場合を除いて，ＣＳＭ（ベクトルＦ，ベクトルＴ）とＣＳＭ（ベクトルＴ，ベクトルＦ）とは異なる。すなわち，定義式（２）は，非対称性を備えている。多くの場合はａ＜＜ｄであるため，ＣＳＭ（ベクトルＦ，ベクトルＴ）とＣＳＭ（ベクトルＴ，ベクトルＦ）が等しいことは稀である。
【００４５】
多値画像用補完類似度（ＣｏｍｐｌｅｍｅｎｔａｒｙＳｉｍｉｌａｒｉｔｙＭｅａｓｕｒｅｆｏｒｇｒａｙ−ｓｃａｌｅｉｍａｇｅｓ：ＣＳＭ−ｇ）は，
二値画像用補完類似度ＣＳＭ−ｂを拡張した尺度である。ＣＳＭ−ｂは，グラフィカルデザインなどの汚れに強いが，二値化状態やスキャン条件に強く影響される。ＣＳＭ−ｂは，２×２分割表の特殊例であり，その一般形として，ＣＳＭ−ｇが定義されている。このＣＳＭ−ｇは，直接グレースケールで表される多値画像を扱うことができるため，二値化状態やスキャン条件に影響されにくいという特徴をもつ。
【００４６】
ベクトルＦ_ｇ＝（ｆ_ｇ１，ｆ_ｇ２，…，ｆ_ｇｉ，…，ｆ_ｇｎ）とベクトルＴ_ｇ＝（ｔ_ｇ１，ｔ_ｇ２，…，ｔ_ｇｉ，…，ｔ_ｇｎ）（ｆ_ｇｉ，ｔ_ｇｉ＝０から１）におけるＣＳＭ−ｇは，次のように定義される。
【００４７】
【数３】

【００４８】
この定義式（３）において，本発明では，ＣＳＭ−ｂと同様，次元数ｎは，形容詞・形容動詞の種類数に相当し，非対称性を持つ。しかし，各要素ｆ_ｇｉ，ｔ_ｇｉは，抽象名詞がｉ番目の形容詞・形容動詞と頻繁に共起するかどうかの状況を表すという共起頻度にもとづく重みを用いる。実施形態では，以下の重みを用いた。
【００４９】
Weight(noun,adj) = Freq(noun,adj)/(Freq(noun, adj)+1) 式（４）
式（４）中の‘Freq(noun,adj)’は，抽象名詞ｎｏｕｎが，形容詞・形容動詞ａｄｊと共起する頻度である。
【００５０】
ＣＳＭ−ｇを用いる場合，抽象名詞が形容詞・形容動詞と共起する頻度に注目した。もし，その状況がコーパス２に頻繁に出現する場合には，その抽象名詞と形容詞・形容動詞とが親密な関係にあると推測できる。逆に，全く共起しない抽象名詞と形容詞・形容動詞とは疎遠な関係にあると推測できる。そこで，ＣＳＭ−ｇが，多値ベクトル間の重なり度合いを測ることができることを利用して，それぞれの共起頻度にもとづく重みをベクトルの要素として採用した。この関数では，抽象名詞ｎｏｕｎと形容詞・形容動詞ａｄｊとが共起しなければ‘０’を，１回共起すれば‘０．５’を得る。そして，共起頻度が２回以上であれば，緩やかに１．０に近づくまで増加する関数である。これは，１回の共起は，数回の共起よりも重要な情報であることを重みに含ませることを意味する。
【００５１】
二語間階層関係導出手段１１は，上記のような尺度を用いて，グループＮの２語間ごとに，これに連結するグループＧとの出現パターン間の包含関係を測り，２語間の階層関係を推定する。もし抽象名詞Ｎｘの出現パターンが抽象名詞Ｎｙの出現パターンを包含する度合い（包含度）が，抽象名詞Ｎｙの出現パターンが抽象名詞Ｎｘの出現パターンの包含度より高いならば，この２語間では，抽象名詞Ｎｘが上位語，抽象名詞Ｎｙが下位語という階層関係があると推定し，単語対（Ｎｘ，Ｎｙ）と表す。逆に，抽象名詞Ｎｙが上位語，抽象名詞Ｎｘが下位語という階層関係であれば，単語対（Ｎｙ，Ｎｘ）と表す。
【００５２】
二語間階層関係導出手段１１は，さらに，包含度を正規化し，閾値ＴＨ未満の単語対を削除する。
【００５３】
階層構造構築手段１５は，所定閾値ＴＨ以上の単語対を用いて，各単語Ｃ_０について，以下のようにして，３階層以上の構造を持つ階層構造を構築する。
【００５４】
処理過程Ｓ１：単語Ｃ_０が上位語である単語対のうち，最も高い包含度を持つ対（Ｃ_０，Ｃ_−１）を階層の初期値Ｃ_０−Ｃ_−１とする。
【００５５】
処理過程Ｓ２：階層の最後尾に位置する単語Ｃ_−１を上位語に持つ単語対のうち，最も高い包含度を持つ単語対（Ｃ_−１，Ｃ_−２）を取り出し，下位語である単語Ｃ_−２を階層Ｃ_０−Ｃ_−１の最後尾に連結する。ただし，単語Ｃ_−２は現行の階層に含まれていないものに限る。
【００５６】
処理過程Ｓ３：処理過程Ｓ２に沿った単語対（Ｃ_−ｉ，Ｃ_{−（ｉ＋１）}）（ｉ＞１）を選択できる間はその処理を繰り返す。
【００５７】
処理過程Ｓ４：階層の先頭に位置する単語Ｃ_０を下位語に持つ単語対のうち，最も高い包含度を持つ単語対（Ｃ_１，Ｃ_０）を取り出し，上位語である単語Ｃ_１を階層Ｃ_０−Ｃ_−１−Ｃ_−２−…−Ｃ_−ｎの先頭に連結する。ただし，単語Ｃ_１は現行の階層に含まれていないものに限る。
【００５８】
処理過程Ｓ５：処理過程Ｓ４に沿った単語対（Ｃ_ｊ＋１，Ｃ_ｊ）（ｊ＞０）が選択できる間はその処理を繰り返す。
【００５９】
階層構造構築手段１５は，上記の処理過程Ｓ１〜Ｓ５によって構築した階層構造について，もし階層数が少ない階層構造Ｃｘが単語の順序が保持された状態で，より階層数の多い階層構造Ｃｙに完全に含まれるときは，階層数の少ない階層構造Ｃｘを階層構造の集合から削除する。例えば，階層構造Ｃｘ［Ｂ−Ｄ−Ｅ−Ｆ］と階層構造Ｃｙ［Ａ−Ｂ−Ｃ−Ｄ−Ｅ−Ｆ］がある場合に，階層構造Ｃｘの階層は，階層構造Ｃｙ内に順序が保持された状態で存在する。したがって，階層構造Ｃｘは階層構造Ｃｙに包含されると判断して，階層構造Ｃｘを階層構造の集合から削除する。
【００６０】
そして，階層構造構築手段１５は，階層構造の集合を，語彙階層構造情報３として出力する。
【００６１】
以下，本発明の具体的な実施例と，その実施例の結果について説明する。
【００６２】
本実施例では，コーパス２として，図３に示すような言語データを用いた。
【００６３】
コーパス２の言語データは，２年分のＭ新聞に含まれる抽象名詞を対象とする抽象名詞として，１００の小説，１００のエッセイ，１１年分のＭ新聞，１４年分のＹ新聞などをＫＮＰによって構文解析し，構文解析できた文から，その抽象名詞に前接する形容詞・形容動詞を収集することによって作成されたものである。この言語データには，抽象名詞３５４種類，形容詞・形容動詞６４０７種類が含まれている。
【００６４】
本実施例では，２語間の包含関係を推定するための統計的指標として，前記の３つの尺度，ＯＶＬＰ，ＣＳＭ−ｂ，ＣＳＭ−ｇを用いた。そして，抽象名詞「こと」を最上位語に持つ階層構造をできるだけ多く構築できる閾値を設定し，構築される階層の条件を以下のように揃えた。
【００６５】
ＯＶＬＰの場合，閾値ＴＨ＝０．２
ＣＳＭ−ｂの場合，閾値ＴＨ＝０．２
ＣＳＭ−ｇの場合，閾値ＴＨ＝０．１２
「こと」は，意味的に広く使用される抽象名詞であり，使用した言語データ中で共起する形容詞・形容動詞が最も多いものである。
【００６６】
図５に，本発明によって構築された階層構造例を示す。
【００６７】
本発明の処理結果を，既存のＥＤＲ電子化辞書に含まれる形容詞・形容動詞の概念階層を正解データとして比較した。ＥＤＲ電子化辞書は，人手で編集された１１個の辞書で構成され，概念辞書，単語辞書，日英辞書などが含まれている（ｈｔｔｐ：／／ｗｗｗ２．ｎｉｃｔ．ｇｏ．ｊｐ／ｋｋ／ｅ４１６／ＥＤＲ／ｉｎｄｅｘ．ｈｔｍｌ，１９９５）。ＥＤＲ電子化辞書には，形容詞・形容動詞に関する概念階層が９３２階層あり，構成されている階層の位置を示す深さ３から１４の範囲に分布する。本実施例で構築できた階層は，深さ３から１５の範囲に分布するため，ＥＤＲ電子化辞書における概念階層との比較は，本発明の処理結果の評価に適切なものである。
【００６８】
具体的には，ＥＤＲ電子化辞書の階層概念の階層と一致する度合い（一致度）を，各指標（尺度）によって得られた階層構造の階層について測定することで，本発明によって構築された階層構造を比較評価した。
【００６９】
しかし，ＥＤＲ電子化辞書の概念階層は，本発明で構築できた階層構造と異なり，概念ＩＤと説明文で記述されている。そのため，ＥＤＲ電子化辞書の概念階層の各概念記述について，内容語である名詞，動詞を取り出し，それらの単語に類義語を付与し，その列で文を置き換えた。同様に，本発明で構築された階層構造中の抽象名詞にも類義語を付与し，使用単語の違いを軽減した。用いた類義語はＥＤＲ電子化辞書から抽出した。
【００７０】
かかる変換処理を行った階層構造において，構築された階層構造の各ノードにある抽象名詞は，その抽象名詞とその類義語で，ノード（抽象名詞，類義語１，類義語２，‥）と表され，ＥＤＲ電子化辞書から抽出した階層概念の各ノードにある概念は，その概念記述にある内容語とそれらの類義語で，ノード（内容語１，類義語１１，類義語１２，内容語２，類義語２１，類義語２２，‥）と表される。このとき，本発明によって構築された抽象名詞の階層構造のノードにある抽象名詞または類義語が，ＥＤＲ電子化辞書の階層概念のノードにある内容語または類義語と一致する場合は，本発明の階層構造の当該ノードは，ＥＤＲ電子化辞書の階層概念の該当ノードと一致すると考えた。例えば，‘ｘ’を抽象名詞または内容語，ｘ’，ｘ”をｘの類義語としたとき，実施例で構築された階層構造が次のように表現される階層構造であるとした。
【００７１】
【数４】

【００７２】
同様に，この階層構造に対応するＥＤＲ電子化辞書の階層概念が次のように表現される階層であるとした。
【００７３】
【数５】

【００７４】
下線が付与された要素は，階層構造間で一致する単語とその単語を持つノードを示し，単語ａを持つノードＡはノードＰ，単語ｂやｂ”を持つノードＢはノードＱ，単語ｄを持つノードＤはノードＳと一致する。したがって，本発明による階層構造は，ＥＤＲ電子化辞書の階層概念と３つのノードが一致すると数え，階層の一致度を３と定義した。
【００７５】
ただし，本発明による階層構造とＥＤＲ電子化辞書の階層概念とに共通するノードがあっても，その上下関係が逆転している場合は，一致するものとしては数えなかった。例えば，上記の例で，ＥＤＲ電子化辞書の階層概念がＱ−Ｐ−Ｒ−Ｓ−Ｔとなっている場合には，ＢとＱ，ＤとＳは一致するが，ＡとＰは一致しない，あるいは，ＡとＰ，ＤとＳは一致するが，ＢとＱは一致しないと考え，この場合の一致度は２とした。なお，共通するノードの数え方が複数ある場合は，最も値が大きくなる数え方を採用した。
【００７６】
また，このような方法によって，本発明による階層構造とＥＤＲ電子化辞書の階層概念とを比較する中で，本発明の階層構造において階層関係にある単語がＥＤＲ電子化辞書では類義語である場合があった。ＥＤＲ電子化辞書では，類義語は「同じ概念にリンクされる単語」と定義されているため，例えば，本発明によって構築した階層構造「こと−ところ−イメージ−雰囲気−空気−感情−心情−心境−感慨−思い出」に対して，ＥＤＲ電子化辞書では，「感情」と「心情，心境」は類義語，「雰囲気」と「空気」も類義語であった。
【００７７】
厳密な比較の場合には「こと−ところ−イメージ−雰囲気（または，空気）−感情（または，心情，心境）−思い出」が一致して，一致度は６となる。一方で，ＥＤＲ電子化辞書では類義語である単語間の階層関係を許す場合には「こと−ところ−イメージ−雰囲気−空気−感情−心情−心境−思い出」が一致し，一致度は９となる。したがって，本比較では，これらの類義語間の階層関係をコーパスに依存した関係として考えて，後者の条件で一致度を測った。
【００７８】
はじめに，本発明によって構築した階層構造のうち，ＯＶＬＰを用いたものと，ＣＳＭ−ｂを用いたものとを比較する。図６に，ＥＤＲ電子化辞書の概念階層と，ＯＶＬＰによって得られた階層構造との一致度の深さごとの分布を示す。同様に，図７に，ＥＤＲ電子化辞書の概念階層とＣＳＭ−ｂによって得られた階層構造との一致度の深さごとの分布を示す。
【００７９】
例えば，図７において，深さ３のＣＳＭ−ｂの階層は４つあり，そのうちＥＤＲ電子化辞書との一致度が１のものは１つ，一致度が２のものは２つ，一致度が深さと同じ３，すなわち双方が完全に一致するものは１つある。図７中では，一致度と階層の深さが同じである階層の数は下線付きで表される。また，「平均」は深さ３の階層の一致度の平均（（１＊１＋２＊２＋１＊３）／４＝２．００）であり，「全体の平均」は全階層の一致度の総和を階層の総数で割った値である。
【００８０】
本実施例において，ＯＶＬＰを用いて得られた階層は２３２個，ＣＳＭ−ｂを用いて得られた階層は１８９個であった。図６および図７に示されるように，ＯＶＬＰの階層は深さ３から１０の範囲に分布し，ＣＳＭ−ｂそれらの階層は深さ３から１２の範囲に分布する。この結果から，ＣＳＭ−ｂはＯＶＬＰより得られる階層の数は少ないが，ＯＶＬＰよりも長い（深い）階層を得られることがわかる。
【００８１】
また，図６から，ＯＶＬＰの階層の多くは２から４の一致度を持ち，最も高い一致度は６を持つ階層が１つであることがわかる。これはＯＶＬＰによって得られた階層が深さ３から５に集中しているためである。一方，図７から，ＣＳＭ−ｂの階層の多くは２から６の一致度を持っているが，全体的に広く分布し，最も高い一致度９を持つ階層が３つある。深さごとの平均を見ると，ＣＳＭ−ｂの階層はより深い階層がより高い一致度を持つという，深さによる一致度の増加傾向が見られる。
【００８２】
一致度の「全体の平均」を見ると，全体的にＣＳＭ−ｂの階層はＯＶＬＰの階層よりもＥＤＲ電子化辞書の階層に一致することがわかる。また，各深さにおける一致度の平均から，同じ深さの階層について，ＣＳＭ−ｂは，ＯＶＬＰよりもＥＤＲ電子化辞書の階層に一致する階層を構築していることがわかる。
【００８３】
また，どちらの尺度を用いた階層においても，多くの抽象名詞はＥＤＲ電子化辞書の概念階層において，階層の根に近い上位概念と一致することがわかった。現在のシソーラスでは，語彙は人間の直感にもとづいて，アプリオリにカテゴリ化され，分類されている。このことから，少なくとも，本発明によって構築された階層構造は，根に近い部分は，人間の直感に近いものであることがわかった。そして，ＥＤＲ電子化辞書の階層との一致度による評価から，ＣＳＭ−ｂによって構築された階層はＯＶＬＰによって構築された階層よりも人間の直感に近い階層であることがわかった。
【００８４】
次に，共起頻度を考慮することによる階層構造構築への影響を検証した。共起頻度は，共起する単語間の関係の強さを測ることができる重要な情報である。前記の比較結果からも，ＣＳＭ−ｂが，ＯＶＬＰよりも人間の直感に近い階層を得られることがわかった。しかし，ＣＳＭ−ｂは，二値ベクトル間の包含関係を測る尺度であるため，出現パターンを表すベクトルには，０．１で表現可能な，共起するかしないかという状況しか考慮できず，その頻度情報を考慮することができない。そこで，ＣＳＭ−ｇを階層構造の構築に適用し，ベクトルの要素に共起頻度にもとづく重みを利用した。
【００８５】
具体的には，ＣＳＭ−ｇによる階層構造を，ＣＳＭ−ｂによる階層構造と比較し，共起頻度を考慮することで，よりよい階層構造が得られるかを考察した。
【００８６】
ＣＳＭ−ｂによる階層構造と，ＣＳＭ−ｇによる階層構造とを照合した。図８に示すように，ＣＳＭ−ｂは１８９個の階層，ＣＳＭ−ｇは１７８個の階層を構築した。そのうち共通して構築した階層は２８個であり，その階層の深さは，ほとんど３から６といった短い階層であった。例えば，深さ５の階層「こと−状態−関係−つながり−縁」が含まれる。また，一方の尺度による階層を，他方の尺度による階層が完全に包含する階層を比較すると，ＣＳＭ−ｂの階層を完全に包含するＣＳＭ−ｇの階層は，ＣＳＭ−ｂの階層を完全に包含するＣＳＭ−ｂの階層より多い（（Ｄ）＜（Ｅ））。これにより，ＣＳＭ−ｇは，ＣＳＭ−ｂよりも長い（深い）階層を構築できることを示していると考えられる。
【００８７】
また，図９に，ＣＳＭ−ｂの階層とＣＳＭ−ｇの階層の深さに関する分布を示す。図９から，ＣＳＭ−ｇは，構築できる階層数は，ＣＳＭ−ｂより少ないが，より深い階層を構築できることがわかる。
【００８８】
さらに，ＯＶＬＰと同様に，ＣＳＭ−ｇによる階層構造をＥＤＲ電子化辞書における概念構造と比較し，階層の一致度を測った。図１０に，ＥＤＲ電子化辞書の概念階層と，ＯＶＬＰによって得られた階層構造との一致度の深さごとの分布を示す。
【００８９】
図７に示すＣＳＭ−ｂによる階層に関する一致度の分布と，図１０に示すＣＳＭ−ｇによる階層に関する一致度の分布とから，ＣＳＭ−ｇは，より深い階層において，より高い一致度を示す傾向にあることがわかった。
【００９０】
また，図１１に示すように，階層の深さごとに一致度の平均を比較すると，深さ８と９以外の深さにおいて，ＣＳＭ−ｇのほうがＣＳＭ−ｂより高い値を持つことがわかった。
【００９１】
以上のことから，本発明は，実施形態で採用した３つの尺度のいずれを採用しても，少なくとも形容詞・形容動詞の階層構造の上位辺りにおいて，人間の直感にあった抽象名詞の階層構造を構築できる。また，共起頻度を考慮したＣＳＭ−ｇは，全体的にＣＳＭ−ｂよりＥＤＲ電子化辞書の概念階層に近い，すなわち，人間の直感に近い階層を構築できる。
【００９２】
以上，本発明をその実施の形態により説明したが，本発明はその主旨の範囲において種々の変形が可能であることは当然である。
【図面の簡単な説明】
【００９３】
【図１】本発明の最良の実施形態における構成例を示す図である。
【図２】コーパスに含まれるグループＮおよびグループＧの関係例を示す図である。
【図３】コーパスとして使用する言語データの一部の例を示す図である。
【図４】共起状況の出現パターンを二値ベクトル化したイメージを示す図である。
【図５】本発明によって構築された階層構造例を示す図である。
【図６】ＥＤＲ電子化辞書の概念階層と，ＯＶＬＰによって得られた階層構造との一致度の深さごとの分布を示す図である。
【図７】ＥＤＲ電子化辞書の概念階層とＣＳＭ−ｂによって得られた階層構造との一致度の深さごとの分布を示す図である。
【図８】ＣＳＭ−ｂおよびＣＳＭ−ｇで構築した階層数の比較を示す図である。
【図９】ＣＳＭ−ｂの階層とＣＳＭ−ｇの階層の深さに関する分布を示す図である。
【図１０】ＥＤＲ電子化辞書の概念階層と，ＯＶＬＰによって得られた階層構造との一致度の深さごとの分布を示す図である。
【図１１】ＣＳＭ−ｂの階層とＣＳＭ−ｇの階層の深さごとの一致度の平均による比較を示す図である。
【符号の説明】
【００９４】
１語彙階層構造抽出装置
１１二語間階層関係導出手段
１３情報ベース
１５階層構造構築手段
２コーパス
３語彙階層構造情報

【特許請求の範囲】
【請求項１】
コンピュータが実行する処理方法であって，
ユーザによって用意されたコーパスであって，形態素が連結された一または複数の語句，文書などの集合体から，各形態素について，当該形態素と連結関係にある他の形態素との包含関係を統計的指標を用いて推定する処理過程と，
形態素が他の形態素を包含する度合いを示す包含度を算出し，当該包含度を用いて当該２語間の階層関係を導出し，情報ベースに記憶する処理過程と，
前記情報ベースに記憶された前記２語間の階層関係について，同一形態素を上位語とする２語間の階層関係を抽出する処理過程と，
前記抽出された２語間の階層関係の一つを初期階層に設定し，当該初期階層の下位語が上位語であって包含度が最も高い２語間の階層関係を選択して前記初期階層の下位階層として連結し，当該初期階層の上位語が下位語であって包含度が最も高い２語間の階層関係を選択して前記初期階層の上位階層として連結する処理を，前記抽出された２語間の階層関係について繰り返し，前記抽出された２語間の階層関係が連結された階層構造情報を出力する処理過程とを備える
ことを特徴とする語彙階層構造抽出方法。
【請求項２】
前記包含関係を統計的指標を用いて推定する処理過程において，前記形態素と連結関係にある前記他の形態素との共起状況をベクトルを用いて表し，前記ベクトルの包含関係を推定する
ことを特徴とする請求項１記載の語彙階層構造抽出方法。
【請求項３】
前記包含関係を統計的指標を用いて推定する処理過程において，前記ベクトル間の包含関係を補完類似度を用いて推定する
ことを特徴とする請求項２記載の語彙階層構造抽出方法。
【請求項４】
前記包含関係を統計的指標を用いて推定する処理過程において，前記ベクトル間の包含関係をオーバーラップ相関係数を用いて推定する
ことを特徴とする請求項２記載の語彙階層構造抽出方法。
【請求項５】
ユーザによって用意されたコーパスであって，形態素が連結された一または複数の語句，文書などの集合体から，各形態素について，当該形態素と連結関係にある他の形態素との包含関係を統計的指標を用いて推定し，形態素が他の形態素を包含する度合いを示す包含度を算出し，当該包含度を用いて当該２語間の階層関係を導出する二語間階層関係導出手段と，
前記２語間の階層関係を記憶する情報ベースと，
前記情報ベースに記憶された前記２語間の階層関係について，同一形態素を上位語とする２語間の階層関係を抽出し，前記抽出された２語間の階層関係の一つを初期階層に設定し，当該初期階層の下位語が上位語であって包含度が最も高い２語間の階層関係を選択して前記初期階層の下位階層として連結し，当該初期階層の上位語が下位語であって包含度が最も高い２語間の階層関係を選択して前記初期階層の上位階層として連結する処理を，前記抽出された２語間の階層関係のすべてについて行い，前記抽出された２語間の階層関係が連結された階層構造情報を出力する階層構造構築手段とを備える
ことを特徴とする語彙階層構造抽出装置。
【請求項６】
前記二語間階層関係導出手段は，前記形態素と連結関係にある前記他の形態素との共起状況をベクトルを用いて表し，前記ベクトルの包含関係を推定する
ことを特徴とする請求項５記載の語彙階層構造抽出装置。
【請求項７】
前記二語間階層関係導出手段は，前記ベクトル間の包含関係を補完類似度を用いて推定する
ことを特徴とする請求項６記載の語彙階層構造抽出装置。
【請求項８】
前記二語間階層関係導出手段は，前記ベクトル間の包含関係をオーバーラップ相関係数を用いて推定する
ことを特徴とする請求項６記載の語彙階層構造抽出方法。
【請求項９】
コンピュータに，
ユーザによって用意されたコーパスであって，形態素が連結された一または複数の語句，文書などの集合体から，各形態素について，当該形態素と連結関係にある他の形態素との包含関係を統計的指標を用いて推定する処理と，
形態素が他の形態素を包含する度合いを示す包含度を算出し，当該包含度を用いて当該２語間の階層関係を導出し，情報ベースに記憶する処理と，
前記情報ベースに記憶された前記２語間の階層関係について，同一形態素を上位語とする２語間の階層関係を抽出する処理と，
前記抽出された２語間の階層関係の一つを初期階層に設定し，当該初期階層の下位語が上位語であって包含度が最も高い２語間の階層関係を選択して前記初期階層の下位階層として連結し，当該初期階層の上位語が下位語であって包含度が最も高い２語の階層関係を選択して前記初期階層の上位階層として連結する処理を，前記抽出された２語間の階層関係について繰り返し，前記抽出された２語間の階層関係が連結された階層構造情報を出力する処理とを
実行させるための語彙階層構造抽出プログラム。
【請求項１０】
前記包含関係を統計的指標を用いて推定する処理において，前記形態素と連結関係にある前記他の形態素との共起状況をベクトルを用いて表し，前記ベクトルの包含関係を推定する
ことを特徴とする請求項９記載の語彙階層構造抽出プログラム。
【請求項１１】
前記包含関係を統計的指標を用いて推定する処理過程において，前記ベクトル間の包含関係を補完類似度を用いて推定する
ことを特徴とする請求項１０記載の語彙階層構造抽出プログラム。
【請求項１２】
前記包含関係を統計的指標を用いて推定する処理過程において，前記ベクトル間の包含関係をオーバーラップ相関係数を用いて推定する
ことを特徴とする請求項１０記載の語彙階層構造抽出プログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【公開番号】特開２００８−１５２３２４（Ｐ２００８−１５２３２４Ａ）
【公開日】平成２０年７月３日（２００８．７．３）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 自然言語データの取扱い (7,890)
        
        自然言語の処理または翻訳 (1,147)

【出願番号】特願２００６−３３６６５２（Ｐ２００６−３３６６５２）
【出願日】平成１８年１２月１４日（２００６．１２．１４）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　平成１８年　６月１５日　社団法人情報処理学会発行の「情報処理学会論文誌　Ｖｏｌ．４７，Ｎｏ．６」に記載の文書に基づいて発表
【出願人】（３０１０２２４７１）独立行政法人情報通信研究機構 (1,071)
【Ｆターム（参考）】

機械翻訳 (6,566)

[ Back to top ]

語彙階層構造抽出方法，装置，およびプログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

語彙階層構造抽出方法，装置，およびプログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク