述部正規化装置、方法、及びプログラム
【課題】単純かつ文法的に正しい述部の言い換えを行う。
【解決手段】形態素解析結果に対して、機能表現に意味ラベルを付与すると共に、述部を抽出し、意味ラベル「NULL」の機能表現の削除、同一の意味ラベルの機能表現の1つ以外を削除した後、Ngram文法性判断部22の候補生成部22aで、周辺に存在する単語によって文法的な必要性が異なることを示す「Grammar」に属する意味ラベルが付与された機能表現を含む場合、除いた場合の全ての組み合わせについて、述部の形態素列の候補を生成し、Ngramスコア計算部22dで、機能語については形態素の表層形を要素とし、機能語以外の単語については表層形を要素としない形態素Ngramモデル22b、及び品詞Ngramモデル22cに基づいて、Ngramスコアを計算し、選択部22eでNgramスコアが最も高い形態素列を選択して、正規化した述部を出力する。
【解決手段】形態素解析結果に対して、機能表現に意味ラベルを付与すると共に、述部を抽出し、意味ラベル「NULL」の機能表現の削除、同一の意味ラベルの機能表現の1つ以外を削除した後、Ngram文法性判断部22の候補生成部22aで、周辺に存在する単語によって文法的な必要性が異なることを示す「Grammar」に属する意味ラベルが付与された機能表現を含む場合、除いた場合の全ての組み合わせについて、述部の形態素列の候補を生成し、Ngramスコア計算部22dで、機能語については形態素の表層形を要素とし、機能語以外の単語については表層形を要素としない形態素Ngramモデル22b、及び品詞Ngramモデル22cに基づいて、Ngramスコアを計算し、選択部22eでNgramスコアが最も高い形態素列を選択して、正規化した述部を出力する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、述部正規化装置、方法、及びプログラムに係り、特に、自然言語処理において、文情報の中心となる述部を対象に、述部の機能表現を単純に言い換え、言い換えられた述部が自然な日本語になるように文法性を判断する述部正規化装置、方法、及びプログラムに関する。
【背景技術】
【0002】
議事録、アンケート、web上のテキストやコンタクトセンタの会話ログなど大量の文書から有益な情報を得るためには、テキストから「誰が何をどうした」という重要な情報を抽出し、同じ意味の要素毎にまとめ上げ、集計することが必須である。しかし、テキスト上では同じ内容が様々な表現で書かれているため、機械が同じ意味の表現をまとめ上げるためには、前処理が必要となる。特に、「どうした」を表す述部は、動詞・名詞・形容詞・形容動詞・副詞といった「内容語」と、助詞・助動詞などの「機能語」との組み合わせから成り立っているため、表層形の異なりが激しい。例えば、下記の例文「故障しているのかも知れないわね」は、1つの述部に対して1つの内容語、及び5種類の異なる機能語が付属している。なお、1つ以上の機能語がかたまりで1つの意味単位を構成している場合を「機能表現」と呼ぶ。
【0003】
故障し(内容語)/ ている(機能語1)/ の(機能語2)/
かも知れない(機能語3)/ わ(機能語4)/ ね(機能語5)
【0004】
このように、述部は様々な要素の組み合わせからなっているため、表層形の異なりが激しく、機械による同義表現抽出が困難となっている。
【0005】
これらの同義表現抽出の困難さを解決するための一つの方法が、「言い換え」である。例えば、口語表現でよく出てくる、「故障しているのかも知れないわね」というような述部を、「故障しているかも知れない」と単純な形に言い換えることで、述部が表している意味を変えることなく、機械で「『故障しているのかも知れないわね』は『故障しているかも知れない』と同義である」と判断することができる。つまり、同じ意味を表す述部は同じ表層形に自動で言い換えることで、機械で集計ができるようになる。この処理を、述部の正規化と呼ぶ。これらの言い換えを用いた前処理は、述部のまとめ上げのみならず、要約や機械翻訳の前処理としても用いることができる。
【0006】
従来、述部を単純に言い換える手法として、述部の機能語または機能表現を、「述部が表す出来事の意味に影響するか否か」を判断基準として、抽象的な意味ラベルを用いて分類し、「影響する」に属する機能表現を残すことにより、述部の正規化を行う手法が提案されている(例えば、非特許文献1参照)。非特許文献1の手法では、機能表現を分類するための抽象的な意味ラベルとして、「時制の差異」、「否定の差異」、及び「モダリティの差異」という3つの指標を立て、述部の正規化に際して、これらに属さない機能表現を削除している。また、助動詞の「だ」、及び助詞の「の」を「Grammar」というカテゴリに分類し、モダリティに属する機能表現の前または後の「Grammar」に分類された機能表現は削除することなく残している。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Izumi T., Imamura K., Kikui G.& Sato S.、「Standardizing Complex Functional Expressions in Japanese Predicates: Applying Theoretically-Based Paraphrasing Rules」、Proceedings of the Workshop on Multiword Expressions : From theory to applications (MWE 2010)、 63-71。
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、非特許文献1に記載された技術のように、述部が表す出来事の意味に影響する機能表現のみを残し、残りを単純に削除した場合では、文法的に正しくない言い換えを生成する場合がある、という問題がある。
【0009】
例えば、「苦手なのかも知れないね」という述部を例に説明する。
【0010】
苦手(内容語)/な(機能表現・G)/の(機能表現・G)/
かも知れない(機能表現)
【0011】
上記のように、述部に3つの機能表現が含まれている。なお、「G」は、上述の機能表現が助動詞の「だ」、及び助詞の「の」に分類されることを示す「Grammar」に分類されていることを表す。非特許文献1の手法では、モダリティに属する機能表現の前または後の「Grammar」に分類された機能表現は残し、それ以外は削除している。よって、上記の例では、図17に示すように、モダリティに属する機能表現である「かも知れない」の前に位置する「の」は残し、前後にモダリティに属する機能表現が存在しない「な」は削除される。そして、正規化された述部として「苦手のかも知れない」が生成されてしまう。この場合、名詞−形容動詞語幹の「苦手」と助詞の「の」をつなぐために、助動詞の「だ(表層形は「な」)」が必要であるにもかかわらず削除されてしまったため、生成された言い換えは日本語として正しいとは言えない。これは、(1)述部が表す意味を変えずに、述部を単純にする、(2)言い換えられた述部が日本語として正しい、という述部の言い換えを行う際に必要な2点のうち、上記(2)が考慮されていないためである。
【0012】
本発明は上記問題点に鑑みてなされたものであり、単純かつ文法的に正しい述部の言い換えを行うことができる述部正規化装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0013】
上記目的を達成するために、本発明の述部正規化装置は、入力された文書を形態素解析する形態素解析手段と、前記形態素解析手段による形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与するラベル付与手段と、前記判定ラベルが付与された機能表現の少なくとも1つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Nグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算する計算手段と、前記計算手段により計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する生成手段と、を含んで構成されている。
【0014】
本発明の述部正規化装置によれば、形態素解析手段が、入力された文書を形態素解析し、ラベル付与手段が、形態素解析手段による形態素解析の結果に基づいて、文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、文法的な必要性が異なることを示す判定ラベルを付与する。そして、計算手段が、判定ラベルが付与された機能表現の少なくとも1つを述部に含ませた場合の述部を構成する形態素列、及び判定ラベルが付与された機能表現の各々を除いた場合の述部を構成する形態素列の各々について、形態素Nグラムモデルに基づいて、判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算する。この形態素Nグラムモデルは、機能語については形態素の表層形を要素とし、機能語以外の語については表層形を要素としない擬似単語により構築されたNグラムモデルである。そして、生成手段が、計算手段により計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する。
【0015】
このように、周辺に存在する単語によって文法的な必要性が異なる機能表現の文法性を、形態素Nグラムモデルを用いて判断するため、単純かつ文法的に正しい述部の言い換えを行うことができる。また、機能語については形態素の表層形を要素とし、機能語以外の語については表層形を要素としない擬似単語により構築された形態素Nグラムモデルを用いることで、述部に含まれる機能語以外の語、すなわち内容語の表層形のばらつきによるスコアの揺れを抑えつつ、機能表現の表層形は文法性判断の基準として用いることができ、高精度の文法性判断を行うことができる。
【0016】
また、前記計算手段は、前記形態素Nグラムモデルと、形態素の表層形以外を要素とした擬似単語により構築された品詞Nグラムモデルとに基づいて、前記スコアを算出することができる。このように、形態素Nグラムモデルとあわせて、品詞Nグラムモデルも用いることで、対象となる機能表現の文法性判断の精度がより向上する。
【0017】
また、前記ラベル付与手段は、前記判定ラベル、並びに前記機能表現が意味的及び文法的に不要であることを示す不要ラベルを含み、かつ前記機能表現が前記述部の意味に影響を与えるか否かを示す意味ラベルを前記述部に含まれる機能表現の各々に付与し、前記計算手段は、前記ラベル付与手段により不要ラベルが付与された機能表現、及び同一の意味ラベルが付与された機能表現の各々の少なくとも1つ以外の機能表現を削除した述部を用いて、前記スコアを算出することができる。これにより、より単純化された述部を生成することができる。
【0018】
また、本発明の述部正規化方法は、入力された文書を形態素解析し、形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与し、前記判定ラベルが付与された機能表現の少なくとも1つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Nグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算し、計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する方法である。
【0019】
また、本発明の述部正規化プログラムは、コンピュータを、上記の述部正規化装置を構成する各手段として機能させるためのプログラムである。
【発明の効果】
【0020】
以上説明したように、本発明の述部正規化装置、方法、及びプログラムによれば、機能語については形態素の表層形を要素とし、機能語以外の語については表層形を要素としない擬似単語により構築された形態素Nグラムモデルを用いて、周辺に存在する単語によって文法的な必要性が異なる機能表現の文法性を判断するため、単純かつ文法的に正しい述部の言い換えを行うことができる、という効果が得られる。
【図面の簡単な説明】
【0021】
【図1】本実施の形態の述部正規化装置の機能的構成を示すブロック図である。
【図2】形態素解析の結果の一例を示す図である。
【図3】機能語意味ラベル辞書の一例を示す図である。
【図4】「Grammar」に属する意味ラベルの一例を示す図である。
【図5】意味ラベルの付与及び述部抽出結果の一例を示す図である。
【図6】NULL削除部での処理結果の一例を示す図である。
【図7】Ngram文法性判断部の機能的構成を示すブロック図である。
【図8】従来の形態素Ngramモデルの一例を示す図である。
【図9】品詞Ngramモデルの一例を示す図である。
【図10】従来の形態素Ngramと品詞Ngramとの混合率を変化させた場合の言い換え精度比較を示す図である。
【図11】本実施の形態の形態素Ngramモデルの一例を示す図である。
【図12】本実施の形態の形態素Ngramと品詞Ngramとの混合率を変化させた場合の言い換え精度比較を示す図である。
【図13】候補毎のNgramスコア算出結果の一例を示す図である。
【図14】本実施の形態の述部正規化装置における述部正規化処理ルーチンの内容を示すフローチャートである。
【図15】NULL削除部での処理結果の他の例を示す図である。
【図16】候補毎のNgramスコア算出結果の他の例を示す図である。
【図17】従来技術における機能表現の削除を説明するための図である。
【発明を実施するための形態】
【0022】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0023】
本実施の形態に係る述部正規化装置10は、CPUと、RAMと、後述する述部正規化処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、入力された文書(テキストデータ)を形態素解析する形態素解析部12と、意味ラベル・述部モデル14を用いて、形態素解析結果に対して機能表現の意味ラベルを付与し、文書の述部を抽出する意味ラベル付与・述部抽出部16と、意味ラベル「NULL」が付与された機能表現を削除するNULL削除部18と、同一の意味ラベルが付与された機能表現を1つだけ残して削除する冗長ルール適用部20と、Ngramモデルを用いて機能表現の文法上の必要性を判断するNgram文法性判断部22と、不要な機能表現が削除された残りの形態素を用いて述部を生成する活用生成部24と、を含んだ構成で表すことができる。
【0024】
形態素解析部12は、入力された文書に対して、公知の形態素解析器を用いて一文毎に形態素解析を行う。形態素解析では、文が単語単位に分割され、各単語に品詞や活用型、活用形などの情報が付与される。図2に、入力された文書の一文が「彼は歌が苦手なのかも知れないね」に対する形態素解析の結果の一例を示す。
【0025】
意味ラベル・述部モデル14は、述部が表す出来事の意味に影響を与えるか否かを示す意味ラベルを、機能表現の各々に付与すると共に、入力された文書から述部を抽出するためのモデルである。意味ラベル・述部モデル14は、機能語意味ラベル辞書に基づいて、人手で機能語に対して正解の意味ラベルを付与したコーパスを学習データとして、述部の範囲及び意味ラベルの並びの尤もらしさを学習して生成されている。機能語意味ラベル辞書には、述部の意味に影響を与えるとされる機能表現が定められており、例えば、図3に示すように、「時制の差異」、「否定の差異」、及び「モダリティの差異」という3つの指標をもとに分類され、予め記憶されている。さらに、「Grammar」というカテゴリ分類される機能表現も存在する。「Grammar」は、「意味的には重要ではないが、周辺の単語によっては文法的に必要な要素」を意味する。図4に、「Grammar」に属する意味ラベルを示す。「Grammar」に属する代表的な機能語は、助動詞の「だ」、及び助詞の「の」であり、ここでは、用途に合わせて、「だ」の意味ラベルを「判断」、「の」の意味ラベルを「名詞化」とする。
【0026】
意味ラベル付与・述部抽出部16は、意味ラベル・述部モデル14を用いた統計的手法により、形態素解析結果に対して、機能表現の意味ラベルを自動で付与し、さらに述部の範囲を抽出する。図5に、意味ラベルの付与及び述部の抽出結果の一例を示す。述部は、1個以上の内容語(C)及び0個以上の機能語(F)の連続から成り立っているため、「苦手なのかも知れないね」が述部として抽出される。この述部は、「苦手」を内容語とし、「な/の/かも知れない/ね」という4つの機能表現をもつ。
【0027】
また、この例では、BIタグというものを使用し、述部の内容語であって、内容語の先頭の単語(「苦手」)には「C,B−PRED」のラベルを付与し、また、述部の内容語であって、内容語の先頭以外の単語(ここでは該当単語なし)には、「C,I−PRED」のラベルを付与する。Cは内容語(Content words)の頭文字である。また、機能語(Function words)には「F」のラベルを付与し、それに加えて、機能表現単位で該当する意味ラベルを付与する。機能表現「かも知れない」は、機能語「かも」、「知れ」及び「ない」で構成されているので、「かも」、「知れ」及び「ない」の各々に、機能語を示す「F」のラベルが付与されると共に、機能表現「かも知れない」に対応する意味ラベル「推量」が付与される。また、内容語と同様に、該当する機能語が、ある機能表現(「かも知れない」)の先頭の単語(「かも」)だった場合は、「B−推量」のように、その機能語が含まれる機能表現に付与された意味ラベルの前に「B」を付け、先頭以外の単語(「知れ」、「ない」)だった場合は、「I−推量」のように意味ラベルの前に「I」を付ける。 また、「Grammar」に属する機能語(ここでは、助動詞の「だ」及び助詞の「の」)には、上記と同様に、機能語を示すラベル「F」、機能表現の先頭または先頭以外の単語を示す「B」または「I」のラベルと共に、その単語の用途に応じて「判断」または「名詞化」の意味ラベルを付与する。機能語意味ラベル辞書に登録されていない単語、及び「Grammar」に属する単語以外の単語には、上記と同様に、機能語を示すラベル「F」、機能表現の先頭または先頭以外の単語を示す「B」または「I」のラベルと共に、「NULL」のラベルを付与する。
【0028】
NULL削除部18は、意味ラベルとして「NULL」が付与された機能表現を削除する。「NULL」が付与されているということは、述部の意味に影響を与える機能表現として機能語意味ラベル辞書に定められていない語であり、かつ意味的には重要ではないが、周辺の単語によっては文法的に必要な要素である「Grammar」というカテゴリにも分類されないことを示している。このような機能表現は、削除しても問題ないため、削除する。
【0029】
冗長ルール適用部20は、同一の意味ラベルが付与された機能表現については、1つを残して削除する。これにより、不要な機能表現を削除して、述部の冗長性を解消する。図6に、NULL削除及び冗長ルール適用後の一例を示す。なお、冗長ルールの適用は、機能表現単位で行う。このため、図6の例で、「知れ」及び「ない」は、同一の意味ラベルが付与されているが、各々「かも知れない」という機能表現の一部であるため、削除されない。
【0030】
Ngram文法性判断部22は、「Grammar」に属する機能表現のうち、どの機能表現が必要で、どの機能表現が不要かを判断する。Ngram文法性判断部22は、図7に示すように、文法性判断の対象となる機能表現を残す場合及び除く場合の全ての組み合わせ候補を作成する候補生成部22aと、形態素Ngramモデル22b及び品詞Ngramモデル22cに基づいて、生成された候補毎にNgramスコアを計算するNgram計算部22dと、Ngramスコアに基づいて、候補の中から1つを選択する選択部22eと、を含んだ構成で表すことができる。
【0031】
候補生成部22aは、NULL削除部18及び冗長ルール適用部20により不要な機能表現が削除された述部について、意味ラベル付与・述部抽出部16で「Grammar」に属する機能表現として、「判断」及び「名詞化」の意味ラベルが付与された機能語を残した述部の形態素列の候補、及び対象の機能語を除いた述部の形態素列の候補について、全ての組み合わせ候補を作成する。ここでは、「な(判断)」及び「の(名詞化)」が、対象の機能語となっているため、いずれも削除した「苦手/かも/知れ/ない」、「な」を削除し「の」を残した「苦手/の/かも/知れ/ない」、「の」を削除し「な」を残した「苦手/な/かも/知れ/ない」、いずれも残した「苦手/な/の/かも/知れ/ない」が候補として生成される。
【0032】
形態素Ngramモデル22b及び品詞Ngramモデル22c(以下、この2つのモデルをまとめて、または区別することなく説明する場合には、単に「Ngramモデル」ともいう。)は、入力された単語の並びに、確率を基にした「単語列としての尤もらしさ」のスコアを与えるためのモデルである(例えば、「北研二、中村哲、永田昌明「音声言語処理−コーパスに基づくアプローチ」、森北出版、2.4章」参照)。任意の単語数を持つ並びのスコアを計算するため、Ngramモデルでは、N個の単語の並び(これをNgramと呼び、N=3のときをTrigramと呼ぶ)から単語の生成確率を取得し、単語列全体について、この総積を計算することで算出される。本実施の形態では、確率の対数値をスコアと呼び、入力の単語列全体のスコアをNgramスコアと呼ぶ。また、個々のNgramの生成確率は、予めコーパスから学習しておく。
【0033】
Ngramスコア計算部22dは、候補生成部22aで生成された各候補について、Ngramモデルを用いてNgramスコアを計算する。本実施の形態のように、2つ以上のNgramモデルを用いて1つのNgramスコアを計算する場合には、例えば、下記(1)式によりNgramスコアを計算することができる。
【0034】
logP=αlogPa+(1−α)logPb ・・・(1)
【0035】
ただし、logPは、最終的な「単語列としての尤もらしさ」を表すNgramスコア、logPaは形態素Ngramモデル22bから算出したNgramスコア、logPbは品詞Ngramモデル22cから算出したNgramスコアであり、αは両者の混合率である。このNgramスコアを用いて、「Grammar」に属する機能表現の文法性判断を行う。
【0036】
ここで、本実施の形態における「Grammar」に属する機能表現の文法性判断の原理について説明する。
【0037】
入力単語列が形態素解析済みである場合、単に形態素の表層形だけを用いてNgramスコアを計算するより、形態素の品詞、活用型などの情報も使用してNgramスコアを計算する方が、より正確に「単語列としての尤もらしさ」を計算することができる。例えば、従来の形態素Ngramモデルでは、形態素の表層形、品詞、活用型をまとめたものを擬似単語としてNgramモデルを構築し、品詞Ngramモデル22cでは、形態素の品詞、活用型をまとめたものを擬似単語としてNgramモデルを構築し、両者のNgramスコアを適当な混合率αで補完し、(1)式を用いて最終的なNgramスコアを計算することができる。図8に、N=3の場合の従来の形態素Ngramモデルの一例、図9にN=3の場合の品詞Ngramモデル22cの一例を示す。
【0038】
機械翻訳で使用される言語モデルなどでは、この従来の形態素Ngramモデルと品詞Ngramモデル22cとを適当な混合率(例えば、α=0.8、すなわちモデルa:モデルb=0.8:0.2)を用いて、Ngramスコアを計算する。しかし、本実施の形態が目的とする機能表現の文法性判断に、この手法を適用すると、図10に示すように、混合率によって、述部の言い換え精度のばらつきが大きくなる。
【0039】
より正しく文法性を判断するには、表層形を要素に含んだ従来の形態素Ngramモデルの割合を上げることが的確であるが、機能表現の文法性判断の場合、従来の形態素Ngramモデルの混合率を高くすると(すなわち、αを1に近付けると)、精度が低下する。これは、述部の内容語が悪影響を及ぼしているものと考えられる。本発明で対象とする述部には内容語も含まれているが、内容語は同一の意味を示す異なった表層形の数が機能語よりも多いため、従来の形態素Ngramモデルのスコアにばらつきが生じる。これはNgram確率を学習する際のデータが不十分なため、正しくスコア計算ができないことが原因である。しかし、これらの問題に直面せずに正しく学習を行うためには、大量の学習データが必要となる。
【0040】
そこで、本実施の形態では、機能表現の文法性判断を行う際のNgramスコア計算において、機能表現を構成する機能語については表層形を要素に含めた擬似単語、機能語以外の単語については表層形を要素に含めない擬似単語により構築されたNgramモデル(形態素Ngramモデル22b)を使用する。これにより、文法性判断を行いたい機能表現については、表層形を要素に含めることで重要な情報をNgramモデルに残して、Ngramモデルの精度を向上させることができ、一方、文法性判断にあまり影響を与えず、表層形のばらつきが大きい内容語については、表層形を要素から除くことで、Ngramモデルの精度低下を回避することができる。
【0041】
図11に、本実施の形態における形態素Ngramモデル22bの一例を示す。どの種類の形態素の表層形を用いるかは、文法性判断を行いたい箇所により決める。ここでは、品詞の中でも、「助詞、助動詞、フィラー、その他、記号、非自立、特殊、接尾、接続詞的、動詞非自立的」という種類が品詞の中に入っていた場合を機能語とし、これらの表層形は形態素Ngramモデル22bの要素として用いる。図11に示すように、「動詞−自立」や「形容詞−自立」のような内容語の表層形は「*」に統一し、「助動詞」や「助詞」に属する形態素に関しては表層形も要素として用いる。機能語は内容語に比べ種類が少ないため、限られたデータ数でも学習ができ、かつ機能語の表層形の並びも形態素Ngramモデル22bに加えることができる。これらの擬似単語を用いて、形態素Ngramモデル22bを、既存の学習ツールを使用して学習する。また、品詞Ngramモデル22cについても、品詞及び活用型を要素とする擬似単語を用いて、既存の学習ツールを使用して学習する。
【0042】
図12に示すように、本実施の形態のNgramモデルを用いることで、混合率による精度のばらつきを抑え、言い換え精度を高く保持できることが分かる。
【0043】
そして、このNgramモデルを用いてNgramスコアを計算する際には、形態素Ngramモデル22bに基づくスコアの算出では、学習時と同様に、機能語については表層形を要素に含め、機能語以外の単語については表層形を要素に含めずにスコアを算出する。
【0044】
また、Ngramスコア計算部22dは、候補生成部22aで生成された各候補の末尾に句点「。」を付け加えた上で、Ngramモデルを用いて各候補のNgramスコアを計算する。各候補の末尾に句点「。」を付けるのは、「文末(すなわち、終止形)で現れる述部の中で一番尤もらしい単語の並び」を見るためである。図13に、候補毎に計算されたNgramスコアの一例を示す。
【0045】
選択部22eは、Ngramスコア計算部22dにより計算された各候補のNgramスコアに基づいて、Ngramスコアが最も高い候補を選択し、選択した候補を構成する形態素列を出力する。図13の例では、「Grammar」に属する全ての機能語が削除された「苦手/かも/知れ/ない」が、Ngramスコアが最も高い候補であるため、この候補を選択する。これにより、「彼は歌が苦手なのかも知れないね。」という入力文書の述部に対して、最も単純かつ文法的に正しい言い換え表現である「苦手かも知れない」の組み合わせが出力される。
【0046】
活用生成部24は、選択部22eから出力された形態素列の全ての要素を正しく活用させて、最終的な述部を生成する。本実施の形態では、言語モデルによる活用生成器を使用する。これは、予め正解データより、前方の単語の表層形・品詞・活用型と後方の単語の表層形・品詞を素性として「どの接続が尤もらしいか」を学習したモデルによる生成器である。この言語モデルに基づいて、新しく前後の単語の表層形・品詞・活用型が入力された際に、最適な表記を生成する。ここでは、この言語モデルによる活用生成器に形態素列「苦手/名詞−形容動詞語幹」、「かも/助詞−副助詞」、「知れ/動詞−自立/一段」、「ない/助動詞/特殊・ナイ」を入力し、正しく接続された述部である「苦手かも知れない」を生成する。
【0047】
次に、図14を参照して、本実施の形態の述部正規化装置10において実行される述部正規化処理ルーチンについて説明する。
【0048】
ステップ100で、入力された文書に対して、公知の形態素解析器を用いて一文毎に形態素解析を行い、文を単語単位に分割し、各単語に品詞や活用型、活用形などの情報を付与する。ここでは、入力文書に含まれた一文の例として、「主役は彼のようだね」について説明する。
【0049】
次に、ステップ102で、意味ラベル・述部モデル14を用いた統計的手法により、上記ステップ100での形態素解析結果に対して、機能表現の意味ラベルを自動で付与し、さらに述部の範囲を抽出する。ここでは、「彼」を内容語とし、「の/よう/だ/ね」の4つの機能表現を含む「彼のようだね」が述部として抽出される。機能表現のうち、「の」に「Grammar」に属する意味ラベル「名詞化」が付与され、「だ」に「Grammar」に属する意味ラベル「判断」が付与される。また、「ね」には意味ラベル「NULL」が付与される。
【0050】
次に、ステップ104で、上記ステップ102で、意味ラベルとして「NULL」が付与された機能表現を削除する。ここでは、「ね」が削除される。
【0051】
次に、ステップ106で、上記ステップ102で付与された意味ラベルを参照して、同一の意味ラベルが付与された機能表現は、1つを残して削除する。ここでは、該当する機能表現はないため、そのままステップ108へ移行する。図15に示すように、上記ステップ104及び106の処理を経て、述部は「彼/の/よう/だ」となる。
【0052】
次に、ステップ108で、上記ステップ104及び106の処理を経て、不要な機能表現が削除された述部について、上記ステップ102で「Grammar」に属する機能表現として、「判断」及び「名詞化」の意味ラベルが付与された機能表現を残した述部の形態素列の候補、及び対象の機能表現を除いた述部の形態素列の候補について、全ての組み合わせ候補を作成する。ここでは、「の(名詞化)」及び「だ(判断)」が、対象の機能表現となっているため、いずれも削除した「彼/よう」、「だ」を削除し「の」を残した「彼/の/よう」、「の」を削除し「だ」を残した「彼/よう/だ」、いずれも残した「彼/の/よう/だ」が候補として生成される。
【0053】
次に、ステップ110で、上記ステップ108で生成した候補の各々の末尾に句点「。」を付け加えた上で、各候補毎に、機能語については形態素の表層形を要素に含めて、機能語以外の語は表層形を要素に含めずに、形態素Ngramモデル22bに基づいてスコアlogPaを算出し、また、各単語の品詞及び活用型を要素として、品詞Ngramモデル22cに基づいてスコアlogPbを算出し、上記(1)式に従ってNgramスコアを計算する。図16に、各候補のNgramスコアを示す。
【0054】
次に、ステップ112で、上記ステップ110で計算した各候補のNgramスコアに基づいて、Ngramスコアが最も高い候補を選択し、選択した候補を構成する形態素列を出力する。ここでは、「彼/の/よう/だ」が選択される。
【0055】
次に、ステップ114で、上記ステップ112で選択した形態素列の全ての要素を正しく活用させて、最終的な述部を生成する。これにより、「主役は彼のようだね。」という入力に対して、最も単純かつ文法的に正しい言い換え表現である「彼のようだ。」の組み合わせが出力される。結果、述部が「彼のようだね」から「彼のようだ」に正規化される。
【0056】
以上説明したように、本実施の形態の述部正規化装置によれば、述部の意味には影響を与えないが、周辺の単語によっては日本語の文法として必要となりうる機能表現に「Grammar」というカテゴリを与えて、「Grammar」に属する機能表現を含む場合、除いた場合の各々について、Ngramモデルを用いて単語列としての尤もらしさを示すNgramスコアを計算し、Ngramスコアが高くなるように「Grammar」に属する機能表現を残したり、削除したりするため、単純かつ文法的に正しい述部の言い換えを行うことができる。また、Ngramモデルを使用する際に、形態素Ngramモデルと品詞Ngramモデルとを用いるが、形態素Ngramモデルでは、機能語については形態素の表層形を要素とし、機能語以外の単語では表装形を要素としないため、述部に含まれる内容語の表層形のばらつきによるNgramスコアの揺れを抑えつつ、機能表現の表層形は文法性判断の基準として用いることができ、高精度の文法性判断を行うことができる。
【0057】
また、テキストマイニングなどで行われている述部のまとめ上げや、機械翻訳、要約といった自然言語処理技術の前処理として、本実施の形態で正規化された述部を使用することができ、これらの処理の精度を向上させることができる。
【0058】
なお、上記実施の形態では、「Grammar」に属する機能表現の文法性判断に、形態素Ngramモデルと品詞Ngramモデルとをあわせて用いる場合について説明したが、形態素Ngramのみを用いて判断してもよい。
【0059】
また、上記実施の形態では、形態素Ngramモデルは、表層形(機能語のみ)、品詞及び活用型を要素とし、品詞Ngramモデルは、品詞及び活用型を要素とする場合について説明したが、品詞及び活用型に替えて、または加えて、形態素の他の要素、例えば、標準形や活用形等を要素として用いてもよい。
【0060】
また、上記実施の形態では、「Grammar」に属する機能表現を、助詞の「の」及び助動詞の「だ」とする場合について説明したが、これ以外の機能語を「Grammar」に属する機能表現として登録し、新しい意味ラベルを付与してもよい。また、非特許文献1のようにルールを用いて、「Grammar」に属する意味ラベルが付与され、かつモダリティに属する機能表現が前または後に存在する場合のみ、本実施の形態の文法性判断の対象とするような制限を加えてもよい。
【0061】
また、上記実施の形態では、意味ラベル付与・述部抽出部において、学習された意味ラベル・述部モデルを用いて、機能表現への意味ラベルの付与及び述部の抽出を行う場合について説明したが、形態素解析の結果に対して、機能語意味ラベル辞書に基づいて意味ラベルを付与した上で、予め定めた述部抽出のルールに従って述部を抽出するようにしてもよい。
【0062】
また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0063】
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0064】
10 述部正規化装置
12 形態素解析部
14 意味ラベル・述部モデル
16 意味ラベル付与・述部抽出部
18 NULL削除部
20 冗長ルール適用部
22 Ngram文法性判断部
22a 候補生成部
22b 形態素Ngramモデル
22c 品詞Ngramモデル
22d Ngramスコア計算部
22e 選択部
24 活用生成部
【技術分野】
【0001】
本発明は、述部正規化装置、方法、及びプログラムに係り、特に、自然言語処理において、文情報の中心となる述部を対象に、述部の機能表現を単純に言い換え、言い換えられた述部が自然な日本語になるように文法性を判断する述部正規化装置、方法、及びプログラムに関する。
【背景技術】
【0002】
議事録、アンケート、web上のテキストやコンタクトセンタの会話ログなど大量の文書から有益な情報を得るためには、テキストから「誰が何をどうした」という重要な情報を抽出し、同じ意味の要素毎にまとめ上げ、集計することが必須である。しかし、テキスト上では同じ内容が様々な表現で書かれているため、機械が同じ意味の表現をまとめ上げるためには、前処理が必要となる。特に、「どうした」を表す述部は、動詞・名詞・形容詞・形容動詞・副詞といった「内容語」と、助詞・助動詞などの「機能語」との組み合わせから成り立っているため、表層形の異なりが激しい。例えば、下記の例文「故障しているのかも知れないわね」は、1つの述部に対して1つの内容語、及び5種類の異なる機能語が付属している。なお、1つ以上の機能語がかたまりで1つの意味単位を構成している場合を「機能表現」と呼ぶ。
【0003】
故障し(内容語)/ ている(機能語1)/ の(機能語2)/
かも知れない(機能語3)/ わ(機能語4)/ ね(機能語5)
【0004】
このように、述部は様々な要素の組み合わせからなっているため、表層形の異なりが激しく、機械による同義表現抽出が困難となっている。
【0005】
これらの同義表現抽出の困難さを解決するための一つの方法が、「言い換え」である。例えば、口語表現でよく出てくる、「故障しているのかも知れないわね」というような述部を、「故障しているかも知れない」と単純な形に言い換えることで、述部が表している意味を変えることなく、機械で「『故障しているのかも知れないわね』は『故障しているかも知れない』と同義である」と判断することができる。つまり、同じ意味を表す述部は同じ表層形に自動で言い換えることで、機械で集計ができるようになる。この処理を、述部の正規化と呼ぶ。これらの言い換えを用いた前処理は、述部のまとめ上げのみならず、要約や機械翻訳の前処理としても用いることができる。
【0006】
従来、述部を単純に言い換える手法として、述部の機能語または機能表現を、「述部が表す出来事の意味に影響するか否か」を判断基準として、抽象的な意味ラベルを用いて分類し、「影響する」に属する機能表現を残すことにより、述部の正規化を行う手法が提案されている(例えば、非特許文献1参照)。非特許文献1の手法では、機能表現を分類するための抽象的な意味ラベルとして、「時制の差異」、「否定の差異」、及び「モダリティの差異」という3つの指標を立て、述部の正規化に際して、これらに属さない機能表現を削除している。また、助動詞の「だ」、及び助詞の「の」を「Grammar」というカテゴリに分類し、モダリティに属する機能表現の前または後の「Grammar」に分類された機能表現は削除することなく残している。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Izumi T., Imamura K., Kikui G.& Sato S.、「Standardizing Complex Functional Expressions in Japanese Predicates: Applying Theoretically-Based Paraphrasing Rules」、Proceedings of the Workshop on Multiword Expressions : From theory to applications (MWE 2010)、 63-71。
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、非特許文献1に記載された技術のように、述部が表す出来事の意味に影響する機能表現のみを残し、残りを単純に削除した場合では、文法的に正しくない言い換えを生成する場合がある、という問題がある。
【0009】
例えば、「苦手なのかも知れないね」という述部を例に説明する。
【0010】
苦手(内容語)/な(機能表現・G)/の(機能表現・G)/
かも知れない(機能表現)
【0011】
上記のように、述部に3つの機能表現が含まれている。なお、「G」は、上述の機能表現が助動詞の「だ」、及び助詞の「の」に分類されることを示す「Grammar」に分類されていることを表す。非特許文献1の手法では、モダリティに属する機能表現の前または後の「Grammar」に分類された機能表現は残し、それ以外は削除している。よって、上記の例では、図17に示すように、モダリティに属する機能表現である「かも知れない」の前に位置する「の」は残し、前後にモダリティに属する機能表現が存在しない「な」は削除される。そして、正規化された述部として「苦手のかも知れない」が生成されてしまう。この場合、名詞−形容動詞語幹の「苦手」と助詞の「の」をつなぐために、助動詞の「だ(表層形は「な」)」が必要であるにもかかわらず削除されてしまったため、生成された言い換えは日本語として正しいとは言えない。これは、(1)述部が表す意味を変えずに、述部を単純にする、(2)言い換えられた述部が日本語として正しい、という述部の言い換えを行う際に必要な2点のうち、上記(2)が考慮されていないためである。
【0012】
本発明は上記問題点に鑑みてなされたものであり、単純かつ文法的に正しい述部の言い換えを行うことができる述部正規化装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0013】
上記目的を達成するために、本発明の述部正規化装置は、入力された文書を形態素解析する形態素解析手段と、前記形態素解析手段による形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与するラベル付与手段と、前記判定ラベルが付与された機能表現の少なくとも1つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Nグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算する計算手段と、前記計算手段により計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する生成手段と、を含んで構成されている。
【0014】
本発明の述部正規化装置によれば、形態素解析手段が、入力された文書を形態素解析し、ラベル付与手段が、形態素解析手段による形態素解析の結果に基づいて、文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、文法的な必要性が異なることを示す判定ラベルを付与する。そして、計算手段が、判定ラベルが付与された機能表現の少なくとも1つを述部に含ませた場合の述部を構成する形態素列、及び判定ラベルが付与された機能表現の各々を除いた場合の述部を構成する形態素列の各々について、形態素Nグラムモデルに基づいて、判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算する。この形態素Nグラムモデルは、機能語については形態素の表層形を要素とし、機能語以外の語については表層形を要素としない擬似単語により構築されたNグラムモデルである。そして、生成手段が、計算手段により計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する。
【0015】
このように、周辺に存在する単語によって文法的な必要性が異なる機能表現の文法性を、形態素Nグラムモデルを用いて判断するため、単純かつ文法的に正しい述部の言い換えを行うことができる。また、機能語については形態素の表層形を要素とし、機能語以外の語については表層形を要素としない擬似単語により構築された形態素Nグラムモデルを用いることで、述部に含まれる機能語以外の語、すなわち内容語の表層形のばらつきによるスコアの揺れを抑えつつ、機能表現の表層形は文法性判断の基準として用いることができ、高精度の文法性判断を行うことができる。
【0016】
また、前記計算手段は、前記形態素Nグラムモデルと、形態素の表層形以外を要素とした擬似単語により構築された品詞Nグラムモデルとに基づいて、前記スコアを算出することができる。このように、形態素Nグラムモデルとあわせて、品詞Nグラムモデルも用いることで、対象となる機能表現の文法性判断の精度がより向上する。
【0017】
また、前記ラベル付与手段は、前記判定ラベル、並びに前記機能表現が意味的及び文法的に不要であることを示す不要ラベルを含み、かつ前記機能表現が前記述部の意味に影響を与えるか否かを示す意味ラベルを前記述部に含まれる機能表現の各々に付与し、前記計算手段は、前記ラベル付与手段により不要ラベルが付与された機能表現、及び同一の意味ラベルが付与された機能表現の各々の少なくとも1つ以外の機能表現を削除した述部を用いて、前記スコアを算出することができる。これにより、より単純化された述部を生成することができる。
【0018】
また、本発明の述部正規化方法は、入力された文書を形態素解析し、形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与し、前記判定ラベルが付与された機能表現の少なくとも1つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Nグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算し、計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する方法である。
【0019】
また、本発明の述部正規化プログラムは、コンピュータを、上記の述部正規化装置を構成する各手段として機能させるためのプログラムである。
【発明の効果】
【0020】
以上説明したように、本発明の述部正規化装置、方法、及びプログラムによれば、機能語については形態素の表層形を要素とし、機能語以外の語については表層形を要素としない擬似単語により構築された形態素Nグラムモデルを用いて、周辺に存在する単語によって文法的な必要性が異なる機能表現の文法性を判断するため、単純かつ文法的に正しい述部の言い換えを行うことができる、という効果が得られる。
【図面の簡単な説明】
【0021】
【図1】本実施の形態の述部正規化装置の機能的構成を示すブロック図である。
【図2】形態素解析の結果の一例を示す図である。
【図3】機能語意味ラベル辞書の一例を示す図である。
【図4】「Grammar」に属する意味ラベルの一例を示す図である。
【図5】意味ラベルの付与及び述部抽出結果の一例を示す図である。
【図6】NULL削除部での処理結果の一例を示す図である。
【図7】Ngram文法性判断部の機能的構成を示すブロック図である。
【図8】従来の形態素Ngramモデルの一例を示す図である。
【図9】品詞Ngramモデルの一例を示す図である。
【図10】従来の形態素Ngramと品詞Ngramとの混合率を変化させた場合の言い換え精度比較を示す図である。
【図11】本実施の形態の形態素Ngramモデルの一例を示す図である。
【図12】本実施の形態の形態素Ngramと品詞Ngramとの混合率を変化させた場合の言い換え精度比較を示す図である。
【図13】候補毎のNgramスコア算出結果の一例を示す図である。
【図14】本実施の形態の述部正規化装置における述部正規化処理ルーチンの内容を示すフローチャートである。
【図15】NULL削除部での処理結果の他の例を示す図である。
【図16】候補毎のNgramスコア算出結果の他の例を示す図である。
【図17】従来技術における機能表現の削除を説明するための図である。
【発明を実施するための形態】
【0022】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0023】
本実施の形態に係る述部正規化装置10は、CPUと、RAMと、後述する述部正規化処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、入力された文書(テキストデータ)を形態素解析する形態素解析部12と、意味ラベル・述部モデル14を用いて、形態素解析結果に対して機能表現の意味ラベルを付与し、文書の述部を抽出する意味ラベル付与・述部抽出部16と、意味ラベル「NULL」が付与された機能表現を削除するNULL削除部18と、同一の意味ラベルが付与された機能表現を1つだけ残して削除する冗長ルール適用部20と、Ngramモデルを用いて機能表現の文法上の必要性を判断するNgram文法性判断部22と、不要な機能表現が削除された残りの形態素を用いて述部を生成する活用生成部24と、を含んだ構成で表すことができる。
【0024】
形態素解析部12は、入力された文書に対して、公知の形態素解析器を用いて一文毎に形態素解析を行う。形態素解析では、文が単語単位に分割され、各単語に品詞や活用型、活用形などの情報が付与される。図2に、入力された文書の一文が「彼は歌が苦手なのかも知れないね」に対する形態素解析の結果の一例を示す。
【0025】
意味ラベル・述部モデル14は、述部が表す出来事の意味に影響を与えるか否かを示す意味ラベルを、機能表現の各々に付与すると共に、入力された文書から述部を抽出するためのモデルである。意味ラベル・述部モデル14は、機能語意味ラベル辞書に基づいて、人手で機能語に対して正解の意味ラベルを付与したコーパスを学習データとして、述部の範囲及び意味ラベルの並びの尤もらしさを学習して生成されている。機能語意味ラベル辞書には、述部の意味に影響を与えるとされる機能表現が定められており、例えば、図3に示すように、「時制の差異」、「否定の差異」、及び「モダリティの差異」という3つの指標をもとに分類され、予め記憶されている。さらに、「Grammar」というカテゴリ分類される機能表現も存在する。「Grammar」は、「意味的には重要ではないが、周辺の単語によっては文法的に必要な要素」を意味する。図4に、「Grammar」に属する意味ラベルを示す。「Grammar」に属する代表的な機能語は、助動詞の「だ」、及び助詞の「の」であり、ここでは、用途に合わせて、「だ」の意味ラベルを「判断」、「の」の意味ラベルを「名詞化」とする。
【0026】
意味ラベル付与・述部抽出部16は、意味ラベル・述部モデル14を用いた統計的手法により、形態素解析結果に対して、機能表現の意味ラベルを自動で付与し、さらに述部の範囲を抽出する。図5に、意味ラベルの付与及び述部の抽出結果の一例を示す。述部は、1個以上の内容語(C)及び0個以上の機能語(F)の連続から成り立っているため、「苦手なのかも知れないね」が述部として抽出される。この述部は、「苦手」を内容語とし、「な/の/かも知れない/ね」という4つの機能表現をもつ。
【0027】
また、この例では、BIタグというものを使用し、述部の内容語であって、内容語の先頭の単語(「苦手」)には「C,B−PRED」のラベルを付与し、また、述部の内容語であって、内容語の先頭以外の単語(ここでは該当単語なし)には、「C,I−PRED」のラベルを付与する。Cは内容語(Content words)の頭文字である。また、機能語(Function words)には「F」のラベルを付与し、それに加えて、機能表現単位で該当する意味ラベルを付与する。機能表現「かも知れない」は、機能語「かも」、「知れ」及び「ない」で構成されているので、「かも」、「知れ」及び「ない」の各々に、機能語を示す「F」のラベルが付与されると共に、機能表現「かも知れない」に対応する意味ラベル「推量」が付与される。また、内容語と同様に、該当する機能語が、ある機能表現(「かも知れない」)の先頭の単語(「かも」)だった場合は、「B−推量」のように、その機能語が含まれる機能表現に付与された意味ラベルの前に「B」を付け、先頭以外の単語(「知れ」、「ない」)だった場合は、「I−推量」のように意味ラベルの前に「I」を付ける。 また、「Grammar」に属する機能語(ここでは、助動詞の「だ」及び助詞の「の」)には、上記と同様に、機能語を示すラベル「F」、機能表現の先頭または先頭以外の単語を示す「B」または「I」のラベルと共に、その単語の用途に応じて「判断」または「名詞化」の意味ラベルを付与する。機能語意味ラベル辞書に登録されていない単語、及び「Grammar」に属する単語以外の単語には、上記と同様に、機能語を示すラベル「F」、機能表現の先頭または先頭以外の単語を示す「B」または「I」のラベルと共に、「NULL」のラベルを付与する。
【0028】
NULL削除部18は、意味ラベルとして「NULL」が付与された機能表現を削除する。「NULL」が付与されているということは、述部の意味に影響を与える機能表現として機能語意味ラベル辞書に定められていない語であり、かつ意味的には重要ではないが、周辺の単語によっては文法的に必要な要素である「Grammar」というカテゴリにも分類されないことを示している。このような機能表現は、削除しても問題ないため、削除する。
【0029】
冗長ルール適用部20は、同一の意味ラベルが付与された機能表現については、1つを残して削除する。これにより、不要な機能表現を削除して、述部の冗長性を解消する。図6に、NULL削除及び冗長ルール適用後の一例を示す。なお、冗長ルールの適用は、機能表現単位で行う。このため、図6の例で、「知れ」及び「ない」は、同一の意味ラベルが付与されているが、各々「かも知れない」という機能表現の一部であるため、削除されない。
【0030】
Ngram文法性判断部22は、「Grammar」に属する機能表現のうち、どの機能表現が必要で、どの機能表現が不要かを判断する。Ngram文法性判断部22は、図7に示すように、文法性判断の対象となる機能表現を残す場合及び除く場合の全ての組み合わせ候補を作成する候補生成部22aと、形態素Ngramモデル22b及び品詞Ngramモデル22cに基づいて、生成された候補毎にNgramスコアを計算するNgram計算部22dと、Ngramスコアに基づいて、候補の中から1つを選択する選択部22eと、を含んだ構成で表すことができる。
【0031】
候補生成部22aは、NULL削除部18及び冗長ルール適用部20により不要な機能表現が削除された述部について、意味ラベル付与・述部抽出部16で「Grammar」に属する機能表現として、「判断」及び「名詞化」の意味ラベルが付与された機能語を残した述部の形態素列の候補、及び対象の機能語を除いた述部の形態素列の候補について、全ての組み合わせ候補を作成する。ここでは、「な(判断)」及び「の(名詞化)」が、対象の機能語となっているため、いずれも削除した「苦手/かも/知れ/ない」、「な」を削除し「の」を残した「苦手/の/かも/知れ/ない」、「の」を削除し「な」を残した「苦手/な/かも/知れ/ない」、いずれも残した「苦手/な/の/かも/知れ/ない」が候補として生成される。
【0032】
形態素Ngramモデル22b及び品詞Ngramモデル22c(以下、この2つのモデルをまとめて、または区別することなく説明する場合には、単に「Ngramモデル」ともいう。)は、入力された単語の並びに、確率を基にした「単語列としての尤もらしさ」のスコアを与えるためのモデルである(例えば、「北研二、中村哲、永田昌明「音声言語処理−コーパスに基づくアプローチ」、森北出版、2.4章」参照)。任意の単語数を持つ並びのスコアを計算するため、Ngramモデルでは、N個の単語の並び(これをNgramと呼び、N=3のときをTrigramと呼ぶ)から単語の生成確率を取得し、単語列全体について、この総積を計算することで算出される。本実施の形態では、確率の対数値をスコアと呼び、入力の単語列全体のスコアをNgramスコアと呼ぶ。また、個々のNgramの生成確率は、予めコーパスから学習しておく。
【0033】
Ngramスコア計算部22dは、候補生成部22aで生成された各候補について、Ngramモデルを用いてNgramスコアを計算する。本実施の形態のように、2つ以上のNgramモデルを用いて1つのNgramスコアを計算する場合には、例えば、下記(1)式によりNgramスコアを計算することができる。
【0034】
logP=αlogPa+(1−α)logPb ・・・(1)
【0035】
ただし、logPは、最終的な「単語列としての尤もらしさ」を表すNgramスコア、logPaは形態素Ngramモデル22bから算出したNgramスコア、logPbは品詞Ngramモデル22cから算出したNgramスコアであり、αは両者の混合率である。このNgramスコアを用いて、「Grammar」に属する機能表現の文法性判断を行う。
【0036】
ここで、本実施の形態における「Grammar」に属する機能表現の文法性判断の原理について説明する。
【0037】
入力単語列が形態素解析済みである場合、単に形態素の表層形だけを用いてNgramスコアを計算するより、形態素の品詞、活用型などの情報も使用してNgramスコアを計算する方が、より正確に「単語列としての尤もらしさ」を計算することができる。例えば、従来の形態素Ngramモデルでは、形態素の表層形、品詞、活用型をまとめたものを擬似単語としてNgramモデルを構築し、品詞Ngramモデル22cでは、形態素の品詞、活用型をまとめたものを擬似単語としてNgramモデルを構築し、両者のNgramスコアを適当な混合率αで補完し、(1)式を用いて最終的なNgramスコアを計算することができる。図8に、N=3の場合の従来の形態素Ngramモデルの一例、図9にN=3の場合の品詞Ngramモデル22cの一例を示す。
【0038】
機械翻訳で使用される言語モデルなどでは、この従来の形態素Ngramモデルと品詞Ngramモデル22cとを適当な混合率(例えば、α=0.8、すなわちモデルa:モデルb=0.8:0.2)を用いて、Ngramスコアを計算する。しかし、本実施の形態が目的とする機能表現の文法性判断に、この手法を適用すると、図10に示すように、混合率によって、述部の言い換え精度のばらつきが大きくなる。
【0039】
より正しく文法性を判断するには、表層形を要素に含んだ従来の形態素Ngramモデルの割合を上げることが的確であるが、機能表現の文法性判断の場合、従来の形態素Ngramモデルの混合率を高くすると(すなわち、αを1に近付けると)、精度が低下する。これは、述部の内容語が悪影響を及ぼしているものと考えられる。本発明で対象とする述部には内容語も含まれているが、内容語は同一の意味を示す異なった表層形の数が機能語よりも多いため、従来の形態素Ngramモデルのスコアにばらつきが生じる。これはNgram確率を学習する際のデータが不十分なため、正しくスコア計算ができないことが原因である。しかし、これらの問題に直面せずに正しく学習を行うためには、大量の学習データが必要となる。
【0040】
そこで、本実施の形態では、機能表現の文法性判断を行う際のNgramスコア計算において、機能表現を構成する機能語については表層形を要素に含めた擬似単語、機能語以外の単語については表層形を要素に含めない擬似単語により構築されたNgramモデル(形態素Ngramモデル22b)を使用する。これにより、文法性判断を行いたい機能表現については、表層形を要素に含めることで重要な情報をNgramモデルに残して、Ngramモデルの精度を向上させることができ、一方、文法性判断にあまり影響を与えず、表層形のばらつきが大きい内容語については、表層形を要素から除くことで、Ngramモデルの精度低下を回避することができる。
【0041】
図11に、本実施の形態における形態素Ngramモデル22bの一例を示す。どの種類の形態素の表層形を用いるかは、文法性判断を行いたい箇所により決める。ここでは、品詞の中でも、「助詞、助動詞、フィラー、その他、記号、非自立、特殊、接尾、接続詞的、動詞非自立的」という種類が品詞の中に入っていた場合を機能語とし、これらの表層形は形態素Ngramモデル22bの要素として用いる。図11に示すように、「動詞−自立」や「形容詞−自立」のような内容語の表層形は「*」に統一し、「助動詞」や「助詞」に属する形態素に関しては表層形も要素として用いる。機能語は内容語に比べ種類が少ないため、限られたデータ数でも学習ができ、かつ機能語の表層形の並びも形態素Ngramモデル22bに加えることができる。これらの擬似単語を用いて、形態素Ngramモデル22bを、既存の学習ツールを使用して学習する。また、品詞Ngramモデル22cについても、品詞及び活用型を要素とする擬似単語を用いて、既存の学習ツールを使用して学習する。
【0042】
図12に示すように、本実施の形態のNgramモデルを用いることで、混合率による精度のばらつきを抑え、言い換え精度を高く保持できることが分かる。
【0043】
そして、このNgramモデルを用いてNgramスコアを計算する際には、形態素Ngramモデル22bに基づくスコアの算出では、学習時と同様に、機能語については表層形を要素に含め、機能語以外の単語については表層形を要素に含めずにスコアを算出する。
【0044】
また、Ngramスコア計算部22dは、候補生成部22aで生成された各候補の末尾に句点「。」を付け加えた上で、Ngramモデルを用いて各候補のNgramスコアを計算する。各候補の末尾に句点「。」を付けるのは、「文末(すなわち、終止形)で現れる述部の中で一番尤もらしい単語の並び」を見るためである。図13に、候補毎に計算されたNgramスコアの一例を示す。
【0045】
選択部22eは、Ngramスコア計算部22dにより計算された各候補のNgramスコアに基づいて、Ngramスコアが最も高い候補を選択し、選択した候補を構成する形態素列を出力する。図13の例では、「Grammar」に属する全ての機能語が削除された「苦手/かも/知れ/ない」が、Ngramスコアが最も高い候補であるため、この候補を選択する。これにより、「彼は歌が苦手なのかも知れないね。」という入力文書の述部に対して、最も単純かつ文法的に正しい言い換え表現である「苦手かも知れない」の組み合わせが出力される。
【0046】
活用生成部24は、選択部22eから出力された形態素列の全ての要素を正しく活用させて、最終的な述部を生成する。本実施の形態では、言語モデルによる活用生成器を使用する。これは、予め正解データより、前方の単語の表層形・品詞・活用型と後方の単語の表層形・品詞を素性として「どの接続が尤もらしいか」を学習したモデルによる生成器である。この言語モデルに基づいて、新しく前後の単語の表層形・品詞・活用型が入力された際に、最適な表記を生成する。ここでは、この言語モデルによる活用生成器に形態素列「苦手/名詞−形容動詞語幹」、「かも/助詞−副助詞」、「知れ/動詞−自立/一段」、「ない/助動詞/特殊・ナイ」を入力し、正しく接続された述部である「苦手かも知れない」を生成する。
【0047】
次に、図14を参照して、本実施の形態の述部正規化装置10において実行される述部正規化処理ルーチンについて説明する。
【0048】
ステップ100で、入力された文書に対して、公知の形態素解析器を用いて一文毎に形態素解析を行い、文を単語単位に分割し、各単語に品詞や活用型、活用形などの情報を付与する。ここでは、入力文書に含まれた一文の例として、「主役は彼のようだね」について説明する。
【0049】
次に、ステップ102で、意味ラベル・述部モデル14を用いた統計的手法により、上記ステップ100での形態素解析結果に対して、機能表現の意味ラベルを自動で付与し、さらに述部の範囲を抽出する。ここでは、「彼」を内容語とし、「の/よう/だ/ね」の4つの機能表現を含む「彼のようだね」が述部として抽出される。機能表現のうち、「の」に「Grammar」に属する意味ラベル「名詞化」が付与され、「だ」に「Grammar」に属する意味ラベル「判断」が付与される。また、「ね」には意味ラベル「NULL」が付与される。
【0050】
次に、ステップ104で、上記ステップ102で、意味ラベルとして「NULL」が付与された機能表現を削除する。ここでは、「ね」が削除される。
【0051】
次に、ステップ106で、上記ステップ102で付与された意味ラベルを参照して、同一の意味ラベルが付与された機能表現は、1つを残して削除する。ここでは、該当する機能表現はないため、そのままステップ108へ移行する。図15に示すように、上記ステップ104及び106の処理を経て、述部は「彼/の/よう/だ」となる。
【0052】
次に、ステップ108で、上記ステップ104及び106の処理を経て、不要な機能表現が削除された述部について、上記ステップ102で「Grammar」に属する機能表現として、「判断」及び「名詞化」の意味ラベルが付与された機能表現を残した述部の形態素列の候補、及び対象の機能表現を除いた述部の形態素列の候補について、全ての組み合わせ候補を作成する。ここでは、「の(名詞化)」及び「だ(判断)」が、対象の機能表現となっているため、いずれも削除した「彼/よう」、「だ」を削除し「の」を残した「彼/の/よう」、「の」を削除し「だ」を残した「彼/よう/だ」、いずれも残した「彼/の/よう/だ」が候補として生成される。
【0053】
次に、ステップ110で、上記ステップ108で生成した候補の各々の末尾に句点「。」を付け加えた上で、各候補毎に、機能語については形態素の表層形を要素に含めて、機能語以外の語は表層形を要素に含めずに、形態素Ngramモデル22bに基づいてスコアlogPaを算出し、また、各単語の品詞及び活用型を要素として、品詞Ngramモデル22cに基づいてスコアlogPbを算出し、上記(1)式に従ってNgramスコアを計算する。図16に、各候補のNgramスコアを示す。
【0054】
次に、ステップ112で、上記ステップ110で計算した各候補のNgramスコアに基づいて、Ngramスコアが最も高い候補を選択し、選択した候補を構成する形態素列を出力する。ここでは、「彼/の/よう/だ」が選択される。
【0055】
次に、ステップ114で、上記ステップ112で選択した形態素列の全ての要素を正しく活用させて、最終的な述部を生成する。これにより、「主役は彼のようだね。」という入力に対して、最も単純かつ文法的に正しい言い換え表現である「彼のようだ。」の組み合わせが出力される。結果、述部が「彼のようだね」から「彼のようだ」に正規化される。
【0056】
以上説明したように、本実施の形態の述部正規化装置によれば、述部の意味には影響を与えないが、周辺の単語によっては日本語の文法として必要となりうる機能表現に「Grammar」というカテゴリを与えて、「Grammar」に属する機能表現を含む場合、除いた場合の各々について、Ngramモデルを用いて単語列としての尤もらしさを示すNgramスコアを計算し、Ngramスコアが高くなるように「Grammar」に属する機能表現を残したり、削除したりするため、単純かつ文法的に正しい述部の言い換えを行うことができる。また、Ngramモデルを使用する際に、形態素Ngramモデルと品詞Ngramモデルとを用いるが、形態素Ngramモデルでは、機能語については形態素の表層形を要素とし、機能語以外の単語では表装形を要素としないため、述部に含まれる内容語の表層形のばらつきによるNgramスコアの揺れを抑えつつ、機能表現の表層形は文法性判断の基準として用いることができ、高精度の文法性判断を行うことができる。
【0057】
また、テキストマイニングなどで行われている述部のまとめ上げや、機械翻訳、要約といった自然言語処理技術の前処理として、本実施の形態で正規化された述部を使用することができ、これらの処理の精度を向上させることができる。
【0058】
なお、上記実施の形態では、「Grammar」に属する機能表現の文法性判断に、形態素Ngramモデルと品詞Ngramモデルとをあわせて用いる場合について説明したが、形態素Ngramのみを用いて判断してもよい。
【0059】
また、上記実施の形態では、形態素Ngramモデルは、表層形(機能語のみ)、品詞及び活用型を要素とし、品詞Ngramモデルは、品詞及び活用型を要素とする場合について説明したが、品詞及び活用型に替えて、または加えて、形態素の他の要素、例えば、標準形や活用形等を要素として用いてもよい。
【0060】
また、上記実施の形態では、「Grammar」に属する機能表現を、助詞の「の」及び助動詞の「だ」とする場合について説明したが、これ以外の機能語を「Grammar」に属する機能表現として登録し、新しい意味ラベルを付与してもよい。また、非特許文献1のようにルールを用いて、「Grammar」に属する意味ラベルが付与され、かつモダリティに属する機能表現が前または後に存在する場合のみ、本実施の形態の文法性判断の対象とするような制限を加えてもよい。
【0061】
また、上記実施の形態では、意味ラベル付与・述部抽出部において、学習された意味ラベル・述部モデルを用いて、機能表現への意味ラベルの付与及び述部の抽出を行う場合について説明したが、形態素解析の結果に対して、機能語意味ラベル辞書に基づいて意味ラベルを付与した上で、予め定めた述部抽出のルールに従って述部を抽出するようにしてもよい。
【0062】
また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0063】
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0064】
10 述部正規化装置
12 形態素解析部
14 意味ラベル・述部モデル
16 意味ラベル付与・述部抽出部
18 NULL削除部
20 冗長ルール適用部
22 Ngram文法性判断部
22a 候補生成部
22b 形態素Ngramモデル
22c 品詞Ngramモデル
22d Ngramスコア計算部
22e 選択部
24 活用生成部
【特許請求の範囲】
【請求項1】
入力された文書を形態素解析する形態素解析手段と、
前記形態素解析手段による形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与するラベル付与手段と、
前記判定ラベルが付与された機能表現の少なくとも1つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Nグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算する計算手段と、
前記計算手段により計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する生成手段と、
を含む述部正規化装置。
【請求項2】
前記計算手段は、前記形態素Nグラムモデルと、形態素の表層形以外を要素とした擬似単語により構築された品詞Nグラムモデルとに基づいて、前記スコアを算出する請求項1記載の述部正規化装置。
【請求項3】
前記ラベル付与手段は、前記判定ラベル、並びに前記機能表現が意味的及び文法的に不要であることを示す不要ラベルを含み、かつ前記機能表現が前記述部の意味に影響を与えるか否かを示す意味ラベルを前記述部に含まれる機能表現の各々に付与し、
前記計算手段は、前記ラベル付与手段により不要ラベルが付与された機能表現、及び同一の意味ラベルが付与された機能表現の各々の少なくとも1つ以外の機能表現を削除した述部を用いて、前記スコアを算出する請求項1または請求項2記載の述部正規化装置。
【請求項4】
入力された文書を形態素解析し、
形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与し、
前記判定ラベルが付与された機能表現の少なくとも1つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Nグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算し、
計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する
述部正規化方法。
【請求項5】
コンピュータを、請求項1〜請求項3のいずれか1項記載の述部正規化装置を構成する各手段として機能させるための述部正規化プログラム。
【請求項1】
入力された文書を形態素解析する形態素解析手段と、
前記形態素解析手段による形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与するラベル付与手段と、
前記判定ラベルが付与された機能表現の少なくとも1つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Nグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算する計算手段と、
前記計算手段により計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する生成手段と、
を含む述部正規化装置。
【請求項2】
前記計算手段は、前記形態素Nグラムモデルと、形態素の表層形以外を要素とした擬似単語により構築された品詞Nグラムモデルとに基づいて、前記スコアを算出する請求項1記載の述部正規化装置。
【請求項3】
前記ラベル付与手段は、前記判定ラベル、並びに前記機能表現が意味的及び文法的に不要であることを示す不要ラベルを含み、かつ前記機能表現が前記述部の意味に影響を与えるか否かを示す意味ラベルを前記述部に含まれる機能表現の各々に付与し、
前記計算手段は、前記ラベル付与手段により不要ラベルが付与された機能表現、及び同一の意味ラベルが付与された機能表現の各々の少なくとも1つ以外の機能表現を削除した述部を用いて、前記スコアを算出する請求項1または請求項2記載の述部正規化装置。
【請求項4】
入力された文書を形態素解析し、
形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与し、
前記判定ラベルが付与された機能表現の少なくとも1つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Nグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算し、
計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する
述部正規化方法。
【請求項5】
コンピュータを、請求項1〜請求項3のいずれか1項記載の述部正規化装置を構成する各手段として機能させるための述部正規化プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【公開番号】特開2012−203584(P2012−203584A)
【公開日】平成24年10月22日(2012.10.22)
【国際特許分類】
【出願番号】特願2011−66653(P2011−66653)
【出願日】平成23年3月24日(2011.3.24)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(504139662)国立大学法人名古屋大学 (996)
【Fターム(参考)】
【公開日】平成24年10月22日(2012.10.22)
【国際特許分類】
【出願日】平成23年3月24日(2011.3.24)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(504139662)国立大学法人名古屋大学 (996)
【Fターム(参考)】
[ Back to top ]