述部正規化装置、方法、及びプログラム

【課題】単純かつ文法的に正しい述部の言い換えを行う。
【解決手段】形態素解析結果に対して、機能表現に意味ラベルを付与すると共に、述部を抽出し、意味ラベル「ＮＵＬＬ」の機能表現の削除、同一の意味ラベルの機能表現の１つ以外を削除した後、Ｎｇｒａｍ文法性判断部２２の候補生成部２２ａで、周辺に存在する単語によって文法的な必要性が異なることを示す「Ｇｒａｍｍａｒ」に属する意味ラベルが付与された機能表現を含む場合、除いた場合の全ての組み合わせについて、述部の形態素列の候補を生成し、Ｎｇｒａｍスコア計算部２２ｄで、機能語については形態素の表層形を要素とし、機能語以外の単語については表層形を要素としない形態素Ｎｇｒａｍモデル２２ｂ、及び品詞Ｎｇｒａｍモデル２２ｃに基づいて、Ｎｇｒａｍスコアを計算し、選択部２２ｅでＮｇｒａｍスコアが最も高い形態素列を選択して、正規化した述部を出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、述部正規化装置、方法、及びプログラムに係り、特に、自然言語処理において、文情報の中心となる述部を対象に、述部の機能表現を単純に言い換え、言い換えられた述部が自然な日本語になるように文法性を判断する述部正規化装置、方法、及びプログラムに関する。
【背景技術】
【０００２】
議事録、アンケート、ｗｅｂ上のテキストやコンタクトセンタの会話ログなど大量の文書から有益な情報を得るためには、テキストから「誰が何をどうした」という重要な情報を抽出し、同じ意味の要素毎にまとめ上げ、集計することが必須である。しかし、テキスト上では同じ内容が様々な表現で書かれているため、機械が同じ意味の表現をまとめ上げるためには、前処理が必要となる。特に、「どうした」を表す述部は、動詞・名詞・形容詞・形容動詞・副詞といった「内容語」と、助詞・助動詞などの「機能語」との組み合わせから成り立っているため、表層形の異なりが激しい。例えば、下記の例文「故障しているのかも知れないわね」は、１つの述部に対して１つの内容語、及び５種類の異なる機能語が付属している。なお、１つ以上の機能語がかたまりで１つの意味単位を構成している場合を「機能表現」と呼ぶ。
【０００３】
故障し（内容語）／ている（機能語１）／の（機能語２）／
かも知れない（機能語３）／わ（機能語４）／ね（機能語５）
【０００４】
このように、述部は様々な要素の組み合わせからなっているため、表層形の異なりが激しく、機械による同義表現抽出が困難となっている。
【０００５】
これらの同義表現抽出の困難さを解決するための一つの方法が、「言い換え」である。例えば、口語表現でよく出てくる、「故障しているのかも知れないわね」というような述部を、「故障しているかも知れない」と単純な形に言い換えることで、述部が表している意味を変えることなく、機械で「『故障しているのかも知れないわね』は『故障しているかも知れない』と同義である」と判断することができる。つまり、同じ意味を表す述部は同じ表層形に自動で言い換えることで、機械で集計ができるようになる。この処理を、述部の正規化と呼ぶ。これらの言い換えを用いた前処理は、述部のまとめ上げのみならず、要約や機械翻訳の前処理としても用いることができる。
【０００６】
従来、述部を単純に言い換える手法として、述部の機能語または機能表現を、「述部が表す出来事の意味に影響するか否か」を判断基準として、抽象的な意味ラベルを用いて分類し、「影響する」に属する機能表現を残すことにより、述部の正規化を行う手法が提案されている（例えば、非特許文献１参照）。非特許文献１の手法では、機能表現を分類するための抽象的な意味ラベルとして、「時制の差異」、「否定の差異」、及び「モダリティの差異」という３つの指標を立て、述部の正規化に際して、これらに属さない機能表現を削除している。また、助動詞の「だ」、及び助詞の「の」を「Ｇｒａｍｍａｒ」というカテゴリに分類し、モダリティに属する機能表現の前または後の「Ｇｒａｍｍａｒ」に分類された機能表現は削除することなく残している。
【先行技術文献】
【非特許文献】
【０００７】
【非特許文献１】Izumi T., Imamura K., Kikui G.& Sato S.、「Standardizing Complex Functional Expressions in Japanese Predicates: Applying Theoretically-Based Paraphrasing Rules」、Proceedings of the Workshop on Multiword Expressions : From theory to applications (MWE 2010)、 63-71。
【発明の概要】
【発明が解決しようとする課題】
【０００８】
しかしながら、非特許文献１に記載された技術のように、述部が表す出来事の意味に影響する機能表現のみを残し、残りを単純に削除した場合では、文法的に正しくない言い換えを生成する場合がある、という問題がある。
【０００９】
例えば、「苦手なのかも知れないね」という述部を例に説明する。
【００１０】
苦手（内容語）／な（機能表現・Ｇ）／の（機能表現・Ｇ）／
かも知れない（機能表現）
【００１１】
上記のように、述部に３つの機能表現が含まれている。なお、「Ｇ」は、上述の機能表現が助動詞の「だ」、及び助詞の「の」に分類されることを示す「Ｇｒａｍｍａｒ」に分類されていることを表す。非特許文献１の手法では、モダリティに属する機能表現の前または後の「Ｇｒａｍｍａｒ」に分類された機能表現は残し、それ以外は削除している。よって、上記の例では、図１７に示すように、モダリティに属する機能表現である「かも知れない」の前に位置する「の」は残し、前後にモダリティに属する機能表現が存在しない「な」は削除される。そして、正規化された述部として「苦手のかも知れない」が生成されてしまう。この場合、名詞−形容動詞語幹の「苦手」と助詞の「の」をつなぐために、助動詞の「だ（表層形は「な」）」が必要であるにもかかわらず削除されてしまったため、生成された言い換えは日本語として正しいとは言えない。これは、（１）述部が表す意味を変えずに、述部を単純にする、（２）言い換えられた述部が日本語として正しい、という述部の言い換えを行う際に必要な２点のうち、上記（２）が考慮されていないためである。
【００１２】
本発明は上記問題点に鑑みてなされたものであり、単純かつ文法的に正しい述部の言い換えを行うことができる述部正規化装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１３】
上記目的を達成するために、本発明の述部正規化装置は、入力された文書を形態素解析する形態素解析手段と、前記形態素解析手段による形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与するラベル付与手段と、前記判定ラベルが付与された機能表現の少なくとも１つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Ｎグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算する計算手段と、前記計算手段により計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する生成手段と、を含んで構成されている。
【００１４】
本発明の述部正規化装置によれば、形態素解析手段が、入力された文書を形態素解析し、ラベル付与手段が、形態素解析手段による形態素解析の結果に基づいて、文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、文法的な必要性が異なることを示す判定ラベルを付与する。そして、計算手段が、判定ラベルが付与された機能表現の少なくとも１つを述部に含ませた場合の述部を構成する形態素列、及び判定ラベルが付与された機能表現の各々を除いた場合の述部を構成する形態素列の各々について、形態素Ｎグラムモデルに基づいて、判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算する。この形態素Ｎグラムモデルは、機能語については形態素の表層形を要素とし、機能語以外の語については表層形を要素としない擬似単語により構築されたＮグラムモデルである。そして、生成手段が、計算手段により計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する。
【００１５】
このように、周辺に存在する単語によって文法的な必要性が異なる機能表現の文法性を、形態素Ｎグラムモデルを用いて判断するため、単純かつ文法的に正しい述部の言い換えを行うことができる。また、機能語については形態素の表層形を要素とし、機能語以外の語については表層形を要素としない擬似単語により構築された形態素Ｎグラムモデルを用いることで、述部に含まれる機能語以外の語、すなわち内容語の表層形のばらつきによるスコアの揺れを抑えつつ、機能表現の表層形は文法性判断の基準として用いることができ、高精度の文法性判断を行うことができる。
【００１６】
また、前記計算手段は、前記形態素Ｎグラムモデルと、形態素の表層形以外を要素とした擬似単語により構築された品詞Ｎグラムモデルとに基づいて、前記スコアを算出することができる。このように、形態素Ｎグラムモデルとあわせて、品詞Ｎグラムモデルも用いることで、対象となる機能表現の文法性判断の精度がより向上する。
【００１７】
また、前記ラベル付与手段は、前記判定ラベル、並びに前記機能表現が意味的及び文法的に不要であることを示す不要ラベルを含み、かつ前記機能表現が前記述部の意味に影響を与えるか否かを示す意味ラベルを前記述部に含まれる機能表現の各々に付与し、前記計算手段は、前記ラベル付与手段により不要ラベルが付与された機能表現、及び同一の意味ラベルが付与された機能表現の各々の少なくとも１つ以外の機能表現を削除した述部を用いて、前記スコアを算出することができる。これにより、より単純化された述部を生成することができる。
【００１８】
また、本発明の述部正規化方法は、入力された文書を形態素解析し、形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与し、前記判定ラベルが付与された機能表現の少なくとも１つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Ｎグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算し、計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する方法である。
【００１９】
また、本発明の述部正規化プログラムは、コンピュータを、上記の述部正規化装置を構成する各手段として機能させるためのプログラムである。
【発明の効果】
【００２０】
以上説明したように、本発明の述部正規化装置、方法、及びプログラムによれば、機能語については形態素の表層形を要素とし、機能語以外の語については表層形を要素としない擬似単語により構築された形態素Ｎグラムモデルを用いて、周辺に存在する単語によって文法的な必要性が異なる機能表現の文法性を判断するため、単純かつ文法的に正しい述部の言い換えを行うことができる、という効果が得られる。
【図面の簡単な説明】
【００２１】
【図１】本実施の形態の述部正規化装置の機能的構成を示すブロック図である。
【図２】形態素解析の結果の一例を示す図である。
【図３】機能語意味ラベル辞書の一例を示す図である。
【図４】「Ｇｒａｍｍａｒ」に属する意味ラベルの一例を示す図である。
【図５】意味ラベルの付与及び述部抽出結果の一例を示す図である。
【図６】ＮＵＬＬ削除部での処理結果の一例を示す図である。
【図７】Ｎｇｒａｍ文法性判断部の機能的構成を示すブロック図である。
【図８】従来の形態素Ｎｇｒａｍモデルの一例を示す図である。
【図９】品詞Ｎｇｒａｍモデルの一例を示す図である。
【図１０】従来の形態素Ｎｇｒａｍと品詞Ｎｇｒａｍとの混合率を変化させた場合の言い換え精度比較を示す図である。
【図１１】本実施の形態の形態素Ｎｇｒａｍモデルの一例を示す図である。
【図１２】本実施の形態の形態素Ｎｇｒａｍと品詞Ｎｇｒａｍとの混合率を変化させた場合の言い換え精度比較を示す図である。
【図１３】候補毎のＮｇｒａｍスコア算出結果の一例を示す図である。
【図１４】本実施の形態の述部正規化装置における述部正規化処理ルーチンの内容を示すフローチャートである。
【図１５】ＮＵＬＬ削除部での処理結果の他の例を示す図である。
【図１６】候補毎のＮｇｒａｍスコア算出結果の他の例を示す図である。
【図１７】従来技術における機能表現の削除を説明するための図である。
【発明を実施するための形態】
【００２２】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【００２３】
本実施の形態に係る述部正規化装置１０は、ＣＰＵと、ＲＡＭと、後述する述部正規化処理ルーチンを実行するためのプログラム及び各種データを記憶したＲＯＭとを備えたコンピュータで構成されている。このコンピュータは、機能的には、図１に示すように、入力された文書（テキストデータ）を形態素解析する形態素解析部１２と、意味ラベル・述部モデル１４を用いて、形態素解析結果に対して機能表現の意味ラベルを付与し、文書の述部を抽出する意味ラベル付与・述部抽出部１６と、意味ラベル「ＮＵＬＬ」が付与された機能表現を削除するＮＵＬＬ削除部１８と、同一の意味ラベルが付与された機能表現を１つだけ残して削除する冗長ルール適用部２０と、Ｎｇｒａｍモデルを用いて機能表現の文法上の必要性を判断するＮｇｒａｍ文法性判断部２２と、不要な機能表現が削除された残りの形態素を用いて述部を生成する活用生成部２４と、を含んだ構成で表すことができる。
【００２４】
形態素解析部１２は、入力された文書に対して、公知の形態素解析器を用いて一文毎に形態素解析を行う。形態素解析では、文が単語単位に分割され、各単語に品詞や活用型、活用形などの情報が付与される。図２に、入力された文書の一文が「彼は歌が苦手なのかも知れないね」に対する形態素解析の結果の一例を示す。
【００２５】
意味ラベル・述部モデル１４は、述部が表す出来事の意味に影響を与えるか否かを示す意味ラベルを、機能表現の各々に付与すると共に、入力された文書から述部を抽出するためのモデルである。意味ラベル・述部モデル１４は、機能語意味ラベル辞書に基づいて、人手で機能語に対して正解の意味ラベルを付与したコーパスを学習データとして、述部の範囲及び意味ラベルの並びの尤もらしさを学習して生成されている。機能語意味ラベル辞書には、述部の意味に影響を与えるとされる機能表現が定められており、例えば、図３に示すように、「時制の差異」、「否定の差異」、及び「モダリティの差異」という３つの指標をもとに分類され、予め記憶されている。さらに、「Ｇｒａｍｍａｒ」というカテゴリ分類される機能表現も存在する。「Ｇｒａｍｍａｒ」は、「意味的には重要ではないが、周辺の単語によっては文法的に必要な要素」を意味する。図４に、「Ｇｒａｍｍａｒ」に属する意味ラベルを示す。「Ｇｒａｍｍａｒ」に属する代表的な機能語は、助動詞の「だ」、及び助詞の「の」であり、ここでは、用途に合わせて、「だ」の意味ラベルを「判断」、「の」の意味ラベルを「名詞化」とする。
【００２６】
意味ラベル付与・述部抽出部１６は、意味ラベル・述部モデル１４を用いた統計的手法により、形態素解析結果に対して、機能表現の意味ラベルを自動で付与し、さらに述部の範囲を抽出する。図５に、意味ラベルの付与及び述部の抽出結果の一例を示す。述部は、１個以上の内容語（Ｃ）及び０個以上の機能語（Ｆ）の連続から成り立っているため、「苦手なのかも知れないね」が述部として抽出される。この述部は、「苦手」を内容語とし、「な／の／かも知れない／ね」という４つの機能表現をもつ。
【００２７】
また、この例では、ＢＩタグというものを使用し、述部の内容語であって、内容語の先頭の単語（「苦手」）には「Ｃ，Ｂ−ＰＲＥＤ」のラベルを付与し、また、述部の内容語であって、内容語の先頭以外の単語（ここでは該当単語なし）には、「Ｃ，Ｉ−ＰＲＥＤ」のラベルを付与する。Ｃは内容語（Ｃｏｎｔｅｎｔｗｏｒｄｓ）の頭文字である。また、機能語（Ｆｕｎｃｔｉｏｎｗｏｒｄｓ）には「Ｆ」のラベルを付与し、それに加えて、機能表現単位で該当する意味ラベルを付与する。機能表現「かも知れない」は、機能語「かも」、「知れ」及び「ない」で構成されているので、「かも」、「知れ」及び「ない」の各々に、機能語を示す「Ｆ」のラベルが付与されると共に、機能表現「かも知れない」に対応する意味ラベル「推量」が付与される。また、内容語と同様に、該当する機能語が、ある機能表現（「かも知れない」）の先頭の単語（「かも」）だった場合は、「Ｂ−推量」のように、その機能語が含まれる機能表現に付与された意味ラベルの前に「Ｂ」を付け、先頭以外の単語（「知れ」、「ない」）だった場合は、「Ｉ−推量」のように意味ラベルの前に「Ｉ」を付ける。また、「Ｇｒａｍｍａｒ」に属する機能語（ここでは、助動詞の「だ」及び助詞の「の」）には、上記と同様に、機能語を示すラベル「Ｆ」、機能表現の先頭または先頭以外の単語を示す「Ｂ」または「Ｉ」のラベルと共に、その単語の用途に応じて「判断」または「名詞化」の意味ラベルを付与する。機能語意味ラベル辞書に登録されていない単語、及び「Ｇｒａｍｍａｒ」に属する単語以外の単語には、上記と同様に、機能語を示すラベル「Ｆ」、機能表現の先頭または先頭以外の単語を示す「Ｂ」または「Ｉ」のラベルと共に、「ＮＵＬＬ」のラベルを付与する。
【００２８】
ＮＵＬＬ削除部１８は、意味ラベルとして「ＮＵＬＬ」が付与された機能表現を削除する。「ＮＵＬＬ」が付与されているということは、述部の意味に影響を与える機能表現として機能語意味ラベル辞書に定められていない語であり、かつ意味的には重要ではないが、周辺の単語によっては文法的に必要な要素である「Ｇｒａｍｍａｒ」というカテゴリにも分類されないことを示している。このような機能表現は、削除しても問題ないため、削除する。
【００２９】
冗長ルール適用部２０は、同一の意味ラベルが付与された機能表現については、１つを残して削除する。これにより、不要な機能表現を削除して、述部の冗長性を解消する。図６に、ＮＵＬＬ削除及び冗長ルール適用後の一例を示す。なお、冗長ルールの適用は、機能表現単位で行う。このため、図６の例で、「知れ」及び「ない」は、同一の意味ラベルが付与されているが、各々「かも知れない」という機能表現の一部であるため、削除されない。
【００３０】
Ｎｇｒａｍ文法性判断部２２は、「Ｇｒａｍｍａｒ」に属する機能表現のうち、どの機能表現が必要で、どの機能表現が不要かを判断する。Ｎｇｒａｍ文法性判断部２２は、図７に示すように、文法性判断の対象となる機能表現を残す場合及び除く場合の全ての組み合わせ候補を作成する候補生成部２２ａと、形態素Ｎｇｒａｍモデル２２ｂ及び品詞Ｎｇｒａｍモデル２２ｃに基づいて、生成された候補毎にＮｇｒａｍスコアを計算するＮｇｒａｍ計算部２２ｄと、Ｎｇｒａｍスコアに基づいて、候補の中から１つを選択する選択部２２ｅと、を含んだ構成で表すことができる。
【００３１】
候補生成部２２ａは、ＮＵＬＬ削除部１８及び冗長ルール適用部２０により不要な機能表現が削除された述部について、意味ラベル付与・述部抽出部１６で「Ｇｒａｍｍａｒ」に属する機能表現として、「判断」及び「名詞化」の意味ラベルが付与された機能語を残した述部の形態素列の候補、及び対象の機能語を除いた述部の形態素列の候補について、全ての組み合わせ候補を作成する。ここでは、「な（判断）」及び「の（名詞化）」が、対象の機能語となっているため、いずれも削除した「苦手／かも／知れ／ない」、「な」を削除し「の」を残した「苦手／の／かも／知れ／ない」、「の」を削除し「な」を残した「苦手／な／かも／知れ／ない」、いずれも残した「苦手／な／の／かも／知れ／ない」が候補として生成される。
【００３２】
形態素Ｎｇｒａｍモデル２２ｂ及び品詞Ｎｇｒａｍモデル２２ｃ（以下、この２つのモデルをまとめて、または区別することなく説明する場合には、単に「Ｎｇｒａｍモデル」ともいう。）は、入力された単語の並びに、確率を基にした「単語列としての尤もらしさ」のスコアを与えるためのモデルである（例えば、「北研二、中村哲、永田昌明「音声言語処理−コーパスに基づくアプローチ」、森北出版、２．４章」参照）。任意の単語数を持つ並びのスコアを計算するため、Ｎｇｒａｍモデルでは、Ｎ個の単語の並び（これをＮｇｒａｍと呼び、Ｎ＝３のときをＴｒｉｇｒａｍと呼ぶ）から単語の生成確率を取得し、単語列全体について、この総積を計算することで算出される。本実施の形態では、確率の対数値をスコアと呼び、入力の単語列全体のスコアをＮｇｒａｍスコアと呼ぶ。また、個々のＮｇｒａｍの生成確率は、予めコーパスから学習しておく。
【００３３】
Ｎｇｒａｍスコア計算部２２ｄは、候補生成部２２ａで生成された各候補について、Ｎｇｒａｍモデルを用いてＮｇｒａｍスコアを計算する。本実施の形態のように、２つ以上のＮｇｒａｍモデルを用いて１つのＮｇｒａｍスコアを計算する場合には、例えば、下記（１）式によりＮｇｒａｍスコアを計算することができる。
【００３４】
ｌｏｇＰ＝αｌｏｇＰ_ａ＋（１−α）ｌｏｇＰ_ｂ・・・（１）
【００３５】
ただし、ｌｏｇＰは、最終的な「単語列としての尤もらしさ」を表すＮｇｒａｍスコア、ｌｏｇＰ_ａは形態素Ｎｇｒａｍモデル２２ｂから算出したＮｇｒａｍスコア、ｌｏｇＰ_ｂは品詞Ｎｇｒａｍモデル２２ｃから算出したＮｇｒａｍスコアであり、αは両者の混合率である。このＮｇｒａｍスコアを用いて、「Ｇｒａｍｍａｒ」に属する機能表現の文法性判断を行う。
【００３６】
ここで、本実施の形態における「Ｇｒａｍｍａｒ」に属する機能表現の文法性判断の原理について説明する。
【００３７】
入力単語列が形態素解析済みである場合、単に形態素の表層形だけを用いてＮｇｒａｍスコアを計算するより、形態素の品詞、活用型などの情報も使用してＮｇｒａｍスコアを計算する方が、より正確に「単語列としての尤もらしさ」を計算することができる。例えば、従来の形態素Ｎｇｒａｍモデルでは、形態素の表層形、品詞、活用型をまとめたものを擬似単語としてＮｇｒａｍモデルを構築し、品詞Ｎｇｒａｍモデル２２ｃでは、形態素の品詞、活用型をまとめたものを擬似単語としてＮｇｒａｍモデルを構築し、両者のＮｇｒａｍスコアを適当な混合率αで補完し、（１）式を用いて最終的なＮｇｒａｍスコアを計算することができる。図８に、Ｎ＝３の場合の従来の形態素Ｎｇｒａｍモデルの一例、図９にＮ＝３の場合の品詞Ｎｇｒａｍモデル２２ｃの一例を示す。
【００３８】
機械翻訳で使用される言語モデルなどでは、この従来の形態素Ｎｇｒａｍモデルと品詞Ｎｇｒａｍモデル２２ｃとを適当な混合率（例えば、α＝０．８、すなわちモデルａ：モデルｂ＝０．８：０．２）を用いて、Ｎｇｒａｍスコアを計算する。しかし、本実施の形態が目的とする機能表現の文法性判断に、この手法を適用すると、図１０に示すように、混合率によって、述部の言い換え精度のばらつきが大きくなる。
【００３９】
より正しく文法性を判断するには、表層形を要素に含んだ従来の形態素Ｎｇｒａｍモデルの割合を上げることが的確であるが、機能表現の文法性判断の場合、従来の形態素Ｎｇｒａｍモデルの混合率を高くすると（すなわち、αを１に近付けると）、精度が低下する。これは、述部の内容語が悪影響を及ぼしているものと考えられる。本発明で対象とする述部には内容語も含まれているが、内容語は同一の意味を示す異なった表層形の数が機能語よりも多いため、従来の形態素Ｎｇｒａｍモデルのスコアにばらつきが生じる。これはＮｇｒａｍ確率を学習する際のデータが不十分なため、正しくスコア計算ができないことが原因である。しかし、これらの問題に直面せずに正しく学習を行うためには、大量の学習データが必要となる。
【００４０】
そこで、本実施の形態では、機能表現の文法性判断を行う際のＮｇｒａｍスコア計算において、機能表現を構成する機能語については表層形を要素に含めた擬似単語、機能語以外の単語については表層形を要素に含めない擬似単語により構築されたＮｇｒａｍモデル（形態素Ｎｇｒａｍモデル２２ｂ）を使用する。これにより、文法性判断を行いたい機能表現については、表層形を要素に含めることで重要な情報をＮｇｒａｍモデルに残して、Ｎｇｒａｍモデルの精度を向上させることができ、一方、文法性判断にあまり影響を与えず、表層形のばらつきが大きい内容語については、表層形を要素から除くことで、Ｎｇｒａｍモデルの精度低下を回避することができる。
【００４１】
図１１に、本実施の形態における形態素Ｎｇｒａｍモデル２２ｂの一例を示す。どの種類の形態素の表層形を用いるかは、文法性判断を行いたい箇所により決める。ここでは、品詞の中でも、「助詞、助動詞、フィラー、その他、記号、非自立、特殊、接尾、接続詞的、動詞非自立的」という種類が品詞の中に入っていた場合を機能語とし、これらの表層形は形態素Ｎｇｒａｍモデル２２ｂの要素として用いる。図１１に示すように、「動詞−自立」や「形容詞−自立」のような内容語の表層形は「＊」に統一し、「助動詞」や「助詞」に属する形態素に関しては表層形も要素として用いる。機能語は内容語に比べ種類が少ないため、限られたデータ数でも学習ができ、かつ機能語の表層形の並びも形態素Ｎｇｒａｍモデル２２ｂに加えることができる。これらの擬似単語を用いて、形態素Ｎｇｒａｍモデル２２ｂを、既存の学習ツールを使用して学習する。また、品詞Ｎｇｒａｍモデル２２ｃについても、品詞及び活用型を要素とする擬似単語を用いて、既存の学習ツールを使用して学習する。
【００４２】
図１２に示すように、本実施の形態のＮｇｒａｍモデルを用いることで、混合率による精度のばらつきを抑え、言い換え精度を高く保持できることが分かる。
【００４３】
そして、このＮｇｒａｍモデルを用いてＮｇｒａｍスコアを計算する際には、形態素Ｎｇｒａｍモデル２２ｂに基づくスコアの算出では、学習時と同様に、機能語については表層形を要素に含め、機能語以外の単語については表層形を要素に含めずにスコアを算出する。
【００４４】
また、Ｎｇｒａｍスコア計算部２２ｄは、候補生成部２２ａで生成された各候補の末尾に句点「。」を付け加えた上で、Ｎｇｒａｍモデルを用いて各候補のＮｇｒａｍスコアを計算する。各候補の末尾に句点「。」を付けるのは、「文末（すなわち、終止形）で現れる述部の中で一番尤もらしい単語の並び」を見るためである。図１３に、候補毎に計算されたＮｇｒａｍスコアの一例を示す。
【００４５】
選択部２２ｅは、Ｎｇｒａｍスコア計算部２２ｄにより計算された各候補のＮｇｒａｍスコアに基づいて、Ｎｇｒａｍスコアが最も高い候補を選択し、選択した候補を構成する形態素列を出力する。図１３の例では、「Ｇｒａｍｍａｒ」に属する全ての機能語が削除された「苦手／かも／知れ／ない」が、Ｎｇｒａｍスコアが最も高い候補であるため、この候補を選択する。これにより、「彼は歌が苦手なのかも知れないね。」という入力文書の述部に対して、最も単純かつ文法的に正しい言い換え表現である「苦手かも知れない」の組み合わせが出力される。
【００４６】
活用生成部２４は、選択部２２ｅから出力された形態素列の全ての要素を正しく活用させて、最終的な述部を生成する。本実施の形態では、言語モデルによる活用生成器を使用する。これは、予め正解データより、前方の単語の表層形・品詞・活用型と後方の単語の表層形・品詞を素性として「どの接続が尤もらしいか」を学習したモデルによる生成器である。この言語モデルに基づいて、新しく前後の単語の表層形・品詞・活用型が入力された際に、最適な表記を生成する。ここでは、この言語モデルによる活用生成器に形態素列「苦手／名詞−形容動詞語幹」、「かも／助詞−副助詞」、「知れ／動詞−自立／一段」、「ない／助動詞／特殊・ナイ」を入力し、正しく接続された述部である「苦手かも知れない」を生成する。
【００４７】
次に、図１４を参照して、本実施の形態の述部正規化装置１０において実行される述部正規化処理ルーチンについて説明する。
【００４８】
ステップ１００で、入力された文書に対して、公知の形態素解析器を用いて一文毎に形態素解析を行い、文を単語単位に分割し、各単語に品詞や活用型、活用形などの情報を付与する。ここでは、入力文書に含まれた一文の例として、「主役は彼のようだね」について説明する。
【００４９】
次に、ステップ１０２で、意味ラベル・述部モデル１４を用いた統計的手法により、上記ステップ１００での形態素解析結果に対して、機能表現の意味ラベルを自動で付与し、さらに述部の範囲を抽出する。ここでは、「彼」を内容語とし、「の／よう／だ／ね」の４つの機能表現を含む「彼のようだね」が述部として抽出される。機能表現のうち、「の」に「Ｇｒａｍｍａｒ」に属する意味ラベル「名詞化」が付与され、「だ」に「Ｇｒａｍｍａｒ」に属する意味ラベル「判断」が付与される。また、「ね」には意味ラベル「ＮＵＬＬ」が付与される。
【００５０】
次に、ステップ１０４で、上記ステップ１０２で、意味ラベルとして「ＮＵＬＬ」が付与された機能表現を削除する。ここでは、「ね」が削除される。
【００５１】
次に、ステップ１０６で、上記ステップ１０２で付与された意味ラベルを参照して、同一の意味ラベルが付与された機能表現は、１つを残して削除する。ここでは、該当する機能表現はないため、そのままステップ１０８へ移行する。図１５に示すように、上記ステップ１０４及び１０６の処理を経て、述部は「彼／の／よう／だ」となる。
【００５２】
次に、ステップ１０８で、上記ステップ１０４及び１０６の処理を経て、不要な機能表現が削除された述部について、上記ステップ１０２で「Ｇｒａｍｍａｒ」に属する機能表現として、「判断」及び「名詞化」の意味ラベルが付与された機能表現を残した述部の形態素列の候補、及び対象の機能表現を除いた述部の形態素列の候補について、全ての組み合わせ候補を作成する。ここでは、「の（名詞化）」及び「だ（判断）」が、対象の機能表現となっているため、いずれも削除した「彼／よう」、「だ」を削除し「の」を残した「彼／の／よう」、「の」を削除し「だ」を残した「彼／よう／だ」、いずれも残した「彼／の／よう／だ」が候補として生成される。
【００５３】
次に、ステップ１１０で、上記ステップ１０８で生成した候補の各々の末尾に句点「。」を付け加えた上で、各候補毎に、機能語については形態素の表層形を要素に含めて、機能語以外の語は表層形を要素に含めずに、形態素Ｎｇｒａｍモデル２２ｂに基づいてスコアｌｏｇＰ_ａを算出し、また、各単語の品詞及び活用型を要素として、品詞Ｎｇｒａｍモデル２２ｃに基づいてスコアｌｏｇＰ_ｂを算出し、上記（１）式に従ってＮｇｒａｍスコアを計算する。図１６に、各候補のＮｇｒａｍスコアを示す。
【００５４】
次に、ステップ１１２で、上記ステップ１１０で計算した各候補のＮｇｒａｍスコアに基づいて、Ｎｇｒａｍスコアが最も高い候補を選択し、選択した候補を構成する形態素列を出力する。ここでは、「彼／の／よう／だ」が選択される。
【００５５】
次に、ステップ１１４で、上記ステップ１１２で選択した形態素列の全ての要素を正しく活用させて、最終的な述部を生成する。これにより、「主役は彼のようだね。」という入力に対して、最も単純かつ文法的に正しい言い換え表現である「彼のようだ。」の組み合わせが出力される。結果、述部が「彼のようだね」から「彼のようだ」に正規化される。
【００５６】
以上説明したように、本実施の形態の述部正規化装置によれば、述部の意味には影響を与えないが、周辺の単語によっては日本語の文法として必要となりうる機能表現に「Ｇｒａｍｍａｒ」というカテゴリを与えて、「Ｇｒａｍｍａｒ」に属する機能表現を含む場合、除いた場合の各々について、Ｎｇｒａｍモデルを用いて単語列としての尤もらしさを示すＮｇｒａｍスコアを計算し、Ｎｇｒａｍスコアが高くなるように「Ｇｒａｍｍａｒ」に属する機能表現を残したり、削除したりするため、単純かつ文法的に正しい述部の言い換えを行うことができる。また、Ｎｇｒａｍモデルを使用する際に、形態素Ｎｇｒａｍモデルと品詞Ｎｇｒａｍモデルとを用いるが、形態素Ｎｇｒａｍモデルでは、機能語については形態素の表層形を要素とし、機能語以外の単語では表装形を要素としないため、述部に含まれる内容語の表層形のばらつきによるＮｇｒａｍスコアの揺れを抑えつつ、機能表現の表層形は文法性判断の基準として用いることができ、高精度の文法性判断を行うことができる。
【００５７】
また、テキストマイニングなどで行われている述部のまとめ上げや、機械翻訳、要約といった自然言語処理技術の前処理として、本実施の形態で正規化された述部を使用することができ、これらの処理の精度を向上させることができる。
【００５８】
なお、上記実施の形態では、「Ｇｒａｍｍａｒ」に属する機能表現の文法性判断に、形態素Ｎｇｒａｍモデルと品詞Ｎｇｒａｍモデルとをあわせて用いる場合について説明したが、形態素Ｎｇｒａｍのみを用いて判断してもよい。
【００５９】
また、上記実施の形態では、形態素Ｎｇｒａｍモデルは、表層形（機能語のみ）、品詞及び活用型を要素とし、品詞Ｎｇｒａｍモデルは、品詞及び活用型を要素とする場合について説明したが、品詞及び活用型に替えて、または加えて、形態素の他の要素、例えば、標準形や活用形等を要素として用いてもよい。
【００６０】
また、上記実施の形態では、「Ｇｒａｍｍａｒ」に属する機能表現を、助詞の「の」及び助動詞の「だ」とする場合について説明したが、これ以外の機能語を「Ｇｒａｍｍａｒ」に属する機能表現として登録し、新しい意味ラベルを付与してもよい。また、非特許文献１のようにルールを用いて、「Ｇｒａｍｍａｒ」に属する意味ラベルが付与され、かつモダリティに属する機能表現が前または後に存在する場合のみ、本実施の形態の文法性判断の対象とするような制限を加えてもよい。
【００６１】
また、上記実施の形態では、意味ラベル付与・述部抽出部において、学習された意味ラベル・述部モデルを用いて、機能表現への意味ラベルの付与及び述部の抽出を行う場合について説明したが、形態素解析の結果に対して、機能語意味ラベル辞書に基づいて意味ラベルを付与した上で、予め定めた述部抽出のルールに従って述部を抽出するようにしてもよい。
【００６２】
また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【００６３】
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【００６４】
１０述部正規化装置
１２形態素解析部
１４意味ラベル・述部モデル
１６意味ラベル付与・述部抽出部
１８ＮＵＬＬ削除部
２０冗長ルール適用部
２２Ｎｇｒａｍ文法性判断部
２２ａ候補生成部
２２ｂ形態素Ｎｇｒａｍモデル
２２ｃ品詞Ｎｇｒａｍモデル
２２ｄＮｇｒａｍスコア計算部
２２ｅ選択部
２４活用生成部

【特許請求の範囲】
【請求項１】
入力された文書を形態素解析する形態素解析手段と、
前記形態素解析手段による形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与するラベル付与手段と、
前記判定ラベルが付与された機能表現の少なくとも１つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Ｎグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算する計算手段と、
前記計算手段により計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する生成手段と、
を含む述部正規化装置。
【請求項２】
前記計算手段は、前記形態素Ｎグラムモデルと、形態素の表層形以外を要素とした擬似単語により構築された品詞Ｎグラムモデルとに基づいて、前記スコアを算出する請求項１記載の述部正規化装置。
【請求項３】
前記ラベル付与手段は、前記判定ラベル、並びに前記機能表現が意味的及び文法的に不要であることを示す不要ラベルを含み、かつ前記機能表現が前記述部の意味に影響を与えるか否かを示す意味ラベルを前記述部に含まれる機能表現の各々に付与し、
前記計算手段は、前記ラベル付与手段により不要ラベルが付与された機能表現、及び同一の意味ラベルが付与された機能表現の各々の少なくとも１つ以外の機能表現を削除した述部を用いて、前記スコアを算出する請求項１または請求項２記載の述部正規化装置。
【請求項４】
入力された文書を形態素解析し、
形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与し、
前記判定ラベルが付与された機能表現の少なくとも１つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Ｎグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算し、
計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する
述部正規化方法。
【請求項５】
コンピュータを、請求項１〜請求項３のいずれか１項記載の述部正規化装置を構成する各手段として機能させるための述部正規化プログラム。

【図１】