意味ラベル付与モデル学習装置、意味ラベル付与装置、意味ラベル付与モデル学習方法、及びプログラム
【課題】会話の流れによって疑問表現になったり、断定表現になったりする述部の機能表現に対しても、適切な意味ラベルを付与する。
【解決手段】学習用発話対作成部22で、形態素解析結果に対して、機能表現及び応対表現の正解ラベルが付与された正解コーパスに基づいて、学習用発話対を作成する。パラメータテーブルに、素性として、発話対の前の発話の終わりに表れる機能表現の意味ラベルと、それに対する後の発話の初めに表れる応対表現の意味ラベルとの並びの素性を用い、複数種類の素性各々について、重みの初期値を設定する。パラメータテーブル作成部24で、発話対の形態素情報と機能表現辞書30とを用いて、各形態素について候補となる意味ラベルを全て含んだラティスを構築し、ラティス構造からパラメータテーブルの素性毎の重みに基づいて最尤パスとして探索する。最尤パスが正解の意味ラベル列となるようにパラメータテーブルの重みを学習する。
【解決手段】学習用発話対作成部22で、形態素解析結果に対して、機能表現及び応対表現の正解ラベルが付与された正解コーパスに基づいて、学習用発話対を作成する。パラメータテーブルに、素性として、発話対の前の発話の終わりに表れる機能表現の意味ラベルと、それに対する後の発話の初めに表れる応対表現の意味ラベルとの並びの素性を用い、複数種類の素性各々について、重みの初期値を設定する。パラメータテーブル作成部24で、発話対の形態素情報と機能表現辞書30とを用いて、各形態素について候補となる意味ラベルを全て含んだラティスを構築し、ラティス構造からパラメータテーブルの素性毎の重みに基づいて最尤パスとして探索する。最尤パスが正解の意味ラベル列となるようにパラメータテーブルの重みを学習する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、意味ラベル付与モデル学習装置、意味ラベル付与装置、意味ラベル付与モデル学習方法、及びプログラムに係り、特に、対話文の機能表現に意味ラベルを付与するための意味ラベル付与モデルを学習する意味ラベル付与モデル学習装置、方法、及びプログラム、並びにその意味ラベル付与モデルを用いて、対話文の機能表現に意味ラベルを付与する意味ラベル付与装置に関する。
【背景技術】
【0002】
現在、Web上のブログや音声対話ログなど大量のテキストデータから、書き手(もしくは話し手)の「願望」や「疑問」、「苦情」などといった有益な情報を抽出、集計、及び分析することが求められている。このような、大量のテキストデータから有益な情報を抽出、集計、及び分析する技術をテキストマイニング技術と呼ぶ。
【0003】
このようなテキストマイニング技術において、重要となってくるのが、「誰が/何を/どうした」という文の核情報である。例えば、コンタクトセンタにおけるオペレータとカスタマーとの音声対話で、カスタマーが以下の発話を行ったとする。
【0004】
・あの〜料金プランを変更したいんですけども・・・
→「料金プラン/変更したい」 (1)
・えっと、学割って使えますか?・・・
→「学割/使えるか」 (2)
【0005】
(1)は「料金プランを変更したい」という願望を、(2)は「学割は使えるか」という疑問を表している。特に、「変更したい」「使えるか」などを表す述部は、文の核情報を表しており、「疑問」や「願望」等もこれら述部によって表現される。そのため、述部から必要な情報を抽出することが、テキストマイニングでは重要になる。
【0006】
例えば、述部の機能表現と呼ばれる助詞・助動詞など機能語の集合に意味ラベルを付与することで、必要な情報をまとめ上げるという方法が提案されている(例えば、非特許文献1参照)。非特許文献1の方法では、例えば、下記に示すように、「変更したいんですけども」の「たい」に「願望」という意味ラベルを、「使えますか」の「か」に「疑問」という意味ラベルを自動で付与している。(以下、[ ]を用いて意味ラベルを表す)。
【0007】
・変更し たい[願望]ん[判断]です[判断]けども[逆接確定]
・使え ます[丁寧]か[疑問]
【0008】
非特許文献1の方法では、平均化パーセプトロンという手法で学習した識別モデルと、機能表現辞書及びフレーズテーブルとを用いて、1文内に出現する機能表現に対して、最適な機能表現の意味ラベルを出力している。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】今村賢治、泉朋子、菊井玄一郎、佐藤理史、「述部機能表現の意味ラベルタガー」、言語処理学会第17回年次大会、pp.518−521、2011.
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかし、非特許文献1が対象としている入力は一文単位である。そのため、音声対話に出てくるような、「会話の流れによっては疑問を表す表現」に対しても一意のラベルを出力してしまう。例えば、以下の対話文を例に説明する。
【0011】
カスタマー:機種変更は、出来ないってことなんですよね。 (3)
オペレータ:はい、申し訳ございません。
【0012】
上記の対話文について、非特許文献1の方法を適用すると、(3)の場合、下記のように意味ラベルが付与され、「疑問」の情報を得ることができない。
【0013】
・出来ない[否定]って[同格]こと[名詞化]
な[判断]ん[判断]です[判断]よね[感嘆]
【0014】
仮に、「よね」という機能表現に対して「疑問」という意味ラベルを追加したとすると、次のような疑問表現ではないものにまで誤って「疑問」の意味ラベルが付与されてしまう。
【0015】
カスタマー:昨日から、携帯が動かないんですよね。 (4)
オペレータ:どのような症状でしょうか?
【0016】
(4)の場合、「動かない」という否定表現(トラブル表現)を表している。仮に「よね」という終助詞に対して「疑問」という意味ラベルを追加すると、非特許文献1の手法では、「疑問」の意味ラベルを出力してしまう。これは、非特許文献1の方法では、1文内の処理に閉じているためである。1文内では、(3)も(4)も前後の文字列(すなわち、「ん」、「です」及び「。」)は同じであり、1文内の単語の前後情報をもとに最適な意味ラベル列を付与する非特許文献1の方法の場合、両者の区別ができず、同じ意味ラベルを出力結果として出力してしまう。
【0017】
以上のように従来法では、1文内に閉じた処理を行っているため、音声対話に見られるような「会話の流れによっては疑問を表す表現」に対して最適な意味ラベルを付与することができない、という問題がある。
【0018】
本発明は上記問題点に鑑みてなされたものであり、会話の流れによって疑問表現になったり、断定表現になったりする述部の機能表現に対しても、適切な意味ラベルを付与することができる意味ラベル付与モデル学習装置、意味ラベル付与装置、意味ラベル付与モデル学習方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0019】
上記目的を達成するために、本発明の意味ラベル付与モデル学習装置は、複数の発話を示すテキストデータ各々を形態素解析した解析結果に含まれる機能表現及び応対表現に該機能表現及び該応対表現の意味を示す正解の意味ラベルが付与された複数の学習用データに基づいて、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成する学習用発話対作成手段と、少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、値が大きいほど意味ラベル付与の判定に有効であることを示す重みを定めた意味ラベル付与モデルを、前記学習用発話対作成手段により作成された学習用発話対から抽出された素性と前記重みとに基づいて、前記学習用発話対の機能表現及び応対表現各々に正解の意味ラベルが付与されるように学習する学習手段と、を含んで構成されている。
【0020】
本発明の意味ラベル付与モデル学習装置によれば、学習用発話対作成手段が、複数の発話を示すテキストデータ各々を形態素解析した解析結果に含まれる機能表現及び応対表現に機能表現及び応対表現の意味を示す正解の意味ラベルが付与された複数の学習用データに基づいて、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成する。そして、学習手段が、少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、値が大きいほど意味ラベル付与の判定に有効であることを示す重みを定めた意味ラベル付与モデルを、学習用発話対作成手段により作成された学習用発話対から抽出された素性と重みとに基づいて、学習用発話対の機能表現及び応対表現各々に正解の意味ラベルが付与されるように学習する。
【0021】
このように、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成してから、少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、その重みを定めた意味ラベル付与モデルを学習する。このため、述部の機能表現の意味ラベルを、その発話に対する応対表現の意味ラベルに基づいて判断することができ、会話の流れによって疑問表現になったり、断定表現になったりする述部の機能表現に対しても、適切な意味ラベルを付与することができる意味ラベル付与モデルを学習することができる。
【0022】
また、前記学習手段は、前記学習用発話対の機能表現及び応対表現各々に付与される意味ラベルの候補から、該機能表現及び応対表現毎にいずれかの候補を選択して並べた意味ラベル候補列の全ての組み合わせについて、該意味ラベル候補列各々から抽出された素性について前記意味ラベル付与モデルで定められた重みを用いたスコアを算出し、正解の意味ラベルの列と一致する意味ラベル候補列のスコアが最大となるように、前記意味ラベル付与モデルを学習することができる。
【0023】
また、前記応対表現は、発話者の問いかけに対する応対を表す表現であり、該応対表現の意味ラベルは、肯定及び否定を含むことができる。このような応対表現を用いることにより、結合された前の発話の述部の機能表現の意味ラベルを適切に判定することができる。
【0024】
また、本発明の意味ラベル付与装置は、連続する2つの発話を示す処理対象の形態素解析済みのテキストデータを結合して、付与用発話対を作成する付与用発話対作成手段と、前記付与用発話対作成手段により作成された付与用発話対から抽出された素性と、上記の意味ラベル付与モデル学習装置により学習された意味ラベル付与モデルとに基づいて、前記付与用発話対の機能表現及び応対表現各々に意味ラベルを付与する付与手段と、を含んで構成されている。これにより、述部の機能表現の意味ラベルを、その発話に対する応対表現の意味ラベルに基づいて判断することができ、会話の流れによって疑問表現になったり、断定表現になったりする述部の機能表現に対しても、適切な意味ラベルを付与することができる。
【0025】
また、本発明の意味ラベル付与モデル学習方法は、学習用発話対作成手段と、学習手段とを含む意味ラベル付与モデル学習装置における意味ラベル付与モデル学習方法であって、前記学習用発話対作成手段は、複数の発話を示すテキストデータ各々を形態素解析した解析結果に含まれる機能表現及び応対表現に該機能表現及び該応対表現の意味を示す正解の意味ラベルが付与された複数の学習用データに基づいて、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成し、前記学習手段は、少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、値が大きいほど意味ラベル付与の判定に有効であることを示す重みを定めた意味ラベル付与モデルを、前記学習用発話対作成手段により作成された学習用発話対から抽出された素性と前記重みとに基づいて、前記学習用発話対の機能表現及び応対表現各々に正解の意味ラベルが付与されるように学習する方法である。
【0026】
また、本発明の意味ラベル付与モデル学習プログラムは、コンピュータを、上記の意味ラベル付与モデル学習装置を構成する各手段として機能させるためのプログラムである。
【発明の効果】
【0027】
以上説明したように、本発明の意味ラベル付与モデル学習装置、方法、及びプログラムによれば、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成してから、少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、その重みを定めた意味ラベル付与モデルを学習する。このため、述部の機能表現の意味ラベルを、その発話に対する応対表現の意味ラベルに基づいて判断することができ、会話の流れによって疑問表現になったり、断定表現になったりする述部の機能表現に対しても、適切な意味ラベルを付与することができる意味ラベル付与モデルを学習することができる、という効果が得られる。
【0028】
また、本発明の意味ラベル付与装置によれば、処理対象のテキストデータから付与用発話対を作成してから、上記のように学習された意味ラベル付与モデルを用いることにより、会話の流れによって疑問表現になったり、断定表現になったりする述部の機能表現に対しても、適切な意味ラベルを付与することができる意味ラベル付与モデルを学習することができる、という効果が得られる。
【図面の簡単な説明】
【0029】
【図1】本実施の形態の意味ラベル付与装置の機能的構成を示すブロック図である。
【図2】応対ラベルを含んだ機能表現辞書の一例を示す図である。
【図3】正解コーパスの一例を示す図である。
【図4】発話対の作成を説明するための図である。
【図5】発話の終わりとそれに対応する応対の並びが素性として抽出されることを説明するための図である。
【図6】素性IDの一例を示す図である。
【図7】パラメータテーブルの一例を示す図である。
【図8】候補となる意味ラベルにより構築されたラティスの一例を示す図である。
【図9】ラティスから選択された意味ラベル列の一例を示す図である。
【図10】ラティスから選択された意味ラベル列の他の例を示す図である。
【図11】本実施の形態におけるモデル学習処理ルーチンの内容を示すフローチャートである。
【図12】本実施の形態における意味ラベル付与処理ルーチンの内容を示すフローチャートである。
【発明を実施するための形態】
【0030】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0031】
本実施の形態に係る意味ラベル付与装置10は、CPUと、RAMと、後述するモデル学習処理ルーチン及び意味ラベル付与処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、学習部20と付与部40とを含んだ構成で表すことができる。学習部20は更に、学習用発話対作成部22と、パラメータテーブル作成部24とを含んだ構成で表すことができ、付与部40は更に、付与用発話対作成部42と、意味ラベル付与部44とを含んだ構成で表すことができる。なお、パラメータテーブル作成部24が本発明の学習手段の一例である。
【0032】
また、後述するパラメータテーブル作成部24及び意味ラベル付与部44では、応対ラベルを含んだ機能表現辞書30が用いられる。機能表現辞書30は、機能表現の表層形とその機能表現の意味を示す意味ラベルとを格納した辞書である。機能表現辞書30は、非特許文献2(松吉俊、佐藤理史、宇津呂武仁、「日本語機能表現辞書の編纂」、自然言語処理、vol.14、No.5、pp123−146、2007)のような既存のものを用いてもよい。また、ID情報など他の情報が含まれていてもよい。更に、本実施の形態で用いる機能表現辞書30には、応対ラベルが含まれる。応対ラベルとは、応対表現に付与された意味ラベルである。応対表現とは、「はい」や「いいえ」など、発話者の問いかけに対する応対を表す表現である。この応対表現を用いて、機能表現に最適な意味ラベルを付与するため、機能表現辞書30に応対ラベルを追加する。例えば、「はい」、「そうですね」などの肯定を表す応対表現には[応対−肯定]という意味ラベルを与え、「いいえ」などの否定を表す応対表現には[応対−否定]という意味ラベルを与える。これらもまた、既存の応対表現辞書を用いてもよい。機能表現辞書30の一例を図2に示す。
【0033】
学習用発話対作成部22は、入力された正解コーパスから発話対を作成する。ここで、正解コーパスとは、テキストデータ(音声データの場合は、音声認識結果)を形態素解析し、解析結果である形態素列に対して、応対ラベルを含んだ機能表現辞書30に基づいて、適切な意味ラベル(正解ラベル)を予め人手で付与したコーパスである。正解コーパスの一例(上記(3)の対話文の例)を図3に示す。図3の例では、2段目が形態素解析後のテキストデータの表層形、3段目が形態素解析により形態素毎に付与された品詞等の形態素情報、及び3段目が機能表現辞書30に基づいて機能表現及び応対表現に付与された正解ラベルである。また、1段目は、テキストデータの発話者を識別するための発話者情報が付与されている。
【0034】
学習用発話対作成部22は、入力された正解コーパスに付与された発話者情報に基づいて、発話者が交代した箇所を検出して、発話者が交代する前の発話と後の発話とを結合した発話対を作成する。以下では、学習用発話対作成部22で作成される発話対を、後述する付与用発話対作成部42で作成される発話対と区別するため、「学習用発話対」という。付与用発話対作成部42で作成される発話対は「付与用発話対」という。両者の区別なく説明する場合には、単に「発話対」ともいう。本実施の形態では、入力文に対して発話対を処理の単位とすることで、応対パターンをもとに疑問表現か否かを認定する点に特徴がある。そこで、学習用発話対作成部22により、処理単位となる学習用発話対を作成するものである。
【0035】
例えば、下記のような対話の場合、「A−B」、「C−D」、及び「E−F」が発話対として作成される。なお、発話対とならない文に対しては、通常の意味ラベル付与処理を行う(すなわち、一文を処理単位とする)。
【0036】
オペレータ:お電話ありがとうございます、担当の鈴木です。 A
カスタマー:あの、すみません。 B
昨日からずっとパソコンがつながらないんですよね。 C
オペレータ:パソコンがつながらないということですね。 D
具体的にどのような症状が出ておりますか? E
カスタマー:えっと、・・・ F
【0037】
より具体的には、学習用発話対作成部22は、発話対となる連続する発話と発話とを結合した一文を作成する。例えば、図4に示すように、形態素解析結果として付与されている発話の文末記号(ここでは<EOS>)を削除し、発話対となる発話同士を発話順に結合させることで発話対を作成する。このように発話対を作成して、この発話対を処理単位とすることにより、前の発話における述部の機能表現に対する最適な意味ラベルを推定するために、その発話に対する応対を素性として用いることができる。
【0038】
パラメータテーブル作成部24は、形態素毎に付与された「意味ラベル」及び「形態素情報」を素性として、非特許文献1と同様の方法により、意味ラベル付与モデルとして、形態素列及び意味ラベル列のパラメータテーブルを学習する。パラメータテーブルは、テキストデータから抽出される素性に対する重み(値が大きいほど意味ラベル付与の判定にその素性が有効であることを示す)を格納したテーブルである。本実施の形態で用いられる素性には、図5に示すように、発話対を処理単位として抽出される素性を用いる。すなわち、発話対の前の発話の終わりに表れる機能表現の意味ラベルと、それに対する後の発話の初めに表れる応対表現の意味ラベルとの並びの2−gramを素性として用いることができる。このように、意味ラベル付与モデルを学習するための処理単位を発話対とし、また対象の形態素に対して前後の形態素に付与された意味ラベルを素性として加えることが必須である(2−gram以上を素性として含めることが必須)。その他の素性として、1−gram素性や、非特許文献1のようにマッピング素性(形態素情報から意味ラベルの出現し易さ)を使用してもよい。図6に素性IDの一例を示す。例えば、素性ID「LP2」は、「意味ラベルの2−gram(2つの意味ラベルの並び)」の素性を表している。また、素性ID「LW3」は、表層文字列と意味ラベルの3−gram(3つの「表層文字,意味ラベル」の並び)」の素性を表している。
【0039】
これらの各素性に対する重みを、例えば、図7に示すようなパラメータテーブルとして定める。図7では、例えば、「[疑問],[応対−肯定]」という2つの意味ラベルの並びの素性に“3.2”の重みが振られている。素性に対する重みの学習前の段階では、各素性に対する重みは、適当な初期値を設定しておく。パラメータテーブル作成部24は、このパラメータテーブルを、正解コーパスから作成された学習用発話対を用いて学習する。
【0040】
より具体的には、学習用発話対作成部22で作成された学習用発話対の形態素情報と機能表現辞書30とを用いて、各形態素について候補となる意味ラベルを全て含んだラティスを構築する。なお、機能表現辞書30に含まれておらず、かつ機能語相当の品詞(助詞・助動詞・動詞−非自立・名詞−非自立)の形態素には[NULL]の意味ラベルを振る。機能表現辞書30にも含まれず、機能語相当の品詞の形態素でもない場合には、[*]の意味ラベルを振る。構築されたラティスの一例を図8に示す。
【0041】
ラティスが構築されたら、ラティス構造から最尤パスを探索する。具体的には、まず、発話対の解析結果である形態素列について、各形態素について出力された意味ラベルの候補からいずれかの候補を選択した意味ラベル候補の組み合わせをフレーズ列として、想定される全ての組み合わせのフレーズ列を作成する。そして、フレーズ列の中で、最も尤もらしいフレーズ列を、パラメータテーブルをもとに計算する。本実施の形態では、非特許文献1に沿って下記の式を満たすフレーズ列を探索し、最尤パスとして出力する。
【0042】
【数1】
【0043】
ここで、Pはフレーズ列、fk(P)はフレーズ列Pが与えられたときのk番目の素性、wkは素性fk(P)に対応する重みであり、上記のように初期値を設定して作成したパラメータテーブルを検索することで得られる。すなわち、wkfk(P)は、各フレーズ列のスコアであり、各フレーズ列についてこのスコアを計算し、スコアが最大となるフレーズ列を最尤パスとする。探索された最尤パスが、正解のフレーズ列となるようにパラメータテーブルの重みを学習する。最尤パスと正解のフレーズ列とが一致した場合に、学習の処理を終了する。スコアの計算には動的計画法を用いることができる。図8において、図中太枠で示される意味ラベルの列が最尤パスである。このように学習されたパラメータテーブルを学習モデル32として記憶する。
【0044】
付与用発話対作成部42は、入力された意味ラベル付与対象のテキストデータに基づいて、付与用発話対を作成する。ここで入力されるテキストデータは、形態素解析済みの対話文である。付与用発話対の作成方法は、学習用発話対作成部22と同様である。
【0045】
意味ラベル付与部44は、付与用発話対作成部42で作成された付与用発話対の形態素情報と応対ラベルを含んだ機能表現辞書30とを用いて、各形態素について候補となる意味ラベルを全て含んだラティスを構築する。ラティスの構築方法の詳細は、パラメータテーブル作成部24におけるラティス構築方法と同様である。
【0046】
また、意味ラベル付与部44は、パラメータテーブル作成部24により学習されたパラメータテーブル(学習モデル32)に基づいて、構築されたラティス構造から最尤パスを探索することで、最も尤もらしい意味ラベルを計算し、出力する。最尤パスの探索方法の詳細は、パラメータテーブル作成部24における最尤パスの探索方法と同様である。
【0047】
入力されたテキストデータに対するラティス、及び最尤パス計算によって出力された意味ラベル(図中太枠)の列の一例を、図9に示す。本実施の形態では、モデル学習の際に、発話対を素性の単位としており、そのため、「よね」の意味ラベル候補[疑問]と「はい」の意味ラベル候補[応対‐肯定]との並びが素性として抽出される。パラメータテーブル内を参照すると、その素性に対して高い重みが定められている。これは、ある機能表現に対して、[応対‐肯定]の意味ラベルを有する応対表現が続いている場合には、その機能表現の意味ラベルとしては[疑問]が適切であることを示している。また、意味ラベル付与の際にも発話対を処理単位としているため、前の発話の終わりに表れる機能表現と、それに対する後の発話の初めに表れる応対表現との並びの素性を抽出することができる。これにより、「よね」に対して正しく[疑問]の意味ラベルを付与することができる。
【0048】
ここで、他の例として、上記(4)のテキストデータが意味ラベル付与の対象として入力された場合について説明する。まず、付与用発話対作成部42で、付与用発話対を作成する。そして、意味ラベル付与部44で、ラティスを構築し、パラメータテーブル作成部24で学習されたパラメータテーブルの素性に対する重みに基づいて、最適な意味ラベル列を出力する(図10、出力された意味ラベル列を太枠で示す)。モデル学習時に発話対を処理単位としているため、パラメータテーブルにおいて、「よね」かつ[感嘆]と「どの(意味ラベルはなし)」との並びの素性の方が、「よね」かつ[疑問]と「どの(意味ラベルはなし)」との並びの素性より大きい重みが振られている。また、意味ラベル付与の処理単位も発話対となっている。結果、図10に示すパターンでは、「よね」に対する意味ラベルは「感嘆」が尤もらしいと正しく認定することができ、誤って「疑問」の意味ラベルが付与されることを防ぐことができる。
【0049】
次に、図11を参照して、本実施の形態の意味ラベル付与装置10において実行されるモデル学習処理ルーチンについて説明する。
【0050】
ステップ100で、形態素解析結果(表層形及び形態素)に対して、機能表現及び応対表現の正解ラベル、並びに発話者情報が付与された正解コーパスを取得する。
【0051】
次に、ステップ102で、上記ステップ100で取得した正解コーパスに付与された発話者情報に基づいて、発話者が交代した箇所を検出して、発話者が交代する前の発話と後の発話とを結合した学習用発話対を作成する。
【0052】
次に、ステップ104で、形態素毎に付与された「意味ラベル」及び「形態素情報」を素性として、各素性に対する重みを格納したパラメータテーブルを作成する。ここでは、各素性に対する重みは、適当な初期値を設定する。また、素性には、発話対の前の発話の終わりに表れる機能表現の意味ラベルと、それに対する後の発話の初めに表れる応対表現の意味ラベルとの並びの2−gramの素性を用いることを必須とする。
【0053】
次に、ステップ106で、上記ステップ102で作成された発話対の形態素情報と機能表現辞書30とを用いて、各形態素について候補となる意味ラベルを全て含んだラティスを構築する。そして、ラティス構造から、意味ラベルの候補からいずれかの候補を選択した意味ラベル候補の組み合わせのフレーズ列を作成する。そして、フレーズ列の中で、最も尤もらしいフレーズ列を、パラメータテーブルをもとに計算して、最尤パスとして探索する。
【0054】
次に、ステップ108で、上記ステップ106で探索された最尤パスと正解のフレーズ列とが一致したか否かを判定する。一致していない場合には、ステップ110へ移行して、探索される最尤パスが正解のフレーズとなるようにパラメータテーブルの重みを学習して、ステップ106へ戻る。最尤パスと正解のフレーズ列とが一致した場合には、ステップ112へ移行して、学習されたパラメータテーブルを学習モデル32として記憶して、モデル学習処理を終了する。
【0055】
次に、図12を参照して、本実施の形態の意味ラベル付与装置10において実行される意味ラベル付与処理ルーチンについて説明する。
【0056】
ステップ140で、意味ラベル付与対象のテキストデータ(形態素解析済みの対話文)を取得する。次に、ステップ142で、モデル学習処理のステップ102と同様の処理により、上記ステップ140で取得したテキストデータに基づいて、付与用発話対を作成する。
【0057】
次に、ステップ144で、モデル学習処理のステップ106と同様の処理により、上記ステップ142で作成された付与用発話対の形態素情報と機能表現辞書30とを用いてラティスを構築し、最尤パスを探索する。この際、モデル学習処理により学習されたパラメータテーブルを参照する。
【0058】
次に、ステップ146で、最尤パスとして選択された意味ラベル列を、各形態素に付与された意味ラベル列として出力し、意味ラベル付与処理を終了する。
【0059】
以上説明したように、本実施の形態の意味ラベル付与装置によれば、正解コーパスから作成された発話対を処理単位とし、機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を加えて、意味ラベル付与モデル(パラメータテーブル)を学習することができる。これにより、相手の受け答えの仕方によって疑問となったり断定となったりする述部の表現を正しく区別する意味ラベル付与モデルを作成することができる。また、意味ラベル付与時にも、対象のテキストデータから作成された付与用発話対を処理単位とするため、前の発話の終わりの機能表現の意味ラベルと、それに対する応対表現の意味ラベルの並びの素性を抽出することができる。これにより、上記のように発話対単位で学習したパラメータテーブルを参照することで、会話の流れによって疑問表現になったり、断定表現になったりする述部に対しても、適切な意味ラベルを付与することができる。
【0060】
また、このように適切に意味ラベルを付与することができるため、お客様の疑問や要望などを抽出、集計、及び分析するテキストマイニング技術の精度を向上させることができる。
【0061】
なお、上記の実施の形態では、学習部と付与部とを同一のコンピュータで構成する場合について説明したが、別々のコンピュータで構成するようにしてもよい。
【0062】
また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0063】
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0064】
10 意味ラベル付与装置
20 学習部
22 学習用発話対作成部
24 パラメータテーブル作成部
30 応対ラベルを含む機能表現辞書
32 学習モデル
40 付与部
42 付与用発話対作成部
44 意味ラベル付与部
【技術分野】
【0001】
本発明は、意味ラベル付与モデル学習装置、意味ラベル付与装置、意味ラベル付与モデル学習方法、及びプログラムに係り、特に、対話文の機能表現に意味ラベルを付与するための意味ラベル付与モデルを学習する意味ラベル付与モデル学習装置、方法、及びプログラム、並びにその意味ラベル付与モデルを用いて、対話文の機能表現に意味ラベルを付与する意味ラベル付与装置に関する。
【背景技術】
【0002】
現在、Web上のブログや音声対話ログなど大量のテキストデータから、書き手(もしくは話し手)の「願望」や「疑問」、「苦情」などといった有益な情報を抽出、集計、及び分析することが求められている。このような、大量のテキストデータから有益な情報を抽出、集計、及び分析する技術をテキストマイニング技術と呼ぶ。
【0003】
このようなテキストマイニング技術において、重要となってくるのが、「誰が/何を/どうした」という文の核情報である。例えば、コンタクトセンタにおけるオペレータとカスタマーとの音声対話で、カスタマーが以下の発話を行ったとする。
【0004】
・あの〜料金プランを変更したいんですけども・・・
→「料金プラン/変更したい」 (1)
・えっと、学割って使えますか?・・・
→「学割/使えるか」 (2)
【0005】
(1)は「料金プランを変更したい」という願望を、(2)は「学割は使えるか」という疑問を表している。特に、「変更したい」「使えるか」などを表す述部は、文の核情報を表しており、「疑問」や「願望」等もこれら述部によって表現される。そのため、述部から必要な情報を抽出することが、テキストマイニングでは重要になる。
【0006】
例えば、述部の機能表現と呼ばれる助詞・助動詞など機能語の集合に意味ラベルを付与することで、必要な情報をまとめ上げるという方法が提案されている(例えば、非特許文献1参照)。非特許文献1の方法では、例えば、下記に示すように、「変更したいんですけども」の「たい」に「願望」という意味ラベルを、「使えますか」の「か」に「疑問」という意味ラベルを自動で付与している。(以下、[ ]を用いて意味ラベルを表す)。
【0007】
・変更し たい[願望]ん[判断]です[判断]けども[逆接確定]
・使え ます[丁寧]か[疑問]
【0008】
非特許文献1の方法では、平均化パーセプトロンという手法で学習した識別モデルと、機能表現辞書及びフレーズテーブルとを用いて、1文内に出現する機能表現に対して、最適な機能表現の意味ラベルを出力している。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】今村賢治、泉朋子、菊井玄一郎、佐藤理史、「述部機能表現の意味ラベルタガー」、言語処理学会第17回年次大会、pp.518−521、2011.
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかし、非特許文献1が対象としている入力は一文単位である。そのため、音声対話に出てくるような、「会話の流れによっては疑問を表す表現」に対しても一意のラベルを出力してしまう。例えば、以下の対話文を例に説明する。
【0011】
カスタマー:機種変更は、出来ないってことなんですよね。 (3)
オペレータ:はい、申し訳ございません。
【0012】
上記の対話文について、非特許文献1の方法を適用すると、(3)の場合、下記のように意味ラベルが付与され、「疑問」の情報を得ることができない。
【0013】
・出来ない[否定]って[同格]こと[名詞化]
な[判断]ん[判断]です[判断]よね[感嘆]
【0014】
仮に、「よね」という機能表現に対して「疑問」という意味ラベルを追加したとすると、次のような疑問表現ではないものにまで誤って「疑問」の意味ラベルが付与されてしまう。
【0015】
カスタマー:昨日から、携帯が動かないんですよね。 (4)
オペレータ:どのような症状でしょうか?
【0016】
(4)の場合、「動かない」という否定表現(トラブル表現)を表している。仮に「よね」という終助詞に対して「疑問」という意味ラベルを追加すると、非特許文献1の手法では、「疑問」の意味ラベルを出力してしまう。これは、非特許文献1の方法では、1文内の処理に閉じているためである。1文内では、(3)も(4)も前後の文字列(すなわち、「ん」、「です」及び「。」)は同じであり、1文内の単語の前後情報をもとに最適な意味ラベル列を付与する非特許文献1の方法の場合、両者の区別ができず、同じ意味ラベルを出力結果として出力してしまう。
【0017】
以上のように従来法では、1文内に閉じた処理を行っているため、音声対話に見られるような「会話の流れによっては疑問を表す表現」に対して最適な意味ラベルを付与することができない、という問題がある。
【0018】
本発明は上記問題点に鑑みてなされたものであり、会話の流れによって疑問表現になったり、断定表現になったりする述部の機能表現に対しても、適切な意味ラベルを付与することができる意味ラベル付与モデル学習装置、意味ラベル付与装置、意味ラベル付与モデル学習方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0019】
上記目的を達成するために、本発明の意味ラベル付与モデル学習装置は、複数の発話を示すテキストデータ各々を形態素解析した解析結果に含まれる機能表現及び応対表現に該機能表現及び該応対表現の意味を示す正解の意味ラベルが付与された複数の学習用データに基づいて、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成する学習用発話対作成手段と、少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、値が大きいほど意味ラベル付与の判定に有効であることを示す重みを定めた意味ラベル付与モデルを、前記学習用発話対作成手段により作成された学習用発話対から抽出された素性と前記重みとに基づいて、前記学習用発話対の機能表現及び応対表現各々に正解の意味ラベルが付与されるように学習する学習手段と、を含んで構成されている。
【0020】
本発明の意味ラベル付与モデル学習装置によれば、学習用発話対作成手段が、複数の発話を示すテキストデータ各々を形態素解析した解析結果に含まれる機能表現及び応対表現に機能表現及び応対表現の意味を示す正解の意味ラベルが付与された複数の学習用データに基づいて、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成する。そして、学習手段が、少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、値が大きいほど意味ラベル付与の判定に有効であることを示す重みを定めた意味ラベル付与モデルを、学習用発話対作成手段により作成された学習用発話対から抽出された素性と重みとに基づいて、学習用発話対の機能表現及び応対表現各々に正解の意味ラベルが付与されるように学習する。
【0021】
このように、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成してから、少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、その重みを定めた意味ラベル付与モデルを学習する。このため、述部の機能表現の意味ラベルを、その発話に対する応対表現の意味ラベルに基づいて判断することができ、会話の流れによって疑問表現になったり、断定表現になったりする述部の機能表現に対しても、適切な意味ラベルを付与することができる意味ラベル付与モデルを学習することができる。
【0022】
また、前記学習手段は、前記学習用発話対の機能表現及び応対表現各々に付与される意味ラベルの候補から、該機能表現及び応対表現毎にいずれかの候補を選択して並べた意味ラベル候補列の全ての組み合わせについて、該意味ラベル候補列各々から抽出された素性について前記意味ラベル付与モデルで定められた重みを用いたスコアを算出し、正解の意味ラベルの列と一致する意味ラベル候補列のスコアが最大となるように、前記意味ラベル付与モデルを学習することができる。
【0023】
また、前記応対表現は、発話者の問いかけに対する応対を表す表現であり、該応対表現の意味ラベルは、肯定及び否定を含むことができる。このような応対表現を用いることにより、結合された前の発話の述部の機能表現の意味ラベルを適切に判定することができる。
【0024】
また、本発明の意味ラベル付与装置は、連続する2つの発話を示す処理対象の形態素解析済みのテキストデータを結合して、付与用発話対を作成する付与用発話対作成手段と、前記付与用発話対作成手段により作成された付与用発話対から抽出された素性と、上記の意味ラベル付与モデル学習装置により学習された意味ラベル付与モデルとに基づいて、前記付与用発話対の機能表現及び応対表現各々に意味ラベルを付与する付与手段と、を含んで構成されている。これにより、述部の機能表現の意味ラベルを、その発話に対する応対表現の意味ラベルに基づいて判断することができ、会話の流れによって疑問表現になったり、断定表現になったりする述部の機能表現に対しても、適切な意味ラベルを付与することができる。
【0025】
また、本発明の意味ラベル付与モデル学習方法は、学習用発話対作成手段と、学習手段とを含む意味ラベル付与モデル学習装置における意味ラベル付与モデル学習方法であって、前記学習用発話対作成手段は、複数の発話を示すテキストデータ各々を形態素解析した解析結果に含まれる機能表現及び応対表現に該機能表現及び該応対表現の意味を示す正解の意味ラベルが付与された複数の学習用データに基づいて、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成し、前記学習手段は、少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、値が大きいほど意味ラベル付与の判定に有効であることを示す重みを定めた意味ラベル付与モデルを、前記学習用発話対作成手段により作成された学習用発話対から抽出された素性と前記重みとに基づいて、前記学習用発話対の機能表現及び応対表現各々に正解の意味ラベルが付与されるように学習する方法である。
【0026】
また、本発明の意味ラベル付与モデル学習プログラムは、コンピュータを、上記の意味ラベル付与モデル学習装置を構成する各手段として機能させるためのプログラムである。
【発明の効果】
【0027】
以上説明したように、本発明の意味ラベル付与モデル学習装置、方法、及びプログラムによれば、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成してから、少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、その重みを定めた意味ラベル付与モデルを学習する。このため、述部の機能表現の意味ラベルを、その発話に対する応対表現の意味ラベルに基づいて判断することができ、会話の流れによって疑問表現になったり、断定表現になったりする述部の機能表現に対しても、適切な意味ラベルを付与することができる意味ラベル付与モデルを学習することができる、という効果が得られる。
【0028】
また、本発明の意味ラベル付与装置によれば、処理対象のテキストデータから付与用発話対を作成してから、上記のように学習された意味ラベル付与モデルを用いることにより、会話の流れによって疑問表現になったり、断定表現になったりする述部の機能表現に対しても、適切な意味ラベルを付与することができる意味ラベル付与モデルを学習することができる、という効果が得られる。
【図面の簡単な説明】
【0029】
【図1】本実施の形態の意味ラベル付与装置の機能的構成を示すブロック図である。
【図2】応対ラベルを含んだ機能表現辞書の一例を示す図である。
【図3】正解コーパスの一例を示す図である。
【図4】発話対の作成を説明するための図である。
【図5】発話の終わりとそれに対応する応対の並びが素性として抽出されることを説明するための図である。
【図6】素性IDの一例を示す図である。
【図7】パラメータテーブルの一例を示す図である。
【図8】候補となる意味ラベルにより構築されたラティスの一例を示す図である。
【図9】ラティスから選択された意味ラベル列の一例を示す図である。
【図10】ラティスから選択された意味ラベル列の他の例を示す図である。
【図11】本実施の形態におけるモデル学習処理ルーチンの内容を示すフローチャートである。
【図12】本実施の形態における意味ラベル付与処理ルーチンの内容を示すフローチャートである。
【発明を実施するための形態】
【0030】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0031】
本実施の形態に係る意味ラベル付与装置10は、CPUと、RAMと、後述するモデル学習処理ルーチン及び意味ラベル付与処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、学習部20と付与部40とを含んだ構成で表すことができる。学習部20は更に、学習用発話対作成部22と、パラメータテーブル作成部24とを含んだ構成で表すことができ、付与部40は更に、付与用発話対作成部42と、意味ラベル付与部44とを含んだ構成で表すことができる。なお、パラメータテーブル作成部24が本発明の学習手段の一例である。
【0032】
また、後述するパラメータテーブル作成部24及び意味ラベル付与部44では、応対ラベルを含んだ機能表現辞書30が用いられる。機能表現辞書30は、機能表現の表層形とその機能表現の意味を示す意味ラベルとを格納した辞書である。機能表現辞書30は、非特許文献2(松吉俊、佐藤理史、宇津呂武仁、「日本語機能表現辞書の編纂」、自然言語処理、vol.14、No.5、pp123−146、2007)のような既存のものを用いてもよい。また、ID情報など他の情報が含まれていてもよい。更に、本実施の形態で用いる機能表現辞書30には、応対ラベルが含まれる。応対ラベルとは、応対表現に付与された意味ラベルである。応対表現とは、「はい」や「いいえ」など、発話者の問いかけに対する応対を表す表現である。この応対表現を用いて、機能表現に最適な意味ラベルを付与するため、機能表現辞書30に応対ラベルを追加する。例えば、「はい」、「そうですね」などの肯定を表す応対表現には[応対−肯定]という意味ラベルを与え、「いいえ」などの否定を表す応対表現には[応対−否定]という意味ラベルを与える。これらもまた、既存の応対表現辞書を用いてもよい。機能表現辞書30の一例を図2に示す。
【0033】
学習用発話対作成部22は、入力された正解コーパスから発話対を作成する。ここで、正解コーパスとは、テキストデータ(音声データの場合は、音声認識結果)を形態素解析し、解析結果である形態素列に対して、応対ラベルを含んだ機能表現辞書30に基づいて、適切な意味ラベル(正解ラベル)を予め人手で付与したコーパスである。正解コーパスの一例(上記(3)の対話文の例)を図3に示す。図3の例では、2段目が形態素解析後のテキストデータの表層形、3段目が形態素解析により形態素毎に付与された品詞等の形態素情報、及び3段目が機能表現辞書30に基づいて機能表現及び応対表現に付与された正解ラベルである。また、1段目は、テキストデータの発話者を識別するための発話者情報が付与されている。
【0034】
学習用発話対作成部22は、入力された正解コーパスに付与された発話者情報に基づいて、発話者が交代した箇所を検出して、発話者が交代する前の発話と後の発話とを結合した発話対を作成する。以下では、学習用発話対作成部22で作成される発話対を、後述する付与用発話対作成部42で作成される発話対と区別するため、「学習用発話対」という。付与用発話対作成部42で作成される発話対は「付与用発話対」という。両者の区別なく説明する場合には、単に「発話対」ともいう。本実施の形態では、入力文に対して発話対を処理の単位とすることで、応対パターンをもとに疑問表現か否かを認定する点に特徴がある。そこで、学習用発話対作成部22により、処理単位となる学習用発話対を作成するものである。
【0035】
例えば、下記のような対話の場合、「A−B」、「C−D」、及び「E−F」が発話対として作成される。なお、発話対とならない文に対しては、通常の意味ラベル付与処理を行う(すなわち、一文を処理単位とする)。
【0036】
オペレータ:お電話ありがとうございます、担当の鈴木です。 A
カスタマー:あの、すみません。 B
昨日からずっとパソコンがつながらないんですよね。 C
オペレータ:パソコンがつながらないということですね。 D
具体的にどのような症状が出ておりますか? E
カスタマー:えっと、・・・ F
【0037】
より具体的には、学習用発話対作成部22は、発話対となる連続する発話と発話とを結合した一文を作成する。例えば、図4に示すように、形態素解析結果として付与されている発話の文末記号(ここでは<EOS>)を削除し、発話対となる発話同士を発話順に結合させることで発話対を作成する。このように発話対を作成して、この発話対を処理単位とすることにより、前の発話における述部の機能表現に対する最適な意味ラベルを推定するために、その発話に対する応対を素性として用いることができる。
【0038】
パラメータテーブル作成部24は、形態素毎に付与された「意味ラベル」及び「形態素情報」を素性として、非特許文献1と同様の方法により、意味ラベル付与モデルとして、形態素列及び意味ラベル列のパラメータテーブルを学習する。パラメータテーブルは、テキストデータから抽出される素性に対する重み(値が大きいほど意味ラベル付与の判定にその素性が有効であることを示す)を格納したテーブルである。本実施の形態で用いられる素性には、図5に示すように、発話対を処理単位として抽出される素性を用いる。すなわち、発話対の前の発話の終わりに表れる機能表現の意味ラベルと、それに対する後の発話の初めに表れる応対表現の意味ラベルとの並びの2−gramを素性として用いることができる。このように、意味ラベル付与モデルを学習するための処理単位を発話対とし、また対象の形態素に対して前後の形態素に付与された意味ラベルを素性として加えることが必須である(2−gram以上を素性として含めることが必須)。その他の素性として、1−gram素性や、非特許文献1のようにマッピング素性(形態素情報から意味ラベルの出現し易さ)を使用してもよい。図6に素性IDの一例を示す。例えば、素性ID「LP2」は、「意味ラベルの2−gram(2つの意味ラベルの並び)」の素性を表している。また、素性ID「LW3」は、表層文字列と意味ラベルの3−gram(3つの「表層文字,意味ラベル」の並び)」の素性を表している。
【0039】
これらの各素性に対する重みを、例えば、図7に示すようなパラメータテーブルとして定める。図7では、例えば、「[疑問],[応対−肯定]」という2つの意味ラベルの並びの素性に“3.2”の重みが振られている。素性に対する重みの学習前の段階では、各素性に対する重みは、適当な初期値を設定しておく。パラメータテーブル作成部24は、このパラメータテーブルを、正解コーパスから作成された学習用発話対を用いて学習する。
【0040】
より具体的には、学習用発話対作成部22で作成された学習用発話対の形態素情報と機能表現辞書30とを用いて、各形態素について候補となる意味ラベルを全て含んだラティスを構築する。なお、機能表現辞書30に含まれておらず、かつ機能語相当の品詞(助詞・助動詞・動詞−非自立・名詞−非自立)の形態素には[NULL]の意味ラベルを振る。機能表現辞書30にも含まれず、機能語相当の品詞の形態素でもない場合には、[*]の意味ラベルを振る。構築されたラティスの一例を図8に示す。
【0041】
ラティスが構築されたら、ラティス構造から最尤パスを探索する。具体的には、まず、発話対の解析結果である形態素列について、各形態素について出力された意味ラベルの候補からいずれかの候補を選択した意味ラベル候補の組み合わせをフレーズ列として、想定される全ての組み合わせのフレーズ列を作成する。そして、フレーズ列の中で、最も尤もらしいフレーズ列を、パラメータテーブルをもとに計算する。本実施の形態では、非特許文献1に沿って下記の式を満たすフレーズ列を探索し、最尤パスとして出力する。
【0042】
【数1】
【0043】
ここで、Pはフレーズ列、fk(P)はフレーズ列Pが与えられたときのk番目の素性、wkは素性fk(P)に対応する重みであり、上記のように初期値を設定して作成したパラメータテーブルを検索することで得られる。すなわち、wkfk(P)は、各フレーズ列のスコアであり、各フレーズ列についてこのスコアを計算し、スコアが最大となるフレーズ列を最尤パスとする。探索された最尤パスが、正解のフレーズ列となるようにパラメータテーブルの重みを学習する。最尤パスと正解のフレーズ列とが一致した場合に、学習の処理を終了する。スコアの計算には動的計画法を用いることができる。図8において、図中太枠で示される意味ラベルの列が最尤パスである。このように学習されたパラメータテーブルを学習モデル32として記憶する。
【0044】
付与用発話対作成部42は、入力された意味ラベル付与対象のテキストデータに基づいて、付与用発話対を作成する。ここで入力されるテキストデータは、形態素解析済みの対話文である。付与用発話対の作成方法は、学習用発話対作成部22と同様である。
【0045】
意味ラベル付与部44は、付与用発話対作成部42で作成された付与用発話対の形態素情報と応対ラベルを含んだ機能表現辞書30とを用いて、各形態素について候補となる意味ラベルを全て含んだラティスを構築する。ラティスの構築方法の詳細は、パラメータテーブル作成部24におけるラティス構築方法と同様である。
【0046】
また、意味ラベル付与部44は、パラメータテーブル作成部24により学習されたパラメータテーブル(学習モデル32)に基づいて、構築されたラティス構造から最尤パスを探索することで、最も尤もらしい意味ラベルを計算し、出力する。最尤パスの探索方法の詳細は、パラメータテーブル作成部24における最尤パスの探索方法と同様である。
【0047】
入力されたテキストデータに対するラティス、及び最尤パス計算によって出力された意味ラベル(図中太枠)の列の一例を、図9に示す。本実施の形態では、モデル学習の際に、発話対を素性の単位としており、そのため、「よね」の意味ラベル候補[疑問]と「はい」の意味ラベル候補[応対‐肯定]との並びが素性として抽出される。パラメータテーブル内を参照すると、その素性に対して高い重みが定められている。これは、ある機能表現に対して、[応対‐肯定]の意味ラベルを有する応対表現が続いている場合には、その機能表現の意味ラベルとしては[疑問]が適切であることを示している。また、意味ラベル付与の際にも発話対を処理単位としているため、前の発話の終わりに表れる機能表現と、それに対する後の発話の初めに表れる応対表現との並びの素性を抽出することができる。これにより、「よね」に対して正しく[疑問]の意味ラベルを付与することができる。
【0048】
ここで、他の例として、上記(4)のテキストデータが意味ラベル付与の対象として入力された場合について説明する。まず、付与用発話対作成部42で、付与用発話対を作成する。そして、意味ラベル付与部44で、ラティスを構築し、パラメータテーブル作成部24で学習されたパラメータテーブルの素性に対する重みに基づいて、最適な意味ラベル列を出力する(図10、出力された意味ラベル列を太枠で示す)。モデル学習時に発話対を処理単位としているため、パラメータテーブルにおいて、「よね」かつ[感嘆]と「どの(意味ラベルはなし)」との並びの素性の方が、「よね」かつ[疑問]と「どの(意味ラベルはなし)」との並びの素性より大きい重みが振られている。また、意味ラベル付与の処理単位も発話対となっている。結果、図10に示すパターンでは、「よね」に対する意味ラベルは「感嘆」が尤もらしいと正しく認定することができ、誤って「疑問」の意味ラベルが付与されることを防ぐことができる。
【0049】
次に、図11を参照して、本実施の形態の意味ラベル付与装置10において実行されるモデル学習処理ルーチンについて説明する。
【0050】
ステップ100で、形態素解析結果(表層形及び形態素)に対して、機能表現及び応対表現の正解ラベル、並びに発話者情報が付与された正解コーパスを取得する。
【0051】
次に、ステップ102で、上記ステップ100で取得した正解コーパスに付与された発話者情報に基づいて、発話者が交代した箇所を検出して、発話者が交代する前の発話と後の発話とを結合した学習用発話対を作成する。
【0052】
次に、ステップ104で、形態素毎に付与された「意味ラベル」及び「形態素情報」を素性として、各素性に対する重みを格納したパラメータテーブルを作成する。ここでは、各素性に対する重みは、適当な初期値を設定する。また、素性には、発話対の前の発話の終わりに表れる機能表現の意味ラベルと、それに対する後の発話の初めに表れる応対表現の意味ラベルとの並びの2−gramの素性を用いることを必須とする。
【0053】
次に、ステップ106で、上記ステップ102で作成された発話対の形態素情報と機能表現辞書30とを用いて、各形態素について候補となる意味ラベルを全て含んだラティスを構築する。そして、ラティス構造から、意味ラベルの候補からいずれかの候補を選択した意味ラベル候補の組み合わせのフレーズ列を作成する。そして、フレーズ列の中で、最も尤もらしいフレーズ列を、パラメータテーブルをもとに計算して、最尤パスとして探索する。
【0054】
次に、ステップ108で、上記ステップ106で探索された最尤パスと正解のフレーズ列とが一致したか否かを判定する。一致していない場合には、ステップ110へ移行して、探索される最尤パスが正解のフレーズとなるようにパラメータテーブルの重みを学習して、ステップ106へ戻る。最尤パスと正解のフレーズ列とが一致した場合には、ステップ112へ移行して、学習されたパラメータテーブルを学習モデル32として記憶して、モデル学習処理を終了する。
【0055】
次に、図12を参照して、本実施の形態の意味ラベル付与装置10において実行される意味ラベル付与処理ルーチンについて説明する。
【0056】
ステップ140で、意味ラベル付与対象のテキストデータ(形態素解析済みの対話文)を取得する。次に、ステップ142で、モデル学習処理のステップ102と同様の処理により、上記ステップ140で取得したテキストデータに基づいて、付与用発話対を作成する。
【0057】
次に、ステップ144で、モデル学習処理のステップ106と同様の処理により、上記ステップ142で作成された付与用発話対の形態素情報と機能表現辞書30とを用いてラティスを構築し、最尤パスを探索する。この際、モデル学習処理により学習されたパラメータテーブルを参照する。
【0058】
次に、ステップ146で、最尤パスとして選択された意味ラベル列を、各形態素に付与された意味ラベル列として出力し、意味ラベル付与処理を終了する。
【0059】
以上説明したように、本実施の形態の意味ラベル付与装置によれば、正解コーパスから作成された発話対を処理単位とし、機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を加えて、意味ラベル付与モデル(パラメータテーブル)を学習することができる。これにより、相手の受け答えの仕方によって疑問となったり断定となったりする述部の表現を正しく区別する意味ラベル付与モデルを作成することができる。また、意味ラベル付与時にも、対象のテキストデータから作成された付与用発話対を処理単位とするため、前の発話の終わりの機能表現の意味ラベルと、それに対する応対表現の意味ラベルの並びの素性を抽出することができる。これにより、上記のように発話対単位で学習したパラメータテーブルを参照することで、会話の流れによって疑問表現になったり、断定表現になったりする述部に対しても、適切な意味ラベルを付与することができる。
【0060】
また、このように適切に意味ラベルを付与することができるため、お客様の疑問や要望などを抽出、集計、及び分析するテキストマイニング技術の精度を向上させることができる。
【0061】
なお、上記の実施の形態では、学習部と付与部とを同一のコンピュータで構成する場合について説明したが、別々のコンピュータで構成するようにしてもよい。
【0062】
また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0063】
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0064】
10 意味ラベル付与装置
20 学習部
22 学習用発話対作成部
24 パラメータテーブル作成部
30 応対ラベルを含む機能表現辞書
32 学習モデル
40 付与部
42 付与用発話対作成部
44 意味ラベル付与部
【特許請求の範囲】
【請求項1】
複数の発話を示すテキストデータ各々を形態素解析した解析結果に含まれる機能表現及び応対表現に該機能表現及び該応対表現の意味を示す正解の意味ラベルが付与された複数の学習用データに基づいて、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成する学習用発話対作成手段と、
少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、値が大きいほど意味ラベル付与の判定に有効であることを示す重みを定めた意味ラベル付与モデルを、前記学習用発話対作成手段により作成された学習用発話対から抽出された素性と前記重みとに基づいて、前記学習用発話対の機能表現及び応対表現各々に正解の意味ラベルが付与されるように学習する学習手段と、
を含む意味ラベル付与モデル学習装置。
【請求項2】
前記学習手段は、前記学習用発話対の機能表現及び応対表現各々に付与される意味ラベルの候補から、該機能表現及び応対表現毎にいずれかの候補を選択して並べた意味ラベル候補列の全ての組み合わせについて、該意味ラベル候補列各々から抽出された素性について前記意味ラベル付与モデルで定められた重みを用いたスコアを算出し、正解の意味ラベルの列と一致する意味ラベル候補列のスコアが最大となるように、前記意味ラベル付与モデルを学習する請求項1記載の意味ラベル付与モデル学習装置。
【請求項3】
前記応対表現は、発話者の問いかけに対する応対を表す表現であり、該応対表現の意味ラベルは、肯定及び否定を含む請求項1または請求項2記載の意味ラベル付与モデル学習装置。
【請求項4】
連続する2つの発話を示す処理対象の形態素解析済みのテキストデータを結合して、付与用発話対を作成する付与用発話対作成手段と、
前記付与用発話対作成手段により作成された付与用発話対から抽出された素性と、請求項1〜請求項3のいずれか1項記載の意味ラベル付与モデル学習装置により学習された意味ラベル付与モデルとに基づいて、前記付与用発話対の機能表現及び応対表現各々に意味ラベルを付与する付与手段と、
を含む意味ラベル付与装置。
【請求項5】
学習用発話対作成手段と、学習手段とを含む意味ラベル付与モデル学習装置における意味ラベル付与モデル学習方法であって、
前記学習用発話対作成手段は、複数の発話を示すテキストデータ各々を形態素解析した解析結果に含まれる機能表現及び応対表現に該機能表現及び該応対表現の意味を示す正解の意味ラベルが付与された複数の学習用データに基づいて、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成し、
前記学習手段は、少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、値が大きいほど意味ラベル付与の判定に有効であることを示す重みを定めた意味ラベル付与モデルを、前記学習用発話対作成手段により作成された学習用発話対から抽出された素性と前記重みとに基づいて、前記学習用発話対の機能表現及び応対表現各々に正解の意味ラベルが付与されるように学習する
意味ラベル付与モデル学習方法。
【請求項6】
コンピュータを、請求項1〜請求項3のいずれか1項記載の意味ラベル付与モデル学習装置を構成する各手段として機能させるための意味ラベル付与モデル学習プログラム。
【請求項1】
複数の発話を示すテキストデータ各々を形態素解析した解析結果に含まれる機能表現及び応対表現に該機能表現及び該応対表現の意味を示す正解の意味ラベルが付与された複数の学習用データに基づいて、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成する学習用発話対作成手段と、
少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、値が大きいほど意味ラベル付与の判定に有効であることを示す重みを定めた意味ラベル付与モデルを、前記学習用発話対作成手段により作成された学習用発話対から抽出された素性と前記重みとに基づいて、前記学習用発話対の機能表現及び応対表現各々に正解の意味ラベルが付与されるように学習する学習手段と、
を含む意味ラベル付与モデル学習装置。
【請求項2】
前記学習手段は、前記学習用発話対の機能表現及び応対表現各々に付与される意味ラベルの候補から、該機能表現及び応対表現毎にいずれかの候補を選択して並べた意味ラベル候補列の全ての組み合わせについて、該意味ラベル候補列各々から抽出された素性について前記意味ラベル付与モデルで定められた重みを用いたスコアを算出し、正解の意味ラベルの列と一致する意味ラベル候補列のスコアが最大となるように、前記意味ラベル付与モデルを学習する請求項1記載の意味ラベル付与モデル学習装置。
【請求項3】
前記応対表現は、発話者の問いかけに対する応対を表す表現であり、該応対表現の意味ラベルは、肯定及び否定を含む請求項1または請求項2記載の意味ラベル付与モデル学習装置。
【請求項4】
連続する2つの発話を示す処理対象の形態素解析済みのテキストデータを結合して、付与用発話対を作成する付与用発話対作成手段と、
前記付与用発話対作成手段により作成された付与用発話対から抽出された素性と、請求項1〜請求項3のいずれか1項記載の意味ラベル付与モデル学習装置により学習された意味ラベル付与モデルとに基づいて、前記付与用発話対の機能表現及び応対表現各々に意味ラベルを付与する付与手段と、
を含む意味ラベル付与装置。
【請求項5】
学習用発話対作成手段と、学習手段とを含む意味ラベル付与モデル学習装置における意味ラベル付与モデル学習方法であって、
前記学習用発話対作成手段は、複数の発話を示すテキストデータ各々を形態素解析した解析結果に含まれる機能表現及び応対表現に該機能表現及び該応対表現の意味を示す正解の意味ラベルが付与された複数の学習用データに基づいて、連続する2つの発話を示す学習用データを結合して、学習用発話対を作成し、
前記学習手段は、少なくとも機能表現の意味ラベルと応対表現の意味ラベルとの並びの素性を含む複数種類の素性各々について、値が大きいほど意味ラベル付与の判定に有効であることを示す重みを定めた意味ラベル付与モデルを、前記学習用発話対作成手段により作成された学習用発話対から抽出された素性と前記重みとに基づいて、前記学習用発話対の機能表現及び応対表現各々に正解の意味ラベルが付与されるように学習する
意味ラベル付与モデル学習方法。
【請求項6】
コンピュータを、請求項1〜請求項3のいずれか1項記載の意味ラベル付与モデル学習装置を構成する各手段として機能させるための意味ラベル付与モデル学習プログラム。
【図1】
【図2】
【図4】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図3】
【図5】
【図2】
【図4】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図3】
【図5】
【公開番号】特開2013−109738(P2013−109738A)
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願番号】特願2011−256677(P2011−256677)
【出願日】平成23年11月24日(2011.11.24)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願日】平成23年11月24日(2011.11.24)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]