説明

同一意図テキスト生成装置、意図推定装置および同一意図テキスト生成方法

【課題】異なる意図を示すテキストから新たなテキストを生成する。
【解決手段】テキスト解析部1はテキスト解析用辞書2を用いてテキストを形態素列にし、一致/差分テキスト抽出部3は意図の関係性に従って階層化した意図階層データ4を用いて、上位下位関係または同位の兄弟関係にある意図を抽出してこれら意図に対応付いたテキストから一致部分および不一致部分を抽出し、意図一致テキスト生成部6が一致部分および不一致部分を用いて、上位下位関係のいずれか一方の意図または兄弟関係のいずれか一方の意図を示す新たなテキストを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、テキストが表す意図に一致するテキストを生成する同一意図テキスト生成装置および同一意図テキスト生成方法、ならびに同装置を用いた意図推定装置に関するものである。
【背景技術】
【0002】
従来、テキストとその意図とが対応付けられたデータを基に、統計的な手法によって意図推定を行う方法が提案されている。この統計的意図推定方法では、基本的にはテキスト中に出現した単語、形態素列などを学習データの単位(キーワード)として、キーワードに対する意図の重要度を学習させる。従って、各意図の中で、特定のキーワードが特徴的に出現する場合に、その意図との対応付けの重みが大きくなるように学習することになる。
【0003】
従来、このような統計的意図推定方法によって学習を行う場合、学習データが均質でないと、複数の意図で同じように表現され出現してもよいと考えられる言い回しが、ある特定の意図に偏って出現するという問題が生じる。
ここで、テキストと意図とが対応付けられた組を、<テキスト、意図>の形で表現する。また、学習データには<ルートを選択したい、ルート変更[{対象=NULL}]>と、<一般道優先ルート、ルート変更[{対象=一般道優先}]>という発話が存在するとする。このとき、「一般道を通るルートを選択」という発話があった場合、この発話から「一般道」、「通る」、「ルート」、「選択」がキーワードとして抽出される。これらキーワードのうち、「ルート」および「選択」は「ルート変更[{対象=NULL}]」の意図で出現し、「一般道」および「ルート」は「ルート変更[{対象=一般道優先}]」の意図で出現するため、出現したキーワードと意図との対応付けの重みに基づいていずれか一方の意図が選択されることとなる。
【0004】
上記意図選択の結果として「ルート変更[{対象=NULL}]」が選択されるか、「ルート変更[{対象=一般道優先}]」が選択されるかは、学習データ中に現れるキーワードに大きく左右されるため、学習データを均質にするためには大量のデータを収集する必要がある。一方、設定する意図が細かくなると、その意図を説明するために詳細で具体的な説明を行わなくてはならない。すると、収集するデータがその説明中に現れるキーワードに引っ張られてしまい、収集データ中のキーワードが偏ってしまう可能性が高くなる。このように単純に学習データを収集すると意図推定精度が悪くなる可能性がある。
【0005】
このような学習データの偏りを解消する方法としては、同じ意味のテキストをシソーラスを用いて展開する方法がある。例えば特許文献1に係る文生成方法では、予め階層的に定義したキーワードが格納された文例データベースの中から、入力文中のキーワードと同じ意味を持つ文例キーワードを検索し、類似度に応じて入力文のキーワードを文例キーワードに置き換えることにより文を生成する。しかしながら、この方法では、予め用意した同義語および類義語を使用して文を生成するため、同義語によっては通常使わない単語の組み合わせを持つ文が生成される可能性がある。例えば、「有料道路を使って行く」という入力文において、「使う」の同義語としては「用いる」、「使用する」および「利用する」などの適当な置き換えの他に、「費やす」および「常用する」などの不適切な置き換えが発生する。しかし、特許文献1に係る文生成方法では、これら不適切な置き換えを制限することは難しいという問題があった。
【0006】
また、同義語自体を抽出する方法として、同じ意味のテキストを集め、その中で同じような言い回しをしている場所を同義語として抽出する方法がある。例えば特許文献2に係る同義語対抽出方法では、同義語を複数含む同意テキストから同意文対を生成し、同意文対間において共通する単語列からなる単語列対と互いに異なる単語列からなる単語列対とを抽出し、互いに異なる単語列を同義語として収集する。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2001−256222号公報
【特許文献2】特開2007−233446号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
以上のように、従来は同じ意図を示すテキストを基にして同じ意図の新たなテキストを生成することはできるが、異なる意図を示すテキストを基にしてこれら意図同士の違いを考慮した上で新たなテキストを適切に生成することは困難であった。
【0009】
また、特許文献1のようにシソーラスを用いたテキスト生成では、対象となるシステムが想定する意図の範囲を逸脱したテキストになる可能性が高かった。そのため、単純にシソーラスを用いて生成したテキストを使用して統計的意図推定方法の学習を行うと、かえって精度を下げてしまう可能性があった。その場合には特許文献2に係る方法を上記特許文献1に適用するなどして専用のシソーラスを生成し、このシソーラスを用いて同じ意味の文のバリエーションを生成することが必要となる。
【0010】
この発明は、上記のような課題を解決するためになされたもので、異なる意図を示すテキストから新たなテキストを生成することを目的とする。
【課題を解決するための手段】
【0011】
この発明に係る同一意図テキスト生成装置は、テキストと当該テキストが示す意図とが対になった組の集合データを入力とし、テキスト解析用辞書を用いて当該テキストを所定単位に分割するテキスト解析部と、意図同士の関係性に従って階層化した意図階層データを用いて、集合データから所定の関係性がある複数の意図を選択し、当該複数の意図と対になった複数のテキストについてテキスト解析部が分割した単位を最小単位にした一致部分および不一致部分を抽出する一致/差分テキスト抽出部と、一致/差分テキスト抽出部が抽出した一致部分および不一致部分を用いて、特定の意図に一致する新たなテキストを生成する意図一致テキスト生成部とを備えるものである。
【0012】
この発明に係る意図推定装置は、上述の同一意図テキスト生成装置が生成したテキストと当該テキストが示す意図とが対になった組のデータを用いて学習モデルを生成し、当該学習モデルを用いて処理対象テキストの意図を推定するものである。
【0013】
この発明に係る同一意図テキスト生成方法は、テキストと当該テキストが示す意図とが対になった組の集合データを入力とし、テキスト解析用辞書を用いて当該テキストを所定単位に分割するテキスト解析ステップと、意図同士の関係性に従って階層化した意図階層データを用いて、集合データから所定の関係性がある複数の意図を選択し、当該複数の意図と対になった複数のテキストについてテキスト解析部が分割した単位を最小単位にした一致部分および不一致部分を抽出する一致/差分テキスト抽出ステップと、一致/差分テキスト抽出ステップが抽出した一致部分および不一致部分を用いて、特定の意図に一致する新たなテキストを生成する意図一致テキスト生成ステップとを備えるものである。
【発明の効果】
【0014】
この発明によれば、所定の関係性がある複数の意図と対になった複数のテキストについて一致部分および不一致部分を抽出し、一致部分および不一致部分を用いて特定の意図に一致する新たなテキストを生成するようにしたので、異なる意図を示すテキストから新たなテキストを生成することのできる同一意図テキスト生成装置および同一意図テキスト生成方法を提供できる。
【0015】
この発明によれば、上述の同一意図テキスト生成装置が生成したテキストと当該テキストが示す意図が対になった組のデータを用いるようにしたので、偏りのある学習データおよび少ない学習データで学習した場合に起こる過学習を抑えることができ、適切な意図推定結果を得ることのできる意図推定装置を提供できる。
【図面の簡単な説明】
【0016】
【図1】この発明の実施の形態1に係る同一意図テキスト生成装置の構成を示すブロック図である。
【図2】同一意図テキスト生成装置が入力に用いる集合データの一例を示す図である。
【図3】テキスト解析部による図2の集合データのテキスト解析結果の一例を示す図である。
【図4】意図階層データに格納された階層データの一例を示す図である。
【図5】実施の形態1に係る同一意図テキスト生成装置の動作を示すフローチャートである。
【図6】実施の形態1に係る同一意図テキスト生成装置の動作を示すフローチャートであり、図5の続きである。
【図7】上位下位関係の意図に対応するテキストから新たなテキストを生成する例を示す図である。
【図8】同位階層の兄弟意図に対応するテキストから新たなテキストを生成する例を示す図である。
【発明を実施するための形態】
【0017】
実施の形態1.
図1に示す同一意図テキスト生成装置は、入力テキストと意図とが対応付けられた集合用データを解析するテキスト解析部1と、テキスト解析結果から一致/差分テキストを抽出する一致/差分テキスト抽出部3と、一致/差分テキストを用いて入力テキストの意図に一致する意図一致テキストを生成する意図一致テキスト生成部6とで構成される。また、同一意図テキスト生成装置には、予め、テキスト解析部1がテキスト解析に用いるテキスト解析用辞書2と、一致/差分テキスト抽出部3がテキスト抽出に用いる意図階層データ4および同義語辞書5とが設定されている。なお、詳細は後述するが、同義語辞書5は必須ではなく、一致/差分テキスト抽出部3は同義語辞書5を利用してもよいし利用しなくてもよい。
【0018】
次に、同一意図テキスト生成装置の動作を説明する。
図2は、同一意図テキスト生成装置が入力に用いる集合データの一例を示す図であり、入力テキストとそれに対応する意図とが組になっている。テキスト解析部1は、図2に示すような集合データが入力されると、テキスト解析用辞書2を参照して入力テキストを形態素列に分割し、テキスト解析結果として一致/差分テキスト抽出部3へ出力する。テキスト解析の手法としては公知の形態素解析手法を用いればよいため、ここでの詳細な説明は省略する。また、テキスト解析用辞書2の構成も公知の形態素解析用の辞書構成であればよいため、説明を省略する。
【0019】
図3は、テキスト解析部1による図2の集合データのテキスト解析結果の一例であり、形態素列に分割された入力テキストとそれに対応する意図とが組になっている。例えば入力テキスト「ルート/を/選択し/たい」は、各形態素「ルート」、「を」、「選択し」および「たい」をそれぞれ見出しとし、各見出しには品詞の情報、活用形の情報などが紐付けられているものとする。以下では、図3に示すテキスト解析結果を例に用いて説明する。
【0020】
図4は、意図階層データ4に格納された階層データの一例である。意図は、上位下位で親子関係にある下位の意図がより上位の意図を具体化したものであること、および、同位の兄弟関係にある意図同士が類似した概念であることに則って階層化されている。図4の例では、ルート変更[{対象=NULL}]41、ルート変更[{対象=一般道優先}]42、およびルート変更[{対象=有料優先}]43がそれぞれ意図である。このルート変更[{対象=NULL}]41は上位意図、ルート変更[{対象=一般道優先}]42およびルート変更[{対象=有料優先}]43はルート変更[{対象=NULL}]41を親とした下位意図に当たる。また、ルート変更[{対象=一般道優先}]42とルート変更[{対象=有料優先}]43は同位の兄弟意図に当たる。
【0021】
図5および図6は、一致/差分テキスト抽出部3および意図一致テキスト生成部6の動作を示すフローチャートである。ステップST101において、一致/差分テキスト抽出部3は、テキスト解析結果に含まれる各意図から先ず上位下位関係にある意図を抽出する。一致/差分テキスト抽出部3は意図階層データ4に格納された階層構造をたどることで上位下位関係にある意図を抽出することができる。ここでは、図4に示すルート変更[{対象=NULL}]41が上位意図、ルート変更[{対象=一般道優先}]42が下位意図として抽出される。また、ルート変更[{対象=NULL}]41が上位意図、ルート変更[{対象=有料優先}]43が下位意図として抽出される。
【0022】
一致/差分テキスト抽出部3は、意図が抽出できると(ステップST102“YES”)、続いてステップST103において上位意図テキストUiと下位意図テキストDiから所定のマッチング条件を満たすテキストを抽出する。
マッチング条件としては、例えば以下のような3条件を設定する。
(a)上位意図と下位意図のテキスト解析結果に共通する形態素(以下、共通キーワード)を含む
(b)下位意図のテキスト解析結果において、共通キーワードを含む前方に名詞の形態素または連体修飾の形態素が存在し、かつ、共通キーワードより後方に形態素が存在しない
(c)上位意図のテキスト解析結果において、共通キーワードより前方に形態素が存在せず、かつ、共通キーワードの後方は助詞の形態素を介して他の形態素に接続している
【0023】
ルート変更[{対象=NULL}]41の上位意図とルート変更[{対象=一般道優先}]42の下位意図との関係で考えた場合、図3のテキスト解析結果より、上位意図に対応するテキスト解析結果(Ui)として「ルート/を/選択し/たい」、「ルート/変更」、「別/ルート/を/選ぶ」が抽出される。また、下位意図に対応するテキスト解析結果(Di)として「一般道/優先/ルート」、「下道/で/行く」、「お金/が/掛か/ら/ない/道/が/いい」、「お金/が/要ら/ない/ルート」が抽出される。
【0024】
続いて一致/差分テキスト抽出部3は条件(a)に当てはまるテキストを選択する。
抽出された上位意図テキスト、下位意図テキストに共通するキーワードとして「ルート」があり、「ルート」を含み条件(a)を満たすのは、上位意図テキスト「ルート/を/選択し/たい」、「ルート/変更」、「別/ルート/を/選ぶ」と、下位意図テキスト「一般道/優先/ルート」、「お金/が/要ら/ない/ルート」である。
この共通キーワードは、上位下位関係にあるテキストの一致部分である。
【0025】
続いて一致/差分テキスト抽出部3は条件(b)に当てはまる下位意図テキストを選択する。
下位意図に当たる「一般道/優先/ルート」は、共通キーワード「ルート」を含む前方、即ち「一般道/優先/ルート」部分に名詞の形態素「一般道」と「優先」が存在し、かつ、共通キーワード「ルート」より後方には形態素が存在しないので、(b)の条件に当てはまる。
同じく下位意図に当たる「お金/が/要ら/ない/ルート」も、(b)の条件に当てはまる。
【0026】
続いて一致/差分テキスト抽出部3は条件(c)に当てはまる上位意図テキストを選択する。
上位意図に当たる「ルート/を/選択し/たい」は、共通キーワード「ルート」の前方に形態素が存在せず、かつ、助詞の形態素「を」を介して形態素「選択し」に接続しているので、(c)の条件に当てはまる。
一方、上位意図に当たる「ルート/変更」は、共通キーワードの前方に形態素が存在しないが、「ルート」が助詞を介せず形態素「変更」に接続するので、(c)の条件に当てはまらない。
また、上位意図に当たる「別/ルート/を/選ぶ」は、共通キーワード「ルート」の前方に形態素「別」が存在するので、(c)の条件に当てはまらず除外する。
【0027】
続いて一致/差分テキスト抽出部3は、ステップST104においてマッチング条件を満たすテキストが存在すれば(ステップST104“YES”)、続くステップST105へ進む。ここでは、マッチング条件を満たす上位意図テキスト「ルート/を/選択し/たい」と、下位意図テキスト「一般道/優先/ルート」および「お金/が/要ら/ない/ルート」が存在するので、ステップST105へ進む。
一方、存在しなければ(ステップST104“NO”)、ステップST101の処理に戻り、上位下位関係の意図を上位から下位に(または下位から上位に)順番に抽出していく。ここでは、次にルート変更[{対象=NULL}]41とルート変更[{対象=有料優先}]43の上位下位関係が抽出される。
【0028】
ここで、一致/差分テキスト抽出部3が、汎用の同義語辞書(シソーラス)5を参照して共通キーワードの同義語を取得し、同義語を共通キーワードとして扱うようにしてもよい。その場合には、例えば、共通キーワード「ルート」の同義語である「経路」、「道筋」などが上位下位のテキストに含まれていれば、そのテキストも共通キーワード「ルート」を含むものとして上記条件(a)〜(c)を検討する。同義語辞書5を用いた場合には、共通キーワード(即ち一致部分)をより柔軟に抽出することができる。
【0029】
続いて一致/差分テキスト抽出部3は、ステップST105において、条件を満たす上位意図テキストUiと下位意図テキストDiの間で一致しない不一致部分を、形態素を最小単位として抽出し、意図一致テキスト生成部6へ出力する。
図7に、上位下位関係の意図に対応するテキストから新たなテキストを生成する例を示す。図7の例では、一致/差分テキスト抽出部3が、上位意図テキストUiの不一致部分Ui’「を/選択し/たい」を抽出する。
【0030】
続いて意図一致テキスト生成部6は、ステップST106において、上位意図テキストUiの不一致部分Ui’を共通キーワード(一致部分)を含む下位意図テキストDiに接続して「一般道/優先/ルート/を/選択し/たい」という新たなテキストを生成する。また、意図一致テキスト生成部6は、新たに生成したテキストに下位意図であるルート変更[{対象=一般道優先}]42を対応付ける。
【0031】
また、意図一致テキスト生成部6は、マッチング条件を満たすテキストとして抽出しておいたもう一方の下位意図テキストDi「お金/が/要ら/ない/ルート」に対しても、ステップST105において抽出された上位意図テキストUiの不一致部分Ui’「を/選択し/たい」を接続して「お金/が/要ら/ない/ルート/を/選択し/たい」という新たなテキストを生成し、下位意図であるルート変更[{対象=一般道優先}]42と対応付ける。
【0032】
その後、再びステップST103に戻り、他に共通キーワードがあればその共通キーワードについて上記処理を行い意図一致テキストを生成する。
【0033】
他方、意図の上位下位関係を順番に抽出し終わると(ステップST102“NO”)、図6に示すステップST111へ進み、同位階層にある兄弟関係の意図の処理へ移行する。
ステップST111において、一致/差分テキスト抽出部3は、テキスト解析結果に含まれる各意図について上位下位関係と同様に兄弟関係を抽出する。ここでは、図4に示すルート変更[{対象=一般道優先}]42とルート変更[{対象=有料優先}]43とが同位の兄弟意図として抽出されたものとする。
【0034】
一致/差分テキスト抽出部3は、兄弟関係の意図が抽出できると(ステップST112“YES”)、続いてステップST113において兄弟関係の意図それぞれに対応するテキスト解析結果から所定のマッチング条件を満たすテキストを抽出する。
マッチング条件としては、例えば以下のような2条件を設定する。
(d)兄弟意図テキストCi,Cjのテキスト解析結果の後方が一致する
(e)兄弟意図テキストCi,Cjのテキスト解析結果の後方一致部分の前方が同じ意味の助詞をはさんでともに同じ形態素品詞を所有している
【0035】
図3に示すテキスト解析結果からは、ルート変更[{対象=一般道優先}]42の兄弟意図テキストCiとして「一般道/優先/ルート」、「下道/で/行く」、「お金/が/掛か/ら/ない/道/が/いい」、「お金/が/要ら/ない/ルート」が抽出される。また、ルート変更[{対象=有料優先}]43の兄弟意図テキストCjとして「有料/優先/ルート/で/行く」、「有料/道路/を/使っ/て/行く」、「有料/優先/ルート/が/いい/な」が抽出される。
【0036】
続いて一致/差分テキスト抽出部3は条件(d)に当てはまるテキストを選択する。
抽出された兄弟意図テキストCi,Cjに後方一致する、即ち共通キーワード「行く」を含む「下道/で/行く」、「有料/優先/ルート/で/行く」、「有料/道路/を/使っ/て/行く」が選択される。
この共通キーワードは、同位階層の兄弟関係にあるテキストの一致部分である。
なおこのとき、上記同様に、一致/差分テキスト抽出部3が共通キーワードの同義語を同義語辞書5から取得して、同義語を共通キーワードとして扱ってマッチング条件を検討してもよい。
【0037】
続いて一致/差分テキスト抽出部3は条件(e)に当てはまるテキストを選択する。
条件(d)に従って選択した上記3テキストは、直前の助詞が「で」であり、さらに前方の形態素が「下道」または「ルート」の名詞であるので品詞が同じであり条件(e)に当てはまる。
【0038】
よって、ステップST113のマッチング条件を満たすのは、兄弟意図テキストCi「下道/で/行く」と、兄弟意図テキストCj「有料/優先/ルート/で/行く」である。
【0039】
続いて一致/差分テキスト抽出部3は、ステップST114においてマッチング条件を満たすテキストが存在すれば(ステップST114“YES”)、続くステップST115へ進む。
一方、存在しなければ(ステップST114“NO”)、ステップST111の処理に戻り、同位階層(または他の階層)の他の兄弟関係の意図を順番に抽出していく。
【0040】
続いて一致/差分テキスト抽出部3は、ステップST115において、兄弟意図テキストCiのうちの兄弟意図テキストCjに一致しない不一致部分Ci’と、兄弟意図テキストCjのうちの兄弟意図テキストCiに一致せずかつ共通キーワードと同義の不一致一致部分Cj’とを、形態素を最小単位として抽出し、意図一致テキスト生成部6へ出力する。
【0041】
図8に、兄弟関係の意図に対応するテキストから新たなテキストを生成する例を示す。図8の例では、一致/差分テキスト抽出部3が先ず兄弟意図テキストCi,Cj間で一致しない「下道」および「有料/優先/ルート」を不一致部分として抽出する。「下道」は不一致部分Ci’とする。
【0042】
ここで、ルート変更[{対象=一般道優先}]42とルート変更[{対象=有料優先}]43とは兄弟意図であることから、「下道」と「有料/優先/ルート」は、それぞれ意図を特徴付けるキーワードであると分かる。従って、同じ意図に対応付けられたテキスト「有料/優先/ルート」は同義の表現と判断できる。そこで、一致/差分テキスト抽出部3は、ルート変更[{対象=有料優先}]43に対応付けられたテキストから上記不一致部分と同じ部分を含むテキストを抽出する。図8の例では不一致部分「有料/優先/ルート」を含む「有料/優先/ルート/が/いい/な」が該当する。ここで抽出された兄弟意図テキストCjの「有料/優先/ルート/が/いい/な」と「有料/優先/ルート/で/行く」の不一致部分「が/いい/な」と「で/行く」は、ルート変更[{対象=有料優先}]43の中では同義の表現であると判断できる。従って、一致/差分テキスト抽出部3はこの「が/いい/な」を不一致一致部分Cj’として抽出する。
【0043】
続いて意図一致テキスト生成部6は、ステップST116において、兄弟意図テキストCiの一致部分「で/行く」を兄弟意図テキストCjの不一致一致部分Cj’「が/いい/な」で置き換えて、「下道/が/いい/な」という新たなテキストを生成する。また、意図一致テキスト生成部6は、新たに生成したテキストにルート変更[{対象=一般道優先}]42を対応付ける。
【0044】
その後、再びステップST113に戻り、他に共通キーワードがあればその共通キーワードについて上記処理を行い意図一致テキストを生成する。
他方、意図の同位関係を順番に抽出し終わると(ステップST112“NO”)、同一意図テキスト生成装置は一連の処理を終了する。
【0045】
先立って説明した特許文献1の文生成方法では、特許文献2の同義語抽出方法などから作成したシソーラスを用いて、単純に同一意図の中でテキストのバリエーションを生成していた。この方法は、同一意図の中でしか実行できない。一方、本発明でターゲットとしている統計的な意図を学習する方式では、異なる意図間での違いを学習することが重要であり、同一の意図の中での表現のバリエーション不足は、統計的な学習方式の中で自動的にある程度学習される。そのため、異なる意図間で同じ意味の単語が使われたり、使われなかったりといったことは大きな影響を与えるが、同一意図の中でのテキストのバリエーションを事前に生成する必要性は高くない。また、同義語辞書5に相当するシソーラスも必須ではなく、利用する場合にも汎用のシソーラスで足りる。
【0046】
また、先立って説明したように、特許文献1のようにシソーラスを用いたテキスト生成では、対象となるシステムが想定する意図の範囲を逸脱して生成してしまう可能性が高かったが、本発明において汎用のシソーラスを使って処理を行う場合は、マッチングの条件を比較対象となる2つの特定意図間で出現するものに限定することになるため、拡張される表現が例文中に現れたものだけにすることができ、逸脱を抑制できる。例えば「有料道路を使って行く」というルート選択の意図をもつ入力文中の「使う」に対して、「使用する」および「用いる」などは関連する意図の例文に含まれる可能性が高く、例文中から同義語として選択されるが、「費やす」および「常用する」などは例文中に現れないので選択されず、結果的に用語が限定されることになる。
【0047】
以上より、実施の形態1に係る同一意図テキスト生成装置は、入力テキストと当該入力テキストが示す意図とが対になった組の集合データを入力とし、テキスト解析用辞書2を用いて当該入力テキストを形態素単位に分割するテキスト解析部1と、下位の意図がより上位の意図を具体化する関係性になるよう階層化した意図階層データ4を用いて、集合データから上位下位の階層関係にある意図同士を選択し、当該意図同士と対になった複数の入力テキストについて形態素を最小単位にした一致部分および不一致部分を抽出する一致/差分テキスト抽出部3と、一致/差分テキスト抽出部3が抽出した一致部分および不一致部分を用いて新たな意図一致テキストを生成し、上位下位のいずれか一方の意図に対応付ける意図一致テキスト生成部6とを備えるように構成した。よって、単純に同一意図の中でテキストを生成するのではなく、上位下位関係の意図の間で表現を補ったテキストを生成することができる。
【0048】
また、実施の形態1によれば、同一意図から分岐した同位階層の兄弟関係にある意図同士が類似した概念を有する関係性になるよう階層化した意図階層データ4を用いて、一致/差分テキスト抽出部3が、集合データから同位階層の兄弟関係にある複数の意図を選択し、当該複数の意図と対になった複数の入力テキストについて一致部分および不一致部分を抽出し、意図一致テキスト生成部6が、一致部分および不一致部分を用いて新たな意図一致テキストを生成し、兄弟関係のいずれか一方の意図に対応付けるように構成した。よって、上記同様、単純に同一意図の中でテキストを生成するのではなく、兄弟関係の意図の間で表現を補ったテキストを生成することができる。
なお、同一意図テキスト生成装置は、上位下位関係の意図に対応するテキストから新たにテキストを生成する構成、および兄弟関係の意図に対応するテキストから新たにテキストを生成する構成のいずれか一方、またはその両方を備えるよう構成可能である。
【0049】
また、実施の形態1によれば、一致/差分テキスト抽出部3が入力テキストから一致部分を抽出するときに、表層的な形態素列の一致部分だけでなく、同義語辞書5を用いて同義表現を一致部分に含めて抽出する構成にしてもよい。この構成の場合には、一致部分をより柔軟に抽出することができる。
【0050】
また、実施の形態1では、テキスト解析部1は形態素解析により入力テキストを形態素列にし、一致/差分テキスト抽出部3はその入力テキストから形態素単位で一致部分および不一致部分を抽出し、意図一致テキスト生成部6がその一致部分および不一致部分を形態素単位で組み合わせて新たな意図一致テキストを生成するように構成したが、形態素解析に限定するものではない。
例えば、公知の技術である構文解析を用いてもよい。その場合には、テキスト解析部1は構文解析により入力テキストを木構造にし、一致/差分テキスト抽出部3はその入力テキストである木構造の部分マッチングを行って部分木単位で一致部分および不一致部分を抽出し、意図一致テキスト生成部6がその一致部分および不一致部分を部分木単位で組み合わせて新たな意図一致テキストを生成するように構成すればよい。構文解析を用いることにより、テキストの係り受け関係を考慮した部分マッチングができるので、形態素列で形態素単位にマッチングするよりも精度を高めることができる。
【0051】
また、実施の形態1ではマッチング条件として上位下位関係について(a)〜(c)の3条件を説明し、同位の兄弟関係について(d),(e)の2条件を説明したが、これらの条件は一例であり、その他の条件であってもよい。また、予めいくつかの条件パターンを外部データとして記述しておき、一致/差分テキスト抽出部3が必要に応じてマッチング条件を選択してもよい。
その際、新たに作成した意図一致テキストに対応付ける意図は、マッチング条件などに応じて、上位下位関係のどちらの意図を選択してもよく、また、同位階層の兄弟関係のどちらの意図を選択してもよい。
【0052】
また、実施の形態1では、意図階層データ4に意図の階層構造を予め定義するが、集合データに含まれる全ての意図を階層化する必要はなく、部分的な階層構造だけを定義してもよい。また、意図同士の相関関係が薄い場合には上位下位関係および兄弟関係として抽出しないようなフラグを予め定義してもよい。
【0053】
また、実施の形態1では日本語の集合データを例に用いて同一意図テキスト生成装置を説明したが、日本語以外の言語にも適用可能であることは言うまでもない。その場合には、テキスト解析部1が、各言語において公知となっている形態素解析または構文解析の手法を用いてテキスト解析を行うなどすればよい。
【0054】
また、実施の形態1では、同一意図テキスト生成装置が意図一致テキストと当該意図一致テキストが示す意図とが対になった組のデータを生成するまでの構成を説明したが、さらに、生成した組のデータを学習データに用いて学習モデルを作成し、その学習モデルを用いてテキストの意図を推定する意図推定装置を実現してもよい。この意図推定装置によれば上位下位関係の意図間および兄弟関係の意図間で表現を流用して生成された意図一致テキストを学習データに用いるので、表現のバリエーション不足を解消でき、従来の統計的意図推定方式での偏りのある学習データおよび少ない学習データで学習した場合に起こる過学習を抑えることができる。そのため、適切な意図推定結果を得ることができるようになる。
加えて、音声認識手段を意図推定装置の前段に適用することで、音声インタフェースにおける意図理解機能を実現することも可能である。
【0055】
上記以外であっても、本願発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
【符号の説明】
【0056】
1 テキスト解析部、2 テキスト解析用辞書、3 一致/差分テキスト抽出部、4 意図階層データ、5 同義語辞書、6 意図一致テキスト生成部。

【特許請求の範囲】
【請求項1】
テキストと当該テキストが示す意図とが対になった組の集合データを入力とし、テキスト解析用辞書を用いて当該テキストを所定単位に分割するテキスト解析部と、
意図同士の関係性に従って階層化した意図階層データを用いて、前記集合データから所定の関係性がある複数の意図を選択し、当該複数の意図と対になった複数のテキストについて前記テキスト解析部が分割した単位を最小単位にした一致部分および不一致部分を抽出する一致/差分テキスト抽出部と、
前記一致/差分テキスト抽出部が抽出した一致部分および不一致部分を用いて、特定の意図に一致する新たなテキストを生成する意図一致テキスト生成部とを備える同一意図テキスト生成装置。
【請求項2】
前記意図階層データは、下位の意図がより上位の意図を具体化した関係性にあり、
前記一致/差分テキスト抽出部は、前記集合データから上位下位の階層関係にある意図同士を選択し、当該意図同士と対になった複数のテキストについて一致部分および不一致部分を抽出することを特徴とする請求項1記載の同一意図テキスト生成装置。
【請求項3】
前記意図一致テキスト生成部は、前記一致/差分テキスト抽出部が上位下位の階層関係にある意図同士と対になった複数のテキストから抽出した一致部分および不一致部分を用いて新たなテキストを生成し、前記上位下位のいずれか一方の意図に対応付けることを特徴とする請求項2記載の同一意図テキスト生成装置。
【請求項4】
前記意図階層データは、同一意図から分岐した同位階層の兄弟関係にある意図同士が類似した概念を有する関係性にあり、
前記一致/差分テキスト抽出部は、前記集合データから同位階層の兄弟関係にある複数の意図を選択し、当該複数の意図と対になった複数のテキストについて一致部分および不一致部分を抽出することを特徴とする請求項1記載の同一意図テキスト生成装置。
【請求項5】
前記意図一致テキスト生成部は、前記一致/差分テキスト抽出部が同位階層の兄弟関係にある複数の意図と対になった複数のテキストから抽出した一致部分および不一致部分を用いて新たなテキストを生成し、前記兄弟関係のいずれか一方の意図に対応付けることを特徴とする請求項4記載の同一意図テキスト生成装置。
【請求項6】
前記テキスト解析部は、形態素解析によりテキストを形態素列にし、
前記一致/差分テキスト抽出部は、前記テキストから形態素単位で一致部分および不一致部分を抽出し、
前記意図一致テキスト生成部は、前記一致部分および不一致部分を形態素単位で組み合わせて新たなテキストを生成することを特徴とする請求項1から請求項5のうちのいずれか1項記載の同一意図テキスト生成装置。
【請求項7】
前記テキスト解析部は、構文解析によりテキストを木構造にし、
前記一致/差分テキスト抽出部は、前記テキストから部分木単位で一致部分および不一致部分を抽出し、
前記意図一致テキスト生成部は、前記一致部分および不一致部分を部分木単位で組み合わせて新たなテキストを生成することを特徴とする請求項1から請求項5のうちのいずれか1項記載の同一意図テキスト生成装置。
【請求項8】
前記一致/差分テキスト抽出部は、テキストから一致部分を抽出するときに、シソーラスを用いて同義表現を一致部分に含めて抽出することを特徴とする請求項1から請求項7のうちのいずれか1項記載の同一意図テキスト生成装置。
【請求項9】
請求項1から請求項8のうちのいずれか1項記載の同一意図テキスト生成装置が生成したテキストと当該テキストが示す意図とが対になった組のデータを用いて学習モデルを生成し、当該学習モデルを用いて処理対象テキストの意図を推定することを特徴とする意図推定装置。
【請求項10】
テキストと当該テキストが示す意図とが対になった組の集合データを入力とし、テキスト解析用辞書を用いて当該テキストを所定単位に分割するテキスト解析ステップと、
意図同士の関係性に従って階層化した意図階層データを用いて、前記集合データから所定の関係性がある複数の意図を選択し、当該複数の意図と対になった複数のテキストについて前記テキスト解析部が分割した単位を最小単位にした一致部分および不一致部分を抽出する一致/差分テキスト抽出ステップと、
前記一致/差分テキスト抽出ステップが抽出した一致部分および不一致部分を用いて、特定の意図に一致する新たなテキストを生成する意図一致テキスト生成ステップとを備える同一意図テキスト生成方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−164267(P2012−164267A)
【公開日】平成24年8月30日(2012.8.30)
【国際特許分類】
【出願番号】特願2011−25943(P2011−25943)
【出願日】平成23年2月9日(2011.2.9)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】