説明

言語処理装置

【課題】対話の進行状況に応じて、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成する確率モデルを使用した参照表現処理装置を提供する。
【解決手段】本発明による参照表現処理装置は、考えられる指示対象の集合である参照ドメイン(D)、参照ドメイン中の指示対象(X)、指示対象に関する概念(C)及び概念を表現する語(W)の間の関係を表す参照表現ベイジアンネットワークから構成された確率モデルによって、参照表現の理解及び生成の少なくとも一方を行う参照表現処理部と、前記参照表現ベイジアンネットワークを形成するのに必要なデータを記憶する記憶部と、を備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、参照表現を処理する参照表現処理装置、該参照表現処理装置を含む言語処理装置及び参照表現処理方法に関する。
【背景技術】
【0002】
たとえば、音声対話システムなどを使用して人間とロボットとがコミュニケーションを行う場合を考える。部屋の中に複数の机やいすがあり、人間が「赤い脚の白い机」という参照表現によって一つの机を指定したとする。ここで、参照表現とは話し手が関心を持つ特定の事物を聞き手に対して指し示す言語表現である。ロボットの言語処理装置が、この参照表現から人間の指定した机を特定する作業が参照表現の理解である。また、ロボットの言語処理装置が、ロボットが指定した机を人間に特定させるために、その机を表す、人間に理解しやすい表現を生成することが参照表現の生成である。人間による参照表現は、当然ながら人間の知識に依存するので、ロボットの言語処理装置は、参照表現の理解及び生成に際して、人間の知識に関する情報を利用する必要がある。
【0003】
言語処理装置が、参照表現の理解及び生成に際して、人間の知識に関する情報を利用するために確率モデルを使用することが考えられる。
【0004】
本出願の出願人と同一の出願人による特許文献1は、参照表現の物体の部分への言及を取り扱う言語処理装置及び該言語処理装置による言語処理において使用される確率演算方法を開示している。
【0005】
しかし、特許文献1は、対話の進行状況に応じて、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成する仕組みについては開示していない。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2010−224536号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
したがって、対話の進行状況に応じて、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成する確率モデルを使用した参照表現処理装置、言語処理装置及び参照表現処理方法に対するニーズがある。
【課題を解決するための手段】
【0008】
本発明の第1の態様による参照表現処理装置は、考えられる指示対象の集合である参照ドメイン(D)、参照ドメイン中の指示対象(X)、指示対象に関する概念(C)及び概念を表現する語(W)の間の関係を表す参照表現ベイジアンネットワークから構成された確率モデルによって、参照表現の理解及び生成の少なくとも一方を行う参照表現処理部と、前記参照表現ベイジアンネットワークを形成するのに必要なデータを記憶する記憶部と、を備えている。
【0009】
本態様による参照表現処理装置は、指示対象(X)、指示対象に関する概念(C)及び概念を表現する語(W)の間の関係を表す参照表現ベイジアンネットワークから構成された確率モデルを使用するので、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成することができる。また、表現ベイジアンネットワークは、考えられる指示対象の集合である参照ドメイン(D)を含むので、該参照表現処理装置は、状況に応じて参照表現を処理することができる。
【0010】
本発明の一つの実施形態による参照表現処理装置は、前記参照表現ベイジアンネットワークが対話の進行中に参照表現の処理ごとに形成されるように構成されている。
【0011】
本実施形態の参照表現処理装置によれば、対話の進行状況に合わせて参照表現を処理することができる。
【0012】
本発明の一つの実施形態による参照表現処理装置は、参照表現の種類によって、前記参照ドメインの定め方を変えるように構成されている。
【0013】
本実施形態の参照表現処理装置によれば、参照表現の種類を考慮することにより、より高い精度で参照表現を処理することができる。
【0014】
本発明の一つの実施形態による参照表現処理装置は、参照表現が指示詞を含む場合に前記参照ドメインが全ての要素(指示可能な対象)を含むように構成されている。
【0015】
本実施形態の参照表現処理装置によれば、参照表現が指示詞を含む場合に、参照ドメインとして全ての要素を含む単一の参照ドメインだけを考慮することにより、より高い精度で参照表現を処理することができる。
【0016】
本発明の一つの実施形態による参照表現処理装置は、参照ドメインの顕現性をパラメータとする、参照ドメインの複数の推定モデルを形成し、参照表現の指示対象が単一物か集合かによって、前記複数の推定モデルのうちの一つを選択して使用するように構成されている。
【0017】
本実施形態の参照表現処理装置によれば、参照表現の指示対象が単一物か集合かによって、複数の推定モデルのうちの一つを選択して使用することにより、より高い精度で参照表現を処理することができる。
【0018】
本発明の第2の態様の言語処理装置は、本発明による参照表現処理装置を備えている。
【0019】
本態様の言語処理装置は、本発明による参照表現処理装置を備えているので、上述のように参照表現を高い精度で処理することができる。
【0020】
本発明の第3の態様による参照表現処理方法は、言語処理装置の参照表現処理部が、記憶部に記憶されたデータを使用して、参照表現に対して、参照ドメイン(D)、参照ドメイン中の指示対象(X)、指示対象に関する概念(C)及び概念を表現する語(W)の間の関係を表す参照表現ベイジアンネットワークを形成するステップと、前記参照表現処理部が、前記ベイジアンネットワークを周辺化して、確率P(X|W)を求めるステップと、前記参照表現処理部が、確率P(X|W)を最大とするx’を求め、前記参照表現の指示対象とするステップと、を含む。
【0021】
本態様による参照表現処理方法は、指示対象(X)、指示対象に関する概念(C)及び概念を表現する語(W)の間の関係を表す参照表現ベイジアンネットワークから構成される確率モデルを使用するので、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成することができる。また、表現ベイジアンネットワークは、考えられる指示対象の集合である参照ドメイン(D)を含むので、該参照表現処理方法によれば、状況に応じて参照表現を処理することができる。
【図面の簡単な説明】
【0022】
【図1】本発明の一実施形態による言語処理装置の構成を示す図である。
【図2】参照ベイジアンネットワークの基本ネットワーク構造を示す図である。
【図3】「そのテーブル」のような1個の指示対象を示す参照表現の参照ベイジアンネットワークを示す図である。
【図4】「彼のテーブル」のような2個の指示対象を示す参照表現の参照ベイジアンネットワークを示す図である。
【図5】7個のピースからなるタングラム・パズルを解いている場面を示す図である。
【図6】参照表現処理部による参照表現の理解の処理を示す流れ図である。
【図7】図6のステップS1010の詳細な処理を説明するための流れ図である。
【図8】参照表現処理部による参照表現の生成の処理を示す流れ図である。
【図9】REX−Jコーパスに対して定義された概念辞書の抜粋を示す図である。
【図10】図5に示す7個のピースに対して定義された静的適合度表の抜粋を示す図である。
【図11】参照ドメインのリストを使用して
【数1】

を求める方法を示す流れ図である。
【発明を実施するための形態】
【0023】
図1は、本発明の一実施形態による言語処理装置100の構成を示す図である。言語処理装置100は、単一または複数のプロセッサ及び単一または複数のメモリによって構成してもよい。
【0024】
言語処理装置100は、特徴的な構成要素として、参照表現処理部101及び記憶部105を備える。
【0025】
参照表現処理部101は、ある参照表現が候補の指示対象を表す確率を演算するための確率モデルを備える。記憶部101は、該確率モデルが使用するデータを記憶する。参照表現処理部101は、対話の進行の状況に応じて該確率モデルを更新する。参照表現処理部101は、参照表現の理解の際に、すなわち、参照表現が表す指示対象を特定する際に、確率モデルに基づいて参照表現が候補の指示対象を表す確率を演算し、確率が最大となる候補の指示対象を、該参照表現が表す指示対象として特定する。また、参照表現選択部107は、参照表現の生成の際に、すなわち、指示対象を表す参照表現を選択する際に、候補の参照表現が該指示対象を表す確率を演算し、確率が最大となる参照表現を、該指示対象を表す参照表現として選択する。参照表現処理部101及び記憶部105は、参照表現処理装置を構成する。参照表現処理装置の構成要素の詳細については後で説明する。
【0026】
音声認識部115は、たとえば、人間の音声を認識し、言語の最小単位である形態素に分けて、辞書によりそれぞれの形態素の品詞を定める。構造解析部111は、音声認識部115によって得られた形態素の情報から文章の構造を解析する。
【0027】
表層実現部113は、参照表現処理部101が生成した参照表現を含む自然言語の表現を生成する。音声合成/表示部117は、自然言語の表現を音声合成し、または表示する。
【0028】
言語処理装置100は、他に言語理解処理部103、言語生成処理部107及び対話管理部109を備える。言語理解処理部103は、構造解析部111から構造解析の結果を受け取り、参照表現処理部101が行う参照表現の処理以外の言語処理を行い、その結果を対話管理部109へ送る。言語生成処理部107は、参照表現処理部101が行なう参照表現の生成以外の言語生成を行ない、その結果を表層実現部113へ送る。対話管理部109は、参照表現処理部101から参照表現が表す指示対象を受け取り、言語理解処理部121から、参照表現処理部101が行う参照表現の処理以外の言語処理の結果を受け取り、受け取った入力の処理を行う。対話管理部109は、入力または他の条件に基づいて出力を作成し、参照表現処理部101及び言語生成処理部107へ送る。参照表現処理部101は、対話管理部109の出力を受け取って適切な参照表現を生成する。また、言語生成処理部107は、対話管理部109の出力を受け取って参照表現の選択以外の言語生成を行なう。
【0029】
ここで、参照表現処理部101が使用する確率モデルについて説明する。確率モデルは、参照表現ベイジアンネットワークを使用する。
【0030】
図2は、参照ベイジアンネットワークの基本ネットワーク構造を示す図である。図2において、4個のノードW、C、X及びDは、観測される語、該語によって指示される概念、参照表現の指示対象、及び想定される参照ドメインをそれぞれ表す。語は、後で説明する概念辞書の項目である。
【0031】
ここで、参照ドメイン(Susan Salmon-Art and Laurent Romary. 2000. Generating referring expressions in multimodal context. In Proceedings of the INLG 2000 workshop on Conference in Generated Multimedia, Mitzpe Ramon, Israel, June; Susan Salmon-Art and Laurent Romary. 2001. Reference resolution within the framework of cognitive grammar. In Proceedings of the International Colloquium on Cognitive Science, San Sabastian, Spain, May; and Alexandre Dennis. 2010. Generating referring expressions with reference domain theory. In Proceedings of the 6th International Natural Language Generating Conference (INLG), pages 27-35)について説明する。参照ドメインは、指示対象を含む集合である。参照ドメインに含まれる要素は、個々の具体物であっても他の参照ドメインであってもよい。各参照ドメインdは、焦点及び顕現性の程度(負でない実数)を有する。焦点及び顕現性の程度は、それぞれ、foc(d)及びsal(d)で表される。参照ドメインは、顕現性にしたがって降順にソートされる。
【0032】
図5は、7個のピースからなるタングラム・パズルを解いている場面を示す図である。タングラム・パズルについては後で説明する。参照ドメインは、参照表現を聴くことによって言語によって、あるいは、物理的な状況を観察することによって視覚によって、対話参加者の知的な空間に導入される。図5に示す状況で「2個の大きな三角形」と言われた場合には、ピース1及び2から構成される参照ドメインが認識される。もし、ピース1を動かしてピース2に付けた場合には、近接度からピース1、2及び6から構成される参照ドメインが感覚的に認識される(Kristinn R. Thorisson. 1994. Simulated perceptual grouping: An application to human-computer interaction. In Proceedings of the 16th annual Conference of the Cognitive Science Society, pages 876-881, Atlanta, GA, USA)。同様にして、ピース5及び7から構成される参照ドメインも認識される。以下において、参照ドメインを、インデクスを付した@で示し、その要素を[]で囲んで示す。たとえば、@1=[1,2]、@2=[1,2,6]、@3=[5,7]などである。焦点の要素には、*印をつける。たとえば、foc([1*,2])=1である。
【0033】
参照ドメインの指示対象は、どの参照ドメインが想定されるかによって異なる。すなわち、@1=[1,2]または@2=[1,2,6]が想定されれば、「右のピース」の指示対象は、ピース1である。@3=[5,7]が想定されれば、「右のピース」の指示対象は、ピース5である。
【0034】
参照ドメインに関する上記の文献は、確率的なアプローチではなく論理記号演算に基づくアプローチを採用している。
【0035】
図3は、「そのテーブル」のような1個の指示対象を示す参照表現の参照ベイジアンネットワークを示す図である。このように、人間が1つのまとまりとして認識する指示対象への参照表現を単位参照表現と呼称する。上記の例の他に、「赤いボール」、「あの夫婦」、「隣の部屋」、「昨日」といった参照表現は単位参照表現である。
【0036】
図4は、「彼のテーブル」のような2個の指示対象を示す参照表現の参照ベイジアンネットワークを示す図である。このように、2以上の単位参照表現を含む参照表現を複合参照表現と呼称する。上記の例の他に、「僕のボール」、「机の上」、「去年の12月」といった参照表現は複合参照表現である。
【0037】
参照ベイジアンネットワークは、複合参照表現を処理することもできるが、以下においては、簡単のため、単位参照表現を処理する場合について説明する。
【0038】
N語の単位参照表現インスタンス用の参照ベイジアンネットワークは、2N+2個の個別のランダム変数W,・・・,W,C・・・,C,X及びDを有する。各変数の領域は、その時点におけるコンテキスト及び対応する参照ドメインによって定まる。ここで、
【数2】

は、ランダム変数Vの領域を示す。
【数3】

は、対応する観測される語w及び他の可能性を表すωを含み、
【数4】

となる。各Wiは対応するノードCiを有する。
【数5】

は、wによって表すことのできるM個の概念及び他の可能性を表す特別の概念Ωを含み、
【数6】

となる。
【数7】

は、後で説明する概念辞書から参照される。
【数8】

は、その時点までに認識されたL+1個の参照ドメインを含み、
【数9】

となる。@0は、対話において参照されるすべての個別の具体物を含む基底ドメインである。対話の初期において、
【数10】

である。他のL個の参照ドメインは、対話中に徐々に追加される。
【数11】

は、全ての考えうる指示対象を、すなわち、K個の個々の具体物及びL+1個の参照ドメインを含む。したがって、
【数12】

となる。
【0039】
参照ベイジアンネットワークを使用した指示対象の求め方は、
【数13】

と定式化される。
【数14】

は、以下に説明する確率表によって計算される結合確率を周辺化することによって得られる。
【0040】
参照ベイジアンネットワークで使用されるすべてのランダム変数は離散的であるので、確率分布は、確率表として与えられる。参照ベイジアンネットワークで使用される4個の確率表について以下に説明する。
【数15】

は、話し手が指示することを意図するc及びxから聴き手がwを観測する確率である。
【0041】
ほとんどの場合に、WiはXに依存しない。すなわち、
【数16】

である。しかし、Xは、個別化された項目(名前)を扱うのに必要である。
【0042】
確率の割り当てにはいくつかの方法が考えられる。一つの簡単な方法は以下のとおりである。各々の
【数17】

に対して
【数18】

とし、Ωに対して、
【数19】

とする。ここで、Tは、概念
【数20】

に対して考えられる語の数であり、εは、10−8のような予め定めた小さな数である。
【数21】

は、d内のxを指示するために、
【数22】

から概念cが選択される確率である。
【数23】

は、コンテキストに依存するので、対話システムの開発者は、あらかじめ
【数24】

を与えることはできない。したがって、
【数25】

から
【数26】

を構成するアプローチを採用する。
【数27】

は、dに関して、概念
【数28】

の指示対象xに対する適合度であり、
【数29】

である。1は、完全な適合度を意味し、0は適合度がないことを意味する。0.5は中立を意味する。たとえば、xがスーツケースであるとき、概念「箱」は、0.8のような、高い適合度を有するが、概念「ボール」は、0.1のような、低い適合度を有する。xがdの中になければ、
【数30】

は、0である。
【数31】

のいずれもが高い適合度を有さない場合には、概念Ωには高い確率が割り当てられる。
【数32】

が静的であれば、
【数33】

は、予め表の形で数値として与えられる。静的でなければ、対話システム開発者によって関数の形で組み込まれる。すなわち、
【数34】

である。ここで、Iは、対話システムから得られるすべての情報である。
【0043】
たとえば、図5に示すような状況において、位置的概念「左」の適合度関数は、以下のように実装される。
【数35】

ここで、u,uは、それぞれ、x、dにおける最も左のピース、及びdにおける最も右のピースの水平座標である。これらは、Iから得られる。xが参照ドメインであれば、適合度は、該参照ドメインに含まれる要素の平均値として与えられる。
【数36】

は、参照ドメインdにおける要素xが参照される確率であり、参照ドメインにおける属性情報に関係なく、対応する参照表現が発せられた時点におけるコンテキスト情報にしたがって推定される。コンテキスト情報は、それまでの参照の歴史(談話)及び参照者の注視のような物理的な状態(状況)を含む。
【数37】

を予測モデルと呼称する。予測モデルについては実験に関連して後で説明する。
【数38】

は、参照表現が発せられた時点で、参照ドメインdが予想される確率である。参照ドメインは、陰(implicit)であるので、この確率モデルを推定するためのデータを収集することはできない。したがって、顕現性dに基づくアプリオリな近似関数を試験する。顕現性は、最新性に比例する。顕現性については評価実験に関連して後で説明する。
一様モデル
このモデルは顕現性を無視する。このモデルは、顕現性の重要度を理解するために導入する。
【数39】

線形モデル
このモデルは、顕現性に比例するように確率を分配する。
【数40】

指数モデル
このモデルは、最近の参照ドメインを強調する。この関数は、いわゆるソフト・マックスである。
【数41】

【0044】
図6は、参照表現処理部101による参照表現の理解の処理を示す流れ図である。
【0045】
図6のステップS1010において、参照表現処理部101がすべての考えられる指示対象xについて、参照表現ベイジアンネットワーク(REBN)を作成し、確率
【数42】

を求める。
【0046】
図6のステップS1020において、参照表現処理部101は、確率
【数43】

が最大となるx’を参照表現の指示対象として選択する。
【0047】
図7は、図6のステップS1010の詳細な処理を説明するための流れ図である。
【0048】
図7のステップS2010において、参照表現処理部101がP(D)を求める。P(D)の求め方は上述のとおりである。
【0049】
図7のステップS2020において、参照表現処理部101が
【数44】

を求める。
【数45】

の予測モデルについては、上述のように後で説明する。
【0050】
図7のステップS2030において、参照表現処理部101が
【数46】

を求める。
【数47】

の求め方は上述のとおりである。
【0051】
図7のステップS2040において、参照表現処理部101が
【数48】

を求める。
【数49】

の求め方は上述のとおりである。
【0052】
図7のステップS2050において、参照表現処理部101が
【数50】

を求める。
【0053】
図7のステップS2060において、参照表現処理部101が
【数51】

を、既存の手法を用いて周辺化し、
【数52】

を求める。
【0054】
図8は、参照表現処理部101による参照表現の生成の処理を示す流れ図である。
【0055】
図8のステップS3010において、参照表現処理部101は、指示対象xを受け取り、Wの候補を定める。
【0056】
図8のステップS3020において、参照表現処理部101は、参照表現ベイジアンネットワークを使用して、図7の流れ図に示した手順により
【数53】

を求める。
【0057】
図8のステップS3030において、参照表現処理部101は、全てのWについて処理を行ったかどうか判断する。全てのWについて処理を行っていれば、ステップS3040に進む。全てのWについて処理を行っていなければ、ステップS3020に戻る。
【0058】
図8のステップS3040において、参照表現処理部101は、指示対象xに対して、
【数54】

が最大となるWを参照表現として選択する。
【0059】
このように、本実施形態による参照表現部は、参照表現ベイジアンネットワークを使用した単一の確率モデルにより、参照表現の理解と生成の処理を行うことができる。
【0060】
本実施形態による参照表現処理の評価を行うための実験について説明する。
【0061】
評価用データとしてREX−Jコーパス(Phlipp Spanger, Masaaki Yasuhara, Ryu Iida, Takenobu Tokunaga, Asuka Terai, and Naoko Kuriyama. 2010. REX-J: Japanese referring expression corpus of situated dialog. Language Resources and Evaluation. Online First, DOI: 10.1007/s10579-010-9134-8)を使用した。REX−Jコーパスは、24個の人間−人間対話から構成され、それぞれの対話において、二人の参加者が、図5に示す7個のピースのタングラム・パズルを解く。パズルのゴールは、指定された形状を形成するように7個のピースを組み合わせることである。二人の被験者のうちの一人は、操作する人(OP)の役割を果たし、他の一人は解く人(SV)の役割を果たす。OPは、マウスを操作することによってパソコンのモニター上に表示された仮想パズルピースを操作することができるがゴールの形状は知らない。SVは、ゴールの形状を知っているが、ピースを操作することはできない。ピース及びOPによって操作されるマウスカーソルの状態は、リアルタイムに二人の被験者によって共有される。このようにして二人の参加者は、ピースへの多数の参照表現を含む協力的な対話を進める。参照表現に加えて、ピースの位置及び方向、マウスカーソルの位置、及びOPによる操作が、タイムスタンプ及び指示対象ピースのIDとともに記録された。
【0062】
表1は、指示対象を付記したそれぞれの参照表現を示す表である。表1の1番目の参照表現「おっきい三角形」はあいまいであり、ピース1または2を指す。7番目及び8番目の参照表現はピース1及び2の集合を指す。その他の参照表現は、個別のピースを指す。
【表1】

【0063】
参照表現の構造解析のエラーによる問題を避けるために、参照ベイジアンネットワークが構成されるもとになる中間構造(REX-graph)も付記した。中間構造は、カッコ内の分離された単語のリストである。
【0064】
確率計算には、BNJ(http://bnj.sourceforge.net/)を使用する。以下において、多かれ少なかれREX−Jコーパスのタスク領域に特有の具体化について説明する。
【0065】
図9は、REX−Jコーパスに対して定義された概念辞書の抜粋を示す図である。対話を観察することにより40個の概念を定義した。
【0066】
図10は、図5に示す7個のピースに対して定義された静的適合度表の抜粋を示す図である。40個の概念のうち13個に対して適合度の値を定めた。OBJは、全てのピースに対して、一様にかつ完全に適合する。FIGは、全てのピースに対して、一様ではあるが、それほど適合しない。TRIは、ピース1乃至5に対してのみ適合する。SQRは、ピース6及び7に対してのみ適合するが、ピース7は厳密な意味では、”square”ではないので、完全には適合しない。
【0067】
残りの27個の概念に適合度関数を実装した。その一部について以下に説明する。
【0068】
「もう一つの」(ANOTHER)
参照ドメインdの要素の中で焦点となっているものをfocus(d)で表す。
【数55】

「残りの」(REST)
【数56】

のように2個の群を要素に持つ参照ドメインの場合に限って、焦点の当っていない方の群の適合度を1とすし、それ以外の場合は0とする。
【数57】

「両方」(BOTH)
xが群でその要素が2個であるとき1とする。
【数58】

「図形」(FIG)
この表現は組み上がっているピースの群を参照する。そこで、xが単一ピースの場合(single(x)=true)は静的適合表から得た数値rとし、xが群であり互いに接続して形をなしている場合(shape(x)=true)は1とする。
【数59】

「全部」(ALL)
すべての参照ドメインは、自分自身への特殊な参照(自己参照)をその要素に含むと考える。つまり、
【数60】

である。その上で、
【数61】

とする。
【0069】
つぎに、参照ドメインのリストについて説明する。参照解決(参照表現の理解)の進行に応じて、参照ドメインはリストに追加され、以下の手順で更新される。リストにおいて参照ドメインは、顕現性にしたがって降順でソートされる。
【0070】
参照解決ごとに、全ての従前の参照表現は、正しく解決されると仮定する。したがって、それぞれの参照解決時点後に、最後の参照表現の正しい指示対象が集合であれば、該集合と同じ新たな参照ドメインが、参照ドメインのリストに含まれない限り、参照ドメインのリストに追加する。いずれの場合にも、該集合と同じ参照表現が既に参照ドメインのリストの先頭でない限り、該集合と同じ参照表現の顕現性をσ+1とする。ここで、シグマは、その時点における参照ドメインのリスト内の最大の顕現性の値、すなわち、先頭の参照ドメインの顕現性の値である。
【0071】
それぞれの参照解決時点前に、先行する参照表現の後に一番最近に操作されたピースが、知覚的な群を構成するかどうかを、後で説明する知覚的群化によって目標参照表現の開始時に確認する。群が認識されれば、認識された群と同じ新たな参照ドメインが、参照ドメインのリストに含まれていない限り、参照ドメインのリストに追加する。いずれの場合にも、該集合と同じ参照ドメインが既に参照ドメインのリストの先頭でない限り、該集合と同じ参照ドメインの顕現性をσ+1とし、該集合と同じ参照ドメインの焦点は一番最近に操作されたピースに設定される。
【0072】
新しい参照ドメイン@がリストに追加されたとき、その補集合の参照ドメイン@及び包括参照ドメイン@も、リストの@の後に挿入される。ここで、
【数62】

及び
【数63】

である。この操作は、「残りの」(REST)のような概念を扱うのに必要である。
【0073】
知覚的群化について説明する。ここでは、2個のピース間の最短距離が所定値以下である時に該2個のピースは接触しているとみなし、接触しているピースの集合だけを群として認識する。この方法は、汎用的ではないが、タングラム・パズルの性質によりREX−Jコーパスの領域では満足に機能する。
【0074】
図11は、参照ドメインのリストを使用して
【数64】

を求める方法を示す流れ図である。この処理は、対話管理部109が行ってもよい。
【0075】
図11のステップS4010において、対話管理部109は、参照表現処理部101による参照解決の直前に、知覚的群化の結果に基づき、参照ドメインのリストを更新する。
【0076】
図11のステップS4020において、参照表現処理部101は、参照ドメインのリストから求めた顕現性を、上述の顕現性のモデルに入力して
【数65】

を求める。
【0077】
図11のステップS4030において、対話管理部109は、参照表現処理部101による参照解決の直後に、その結果に応じて、参照ドメインのリストを更新する。
【0078】
上述のように、予測モデル
【数66】

を構築するために、SVMrank(Thorsten Joachism. 2006. Training linear SVMs in linear time. In Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD), pages 217-226, Philadelphia, PA, USA, August)を使用するランキングに基づく方法(Ryu IIDA, Shumpei Kobayashi, and Takenobu Tokunaga. 2010. Incorporating extra-linguistic information into reference resolution in collaboration task dialogue. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pages 1259-1267, Uppsala, Sweden, July)を採用した。このモデルは、目標の要素は以前に参照されたか(談話素性)、目標はマウスカーソルの下にあるか(マウスカーソル素性)などの16個の2値素性にしたがって要素をランク付けする。
【0079】
目標が集合、すなわち参照ドメインである場合には、集合に対する談話素性は、ピースの場合のように計算される。一方、マウスカーソル素性は異なる仕方で処理される。すなわち、グループのメンバーの一つがマウスカーソル素性の基準を満たせば、そのグループは基準を満たすと判断される。
【0080】
ランクは、
【数67】

で表せる。θはコンテキスト情報である。
【数68】

は、ランクを使用して以下の式で求められる。
【数69】

ここで、
【数70】


【数71】

となるための正規化係数である。
【0081】
d内にxがなければ、
【数72】

は0である。
【0082】
評価には24個の対話を使用した。24個の対話は、1474個の単位参照表現と28個の複合参照表現を含む。複合参照表現の他に、適合度関数を短時間で具体化するのが困難な複雑な概念に言及する参照表現を除外した。これらの参照表現を除外した後、1310個の参照表現が利用可能であった。1310個の参照表現のうち、182個の(13.9%)は集合を指し、612個(46.7%)は、「それ」などの指示代名詞である。
【0083】
実験において以下の条件を前提とする。
話者の役割の独立性
参照表現は、話者の役割、すなわち、「解く人」及び「操作する人」から独立しているとする。すべての参照表現は、混合され連続的に処理される。
完全な処理および過去の情報
音声認識、形態素解析および構文解析を含む前処理から誤りは生じないとする。さらに、過去の参照表現の全ての正しい指示対象は既知であるとする。
未来情報なし
人間間の対話において、しばしば、参照表現の解決に役立つ情報が参照表現が発せられた後に与えられる。このような未来の情報は考慮しない。
数の情報
英語を含む多数の言語は、冠詞、名詞の単数形・複数形及び連辞などを使用して数の区別を示すことを要求する。日本語はそのような文法的な仕組みを有さないが、言語的情報及び身振りの情報を用いる機械学習技術を使用してそのような区別を予測することができる。そこで、そのような数の情報を与える効果を観察した。以下の実験において、正しい指示対象の注釈を事前に見ることによって、単数・複数の区別の情報を参照ベイジアンネットワークに与える。このことは、特別の証拠ノードC0を追加することによって達成される。ここで、
【数73】

である。xがピースであれば、
【数74】

及び
【数75】

である。反対にxが集合であれば、
【数76】

及び
【数77】

である。
【0084】
実験のベースラインとして、単一ドメインと呼ばれる
【数78】

モデルを準備した。単一ドメインにおいて、
【数79】

は、その時点までに認識された個々のピース及び参照ドメインを含む単一の参照ドメイン
【数80】

のみから構成される。すなわち、
【数81】

である。
【0085】
本実験において、参照表現が指示詞を含む場合には、上述のモデルによる参照ドメインを使用するよりも単一ドメインを使用する方が、性能が向上した。以下の結果において、参照表現が指示詞を含む場合には、常に単一ドメインを使用した。
【0086】
表2は、実験結果を示す表である。参照解決の性能は、カテゴリーごと及び条件ごとに正確さで表される。ここで、正確さは、正しく解決された参照表現の数を参照表現の数で割った値である。

【表2】

【0087】
評価に当たり、「単数」、「複数」及び「全体」の3個のカテゴリーを設定した。「単数」カテゴリーは、単一のピースを指す参照表現の集まりである。「複数」は、ピースの集合を指す参照表現の集まりである。「全体」は、それらの和である。表1の一番目のようなあいまいな参照表現は、「単一」として数え、解決された結果が考えられる指示対象のうちの一つであれば、そのような参照表現の解決は正しいと考える。
【0088】
「単複情報なし」は、単数・複数の区別の情報なしの実験結果を示し、「単複情報あり」は、単数・複数の区別の情報ありの実験結果を示す。単数・複数の情報は、明らかに強い影響力を有する。
【0089】
「単数」カテゴリーに対する最良の性能は、線形モデルによって達成されたが、「複数」に対する最良の性能は「指数モデル」によって達成された。参照表現が「単数」のものであるか「複数」のものであるか知ることができれば、すなわち、単数・複数の情報が利用できれば、適切な
【数82】

モデルを選択することができる。したがって、モデルを切り替えることによって、単数・複数の情報を使用した「全体」の裁量の性能は、83.2%に達し、ベースラインに対して2.0ポイントの増加が達成された(符号検定、p<0.0001)。
【0090】
参照ドメインを導入することによって、「複数」カテゴリーにおける解決は、顕著に向上した。最大の性能の増加は、9.3ポイントである(符号検定、p<0.005)。
【0091】
さらに、LEFT及びRIGHTなどの位置概念を含むより多くの参照表現が、一様、線形及び指数モデルの場合に正しく解決された。
【0092】
表3は、単数・複数の情報を使用した4個の位置概念の解決結果をまとめた表である。表3の数値は、全体の数または正解の数である。ベースラインである単一モデルは65%を解決したが、線形モデルは75%を正しく解決した(符号検定、p<0.05)。
【表3】

【0093】
解決ごとに、問題の参照表現に対して専用のベイジアンネットワークが構築される。構築された参照表現ベイジアンネットワークは、記述、直示または照応の参照表現を統一的な仕方で処理する。参照表現ベイジアンネットワークは、コンテキスト依存の属性を使用して参照表現を解決し、集合に応じて参照表現を処理することを可能とする参照ドメインの考えを組み込んでいる。参照表現ベイジアンネットワークは、スマートフォン、自動車システム、サービス用ロボットなどのパーソナル・エイジェントのような任意かつ全てのタスク指向の応用に対して使用することのできる標準的なアプローチとなりうる。
【符号の説明】
【0094】
100…言語処理装置、101…参照表現処理部、103…言語理解処理部、105…記憶部、107…言語生成処理択部、109…対話管理部

【特許請求の範囲】
【請求項1】
考えられる指示対象の集合である参照ドメイン(D)、参照ドメイン中の指示対象(X)、指示対象に関する概念(C)及び概念を表現する語(W)の間の関係を表す参照表現ベイジアンネットワーククから構成された確率モデルによって、参照表現の理解及び生成の少なくとも一方を行う参照表現処理部と、
前記参照表現ベイジアンネットワークを形成するのに必要なデータを記憶する記憶部と、を備えた参照表現処理装置。
【請求項2】
前記参照表現ベイジアンネットワークが対話の進行中に参照表現の処理ごとに形成されるように構成された請求項1に記載の参照表現処理装置。
【請求項3】
参照表現の種類によって、前記参照ドメインの定め方を変えるように構成された請求項2に記載の参照表現処理装置。
【請求項4】
参照表現が指示詞を含む場合に前記参照ドメインが全ての要素を含むように構成された請求項3に記載の参照表現処理装置。
【請求項5】
参照ドメインの顕現性をパラメータとする、参照ドメインの複数の推定モデルを形成し、参照表現の指示対象が単一物か集合かによって、前記複数の推定モデルのうちの一つを選択して使用するように構成された請求項3に記載の参照表現処理装置。
【請求項6】
請求項1から5のいずれか1項に記載の参照表現処理装置を備えた言語処理装置。
【請求項7】
言語処理装置の参照表現処理部が、記憶部に記憶されたデータを使用して、参照表現に対して、参照ドメイン(D)、参照ドメイン中の指示対象(X)、指示対象に関する概念(C)及び概念を表現する語(W)の間の関係を表す参照表現ベイジアンネットワークを形成するステップと、
前記参照表現処理部が、前記ベイジアンネットワークを周辺化して、確率P(X|W)を求めるステップと、
前記参照表現処理部が、確率P(X|W)を最大とするx’を求め、前記参照表現の指示対象とするステップと、を含む参照表現処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2013−16151(P2013−16151A)
【公開日】平成25年1月24日(2013.1.24)
【国際特許分類】
【出願番号】特願2012−110061(P2012−110061)
【出願日】平成24年5月11日(2012.5.11)
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 平成23年11月14日に情報処理学会研究報告 第2011−NL−204巻 第13号 第1−9頁にて公開した。 〔刊行物等〕 平成23年11月21日、22日に情報処理学会の第204回自然言語処理研究会にて公開した。
【出願人】(000005326)本田技研工業株式会社 (23,863)
【Fターム(参考)】