言語処理装置

【課題】対話の進行状況に応じて、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成する確率モデルを使用した参照表現処理装置を提供する。
【解決手段】本発明による参照表現処理装置は、考えられる指示対象の集合である参照ドメイン（Ｄ）、参照ドメイン中の指示対象（Ｘ）、指示対象に関する概念（Ｃ）及び概念を表現する語（Ｗ）の間の関係を表す参照表現ベイジアンネットワークから構成された確率モデルによって、参照表現の理解及び生成の少なくとも一方を行う参照表現処理部と、前記参照表現ベイジアンネットワークを形成するのに必要なデータを記憶する記憶部と、を備えている。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、参照表現を処理する参照表現処理装置、該参照表現処理装置を含む言語処理装置及び参照表現処理方法に関する。
【背景技術】
【０００２】
たとえば、音声対話システムなどを使用して人間とロボットとがコミュニケーションを行う場合を考える。部屋の中に複数の机やいすがあり、人間が「赤い脚の白い机」という参照表現によって一つの机を指定したとする。ここで、参照表現とは話し手が関心を持つ特定の事物を聞き手に対して指し示す言語表現である。ロボットの言語処理装置が、この参照表現から人間の指定した机を特定する作業が参照表現の理解である。また、ロボットの言語処理装置が、ロボットが指定した机を人間に特定させるために、その机を表す、人間に理解しやすい表現を生成することが参照表現の生成である。人間による参照表現は、当然ながら人間の知識に依存するので、ロボットの言語処理装置は、参照表現の理解及び生成に際して、人間の知識に関する情報を利用する必要がある。
【０００３】
言語処理装置が、参照表現の理解及び生成に際して、人間の知識に関する情報を利用するために確率モデルを使用することが考えられる。
【０００４】
本出願の出願人と同一の出願人による特許文献１は、参照表現の物体の部分への言及を取り扱う言語処理装置及び該言語処理装置による言語処理において使用される確率演算方法を開示している。
【０００５】
しかし、特許文献１は、対話の進行状況に応じて、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成する仕組みについては開示していない。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２０１０−２２４５３６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
したがって、対話の進行状況に応じて、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成する確率モデルを使用した参照表現処理装置、言語処理装置及び参照表現処理方法に対するニーズがある。
【課題を解決するための手段】
【０００８】
本発明の第１の態様による参照表現処理装置は、考えられる指示対象の集合である参照ドメイン（Ｄ）、参照ドメイン中の指示対象（Ｘ）、指示対象に関する概念（Ｃ）及び概念を表現する語（Ｗ）の間の関係を表す参照表現ベイジアンネットワークから構成された確率モデルによって、参照表現の理解及び生成の少なくとも一方を行う参照表現処理部と、前記参照表現ベイジアンネットワークを形成するのに必要なデータを記憶する記憶部と、を備えている。
【０００９】
本態様による参照表現処理装置は、指示対象（Ｘ）、指示対象に関する概念（Ｃ）及び概念を表現する語（Ｗ）の間の関係を表す参照表現ベイジアンネットワークから構成された確率モデルを使用するので、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成することができる。また、表現ベイジアンネットワークは、考えられる指示対象の集合である参照ドメイン（Ｄ）を含むので、該参照表現処理装置は、状況に応じて参照表現を処理することができる。
【００１０】
本発明の一つの実施形態による参照表現処理装置は、前記参照表現ベイジアンネットワークが対話の進行中に参照表現の処理ごとに形成されるように構成されている。
【００１１】
本実施形態の参照表現処理装置によれば、対話の進行状況に合わせて参照表現を処理することができる。
【００１２】
本発明の一つの実施形態による参照表現処理装置は、参照表現の種類によって、前記参照ドメインの定め方を変えるように構成されている。
【００１３】
本実施形態の参照表現処理装置によれば、参照表現の種類を考慮することにより、より高い精度で参照表現を処理することができる。
【００１４】
本発明の一つの実施形態による参照表現処理装置は、参照表現が指示詞を含む場合に前記参照ドメインが全ての要素（指示可能な対象）を含むように構成されている。
【００１５】
本実施形態の参照表現処理装置によれば、参照表現が指示詞を含む場合に、参照ドメインとして全ての要素を含む単一の参照ドメインだけを考慮することにより、より高い精度で参照表現を処理することができる。
【００１６】
本発明の一つの実施形態による参照表現処理装置は、参照ドメインの顕現性をパラメータとする、参照ドメインの複数の推定モデルを形成し、参照表現の指示対象が単一物か集合かによって、前記複数の推定モデルのうちの一つを選択して使用するように構成されている。
【００１７】
本実施形態の参照表現処理装置によれば、参照表現の指示対象が単一物か集合かによって、複数の推定モデルのうちの一つを選択して使用することにより、より高い精度で参照表現を処理することができる。
【００１８】
本発明の第２の態様の言語処理装置は、本発明による参照表現処理装置を備えている。
【００１９】
本態様の言語処理装置は、本発明による参照表現処理装置を備えているので、上述のように参照表現を高い精度で処理することができる。
【００２０】
本発明の第３の態様による参照表現処理方法は、言語処理装置の参照表現処理部が、記憶部に記憶されたデータを使用して、参照表現に対して、参照ドメイン（Ｄ）、参照ドメイン中の指示対象（Ｘ）、指示対象に関する概念（Ｃ）及び概念を表現する語（Ｗ）の間の関係を表す参照表現ベイジアンネットワークを形成するステップと、前記参照表現処理部が、前記ベイジアンネットワークを周辺化して、確率Ｐ（Ｘ｜Ｗ）を求めるステップと、前記参照表現処理部が、確率Ｐ（Ｘ｜Ｗ）を最大とするｘ’を求め、前記参照表現の指示対象とするステップと、を含む。
【００２１】
本態様による参照表現処理方法は、指示対象（Ｘ）、指示対象に関する概念（Ｃ）及び概念を表現する語（Ｗ）の間の関係を表す参照表現ベイジアンネットワークから構成される確率モデルを使用するので、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成することができる。また、表現ベイジアンネットワークは、考えられる指示対象の集合である参照ドメイン（Ｄ）を含むので、該参照表現処理方法によれば、状況に応じて参照表現を処理することができる。
【図面の簡単な説明】
【００２２】
【図１】本発明の一実施形態による言語処理装置の構成を示す図である。
【図２】参照ベイジアンネットワークの基本ネットワーク構造を示す図である。
【図３】「そのテーブル」のような１個の指示対象を示す参照表現の参照ベイジアンネットワークを示す図である。
【図４】「彼のテーブル」のような２個の指示対象を示す参照表現の参照ベイジアンネットワークを示す図である。
【図５】７個のピースからなるタングラム・パズルを解いている場面を示す図である。
【図６】参照表現処理部による参照表現の理解の処理を示す流れ図である。
【図７】図６のステップＳ１０１０の詳細な処理を説明するための流れ図である。
【図８】参照表現処理部による参照表現の生成の処理を示す流れ図である。
【図９】ＲＥＸ−Ｊコーパスに対して定義された概念辞書の抜粋を示す図である。
【図１０】図５に示す７個のピースに対して定義された静的適合度表の抜粋を示す図である。
【図１１】参照ドメインのリストを使用して
【数１】

を求める方法を示す流れ図である。
【発明を実施するための形態】
【００２３】
図１は、本発明の一実施形態による言語処理装置１００の構成を示す図である。言語処理装置１００は、単一または複数のプロセッサ及び単一または複数のメモリによって構成してもよい。
【００２４】
言語処理装置１００は、特徴的な構成要素として、参照表現処理部１０１及び記憶部１０５を備える。
【００２５】
参照表現処理部１０１は、ある参照表現が候補の指示対象を表す確率を演算するための確率モデルを備える。記憶部１０１は、該確率モデルが使用するデータを記憶する。参照表現処理部１０１は、対話の進行の状況に応じて該確率モデルを更新する。参照表現処理部１０１は、参照表現の理解の際に、すなわち、参照表現が表す指示対象を特定する際に、確率モデルに基づいて参照表現が候補の指示対象を表す確率を演算し、確率が最大となる候補の指示対象を、該参照表現が表す指示対象として特定する。また、参照表現選択部１０７は、参照表現の生成の際に、すなわち、指示対象を表す参照表現を選択する際に、候補の参照表現が該指示対象を表す確率を演算し、確率が最大となる参照表現を、該指示対象を表す参照表現として選択する。参照表現処理部１０１及び記憶部１０５は、参照表現処理装置を構成する。参照表現処理装置の構成要素の詳細については後で説明する。
【００２６】
音声認識部１１５は、たとえば、人間の音声を認識し、言語の最小単位である形態素に分けて、辞書によりそれぞれの形態素の品詞を定める。構造解析部１１１は、音声認識部１１５によって得られた形態素の情報から文章の構造を解析する。
【００２７】
表層実現部１１３は、参照表現処理部１０１が生成した参照表現を含む自然言語の表現を生成する。音声合成／表示部１１７は、自然言語の表現を音声合成し、または表示する。
【００２８】
言語処理装置１００は、他に言語理解処理部１０３、言語生成処理部１０７及び対話管理部１０９を備える。言語理解処理部１０３は、構造解析部１１１から構造解析の結果を受け取り、参照表現処理部１０１が行う参照表現の処理以外の言語処理を行い、その結果を対話管理部１０９へ送る。言語生成処理部１０７は、参照表現処理部１０１が行なう参照表現の生成以外の言語生成を行ない、その結果を表層実現部１１３へ送る。対話管理部１０９は、参照表現処理部１０１から参照表現が表す指示対象を受け取り、言語理解処理部１２１から、参照表現処理部１０１が行う参照表現の処理以外の言語処理の結果を受け取り、受け取った入力の処理を行う。対話管理部１０９は、入力または他の条件に基づいて出力を作成し、参照表現処理部１０１及び言語生成処理部１０７へ送る。参照表現処理部１０１は、対話管理部１０９の出力を受け取って適切な参照表現を生成する。また、言語生成処理部１０７は、対話管理部１０９の出力を受け取って参照表現の選択以外の言語生成を行なう。
【００２９】
ここで、参照表現処理部１０１が使用する確率モデルについて説明する。確率モデルは、参照表現ベイジアンネットワークを使用する。
【００３０】
図２は、参照ベイジアンネットワークの基本ネットワーク構造を示す図である。図２において、４個のノードＷ、Ｃ、Ｘ及びＤは、観測される語、該語によって指示される概念、参照表現の指示対象、及び想定される参照ドメインをそれぞれ表す。語は、後で説明する概念辞書の項目である。
【００３１】
ここで、参照ドメイン（Susan Salmon-Art and Laurent Romary. 2000. Generating referring expressions in multimodal context. In Proceedings of the INLG 2000 workshop on Conference in Generated Multimedia, Mitzpe Ramon, Israel, June; Susan Salmon-Art and Laurent Romary. 2001. Reference resolution within the framework of cognitive grammar. In Proceedings of the International Colloquium on Cognitive Science, San Sabastian, Spain, May; and Alexandre Dennis. 2010. Generating referring expressions with reference domain theory. In Proceedings of the 6^th International Natural Language Generating Conference (INLG), pages 27-35）について説明する。参照ドメインは、指示対象を含む集合である。参照ドメインに含まれる要素は、個々の具体物であっても他の参照ドメインであってもよい。各参照ドメインdは、焦点及び顕現性の程度(負でない実数)を有する。焦点及び顕現性の程度は、それぞれ、foc(d)及びsal(d)で表される。参照ドメインは、顕現性にしたがって降順にソートされる。
【００３２】
図５は、７個のピースからなるタングラム・パズルを解いている場面を示す図である。タングラム・パズルについては後で説明する。参照ドメインは、参照表現を聴くことによって言語によって、あるいは、物理的な状況を観察することによって視覚によって、対話参加者の知的な空間に導入される。図５に示す状況で「２個の大きな三角形」と言われた場合には、ピース１及び２から構成される参照ドメインが認識される。もし、ピース１を動かしてピース２に付けた場合には、近接度からピース１、２及び６から構成される参照ドメインが感覚的に認識される（Kristinn R. Thorisson. 1994. Simulated perceptual grouping: An application to human-computer interaction. In Proceedings of the 16^th annual Conference of the Cognitive Science Society, pages 876-881, Atlanta, GA, USA）。同様にして、ピース５及び７から構成される参照ドメインも認識される。以下において、参照ドメインを、インデクスを付した＠で示し、その要素を[]で囲んで示す。たとえば、@₁=[1,2]、@₂=[1,2,6]、@₃=[5,7]などである。焦点の要素には、＊印をつける。たとえば、foc([1*,2])=1である。
【００３３】
参照ドメインの指示対象は、どの参照ドメインが想定されるかによって異なる。すなわち、@₁=[1,2]または@₂=[1,2,6]が想定されれば、「右のピース」の指示対象は、ピース１である。@₃=[5,7]が想定されれば、「右のピース」の指示対象は、ピース５である。
【００３４】
参照ドメインに関する上記の文献は、確率的なアプローチではなく論理記号演算に基づくアプローチを採用している。
【００３５】
図３は、「そのテーブル」のような１個の指示対象を示す参照表現の参照ベイジアンネットワークを示す図である。このように、人間が１つのまとまりとして認識する指示対象への参照表現を単位参照表現と呼称する。上記の例の他に、「赤いボール」、「あの夫婦」、「隣の部屋」、「昨日」といった参照表現は単位参照表現である。
【００３６】
図４は、「彼のテーブル」のような２個の指示対象を示す参照表現の参照ベイジアンネットワークを示す図である。このように、２以上の単位参照表現を含む参照表現を複合参照表現と呼称する。上記の例の他に、「僕のボール」、「机の上」、「去年の１２月」といった参照表現は複合参照表現である。
【００３７】
参照ベイジアンネットワークは、複合参照表現を処理することもできるが、以下においては、簡単のため、単位参照表現を処理する場合について説明する。
【００３８】
Ｎ語の単位参照表現インスタンス用の参照ベイジアンネットワークは、２Ｎ＋２個の個別のランダム変数Ｗ_１，・・・，Ｗ_ｎ，Ｃ_１・・・，Ｃ_ｎ，Ｘ及びＤを有する。各変数の領域は、その時点におけるコンテキスト及び対応する参照ドメインによって定まる。ここで、
【数２】

は、ランダム変数Ｖの領域を示す。
【数３】

は、対応する観測される語ｗ_ｉ及び他の可能性を表すωを含み、
【数４】

となる。各Ｗｉは対応するノードＣｉを有する。
【数５】

は、ｗ_ｉによって表すことのできるＭ個の概念及び他の可能性を表す特別の概念Ωを含み、
【数６】

となる。
【数７】

は、後で説明する概念辞書から参照される。
【数８】

は、その時点までに認識されたＬ＋１個の参照ドメインを含み、
【数９】

となる。@₀は、対話において参照されるすべての個別の具体物を含む基底ドメインである。対話の初期において、
【数１０】

である。他のＬ個の参照ドメインは、対話中に徐々に追加される。
【数１１】

は、全ての考えうる指示対象を、すなわち、Ｋ個の個々の具体物及びＬ＋１個の参照ドメインを含む。したがって、
【数１２】

となる。
【００３９】
参照ベイジアンネットワークを使用した指示対象の求め方は、
【数１３】

と定式化される。
【数１４】

は、以下に説明する確率表によって計算される結合確率を周辺化することによって得られる。
【００４０】
参照ベイジアンネットワークで使用されるすべてのランダム変数は離散的であるので、確率分布は、確率表として与えられる。参照ベイジアンネットワークで使用される４個の確率表について以下に説明する。
【数１５】

は、話し手が指示することを意図するｃ及びｘから聴き手がｗを観測する確率である。
【００４１】
ほとんどの場合に、ＷｉはＸに依存しない。すなわち、
【数１６】

である。しかし、Ｘは、個別化された項目(名前)を扱うのに必要である。
【００４２】
確率の割り当てにはいくつかの方法が考えられる。一つの簡単な方法は以下のとおりである。各々の
【数１７】

に対して
【数１８】

とし、Ωに対して、
【数１９】

とする。ここで、Ｔは、概念
【数２０】

に対して考えられる語の数であり、εは、１０^−８のような予め定めた小さな数である。
【数２１】

は、ｄ内のｘを指示するために、
【数２２】

から概念ｃが選択される確率である。
【数２３】

は、コンテキストに依存するので、対話システムの開発者は、あらかじめ
【数２４】

を与えることはできない。したがって、
【数２５】

から
【数２６】

を構成するアプローチを採用する。
【数２７】

は、ｄに関して、概念
【数２８】

の指示対象ｘに対する適合度であり、
【数２９】

である。１は、完全な適合度を意味し、０は適合度がないことを意味する。０．５は中立を意味する。たとえば、ｘがスーツケースであるとき、概念「箱」は、０．８のような、高い適合度を有するが、概念「ボール」は、０．１のような、低い適合度を有する。ｘがｄの中になければ、
【数３０】

は、０である。
【数３１】

のいずれもが高い適合度を有さない場合には、概念Ωには高い確率が割り当てられる。
【数３２】

が静的であれば、
【数３３】

は、予め表の形で数値として与えられる。静的でなければ、対話システム開発者によって関数の形で組み込まれる。すなわち、
【数３４】

である。ここで、Ｉは、対話システムから得られるすべての情報である。
【００４３】
たとえば、図５に示すような状況において、位置的概念「左」の適合度関数は、以下のように実装される。
【数３５】

ここで、ｕ_ｘ，ｕ_ｌｕ_ｒは、それぞれ、ｘ、ｄにおける最も左のピース、及びｄにおける最も右のピースの水平座標である。これらは、Ｉから得られる。ｘが参照ドメインであれば、適合度は、該参照ドメインに含まれる要素の平均値として与えられる。
【数３６】

は、参照ドメインｄにおける要素ｘが参照される確率であり、参照ドメインにおける属性情報に関係なく、対応する参照表現が発せられた時点におけるコンテキスト情報にしたがって推定される。コンテキスト情報は、それまでの参照の歴史(談話)及び参照者の注視のような物理的な状態(状況)を含む。
【数３７】

を予測モデルと呼称する。予測モデルについては実験に関連して後で説明する。
【数３８】

は、参照表現が発せられた時点で、参照ドメインｄが予想される確率である。参照ドメインは、陰(implicit)であるので、この確率モデルを推定するためのデータを収集することはできない。したがって、顕現性ｄに基づくアプリオリな近似関数を試験する。顕現性は、最新性に比例する。顕現性については評価実験に関連して後で説明する。
一様モデル
このモデルは顕現性を無視する。このモデルは、顕現性の重要度を理解するために導入する。
【数３９】

線形モデル
このモデルは、顕現性に比例するように確率を分配する。
【数４０】

指数モデル
このモデルは、最近の参照ドメインを強調する。この関数は、いわゆるソフト・マックスである。
【数４１】

【００４４】
図６は、参照表現処理部１０１による参照表現の理解の処理を示す流れ図である。
【００４５】
図６のステップＳ１０１０において、参照表現処理部１０１がすべての考えられる指示対象ｘについて、参照表現ベイジアンネットワーク(ＲＥＢＮ)を作成し、確率
【数４２】

を求める。
【００４６】
図６のステップＳ１０２０において、参照表現処理部１０１は、確率
【数４３】

が最大となるｘ’を参照表現の指示対象として選択する。
【００４７】
図７は、図６のステップＳ１０１０の詳細な処理を説明するための流れ図である。
【００４８】
図７のステップＳ２０１０において、参照表現処理部１０１がＰ（Ｄ）を求める。Ｐ（Ｄ）の求め方は上述のとおりである。
【００４９】
図７のステップＳ２０２０において、参照表現処理部１０１が
【数４４】

を求める。
【数４５】

の予測モデルについては、上述のように後で説明する。
【００５０】
図７のステップＳ２０３０において、参照表現処理部１０１が
【数４６】

を求める。
【数４７】

の求め方は上述のとおりである。
【００５１】
図７のステップＳ２０４０において、参照表現処理部１０１が
【数４８】

を求める。
【数４９】

の求め方は上述のとおりである。
【００５２】
図７のステップＳ２０５０において、参照表現処理部１０１が
【数５０】

を求める。
【００５３】
図７のステップＳ２０６０において、参照表現処理部１０１が
【数５１】

を、既存の手法を用いて周辺化し、
【数５２】

を求める。
【００５４】
図８は、参照表現処理部１０１による参照表現の生成の処理を示す流れ図である。
【００５５】
図８のステップＳ３０１０において、参照表現処理部１０１は、指示対象ｘを受け取り、Ｗの候補を定める。
【００５６】
図８のステップＳ３０２０において、参照表現処理部１０１は、参照表現ベイジアンネットワークを使用して、図７の流れ図に示した手順により
【数５３】

を求める。
【００５７】
図８のステップＳ３０３０において、参照表現処理部１０１は、全てのＷについて処理を行ったかどうか判断する。全てのＷについて処理を行っていれば、ステップＳ３０４０に進む。全てのＷについて処理を行っていなければ、ステップＳ３０２０に戻る。
【００５８】
図８のステップＳ３０４０において、参照表現処理部１０１は、指示対象ｘに対して、
【数５４】

が最大となるＷを参照表現として選択する。
【００５９】
このように、本実施形態による参照表現部は、参照表現ベイジアンネットワークを使用した単一の確率モデルにより、参照表現の理解と生成の処理を行うことができる。
【００６０】
本実施形態による参照表現処理の評価を行うための実験について説明する。
【００６１】
評価用データとしてＲＥＸ−Ｊコーパス(Phlipp Spanger, Masaaki Yasuhara, Ryu Iida, Takenobu Tokunaga, Asuka Terai, and Naoko Kuriyama. 2010. REX-J: Japanese referring expression corpus of situated dialog. Language Resources and Evaluation. Online First, DOI: 10.1007/s10579-010-9134-8)を使用した。ＲＥＸ−Ｊコーパスは、２４個の人間−人間対話から構成され、それぞれの対話において、二人の参加者が、図５に示す７個のピースのタングラム・パズルを解く。パズルのゴールは、指定された形状を形成するように７個のピースを組み合わせることである。二人の被験者のうちの一人は、操作する人（ＯＰ）の役割を果たし、他の一人は解く人（ＳＶ）の役割を果たす。ＯＰは、マウスを操作することによってパソコンのモニター上に表示された仮想パズルピースを操作することができるがゴールの形状は知らない。ＳＶは、ゴールの形状を知っているが、ピースを操作することはできない。ピース及びＯＰによって操作されるマウスカーソルの状態は、リアルタイムに二人の被験者によって共有される。このようにして二人の参加者は、ピースへの多数の参照表現を含む協力的な対話を進める。参照表現に加えて、ピースの位置及び方向、マウスカーソルの位置、及びＯＰによる操作が、タイムスタンプ及び指示対象ピースのＩＤとともに記録された。
【００６２】
表１は、指示対象を付記したそれぞれの参照表現を示す表である。表１の１番目の参照表現「おっきい三角形」はあいまいであり、ピース１または２を指す。７番目及び８番目の参照表現はピース１及び２の集合を指す。その他の参照表現は、個別のピースを指す。
【表１】

【００６３】
参照表現の構造解析のエラーによる問題を避けるために、参照ベイジアンネットワークが構成されるもとになる中間構造(REX-graph)も付記した。中間構造は、カッコ内の分離された単語のリストである。
【００６４】
確率計算には、ＢＮＪ（http://bnj.sourceforge.net/）を使用する。以下において、多かれ少なかれＲＥＸ−Ｊコーパスのタスク領域に特有の具体化について説明する。
【００６５】
図９は、ＲＥＸ−Ｊコーパスに対して定義された概念辞書の抜粋を示す図である。対話を観察することにより４０個の概念を定義した。
【００６６】
図１０は、図５に示す７個のピースに対して定義された静的適合度表の抜粋を示す図である。４０個の概念のうち１３個に対して適合度の値を定めた。ＯＢＪは、全てのピースに対して、一様にかつ完全に適合する。ＦＩＧは、全てのピースに対して、一様ではあるが、それほど適合しない。ＴＲＩは、ピース１乃至５に対してのみ適合する。ＳＱＲは、ピース６及び７に対してのみ適合するが、ピース７は厳密な意味では、”square”ではないので、完全には適合しない。
【００６７】
残りの２７個の概念に適合度関数を実装した。その一部について以下に説明する。
【００６８】
「もう一つの」（ANOTHER）
参照ドメインｄの要素の中で焦点となっているものをfocus(d)で表す。
【数５５】

「残りの」（REST）
【数５６】

のように２個の群を要素に持つ参照ドメインの場合に限って、焦点の当っていない方の群の適合度を１とすし、それ以外の場合は０とする。
【数５７】

「両方」（BOTH）
ｘが群でその要素が２個であるとき１とする。
【数５８】

「図形」（FIG）
この表現は組み上がっているピースの群を参照する。そこで、ｘが単一ピースの場合(single(x)=true)は静的適合表から得た数値ｒとし、ｘが群であり互いに接続して形をなしている場合(shape(x)=true)は１とする。
【数５９】

「全部」（ALL）
すべての参照ドメインは、自分自身への特殊な参照(自己参照)をその要素に含むと考える。つまり、
【数６０】

である。その上で、
【数６１】

とする。
【００６９】
つぎに、参照ドメインのリストについて説明する。参照解決（参照表現の理解）の進行に応じて、参照ドメインはリストに追加され、以下の手順で更新される。リストにおいて参照ドメインは、顕現性にしたがって降順でソートされる。
【００７０】
参照解決ごとに、全ての従前の参照表現は、正しく解決されると仮定する。したがって、それぞれの参照解決時点後に、最後の参照表現の正しい指示対象が集合であれば、該集合と同じ新たな参照ドメインが、参照ドメインのリストに含まれない限り、参照ドメインのリストに追加する。いずれの場合にも、該集合と同じ参照表現が既に参照ドメインのリストの先頭でない限り、該集合と同じ参照表現の顕現性をσ＋１とする。ここで、シグマは、その時点における参照ドメインのリスト内の最大の顕現性の値、すなわち、先頭の参照ドメインの顕現性の値である。
【００７１】
それぞれの参照解決時点前に、先行する参照表現の後に一番最近に操作されたピースが、知覚的な群を構成するかどうかを、後で説明する知覚的群化によって目標参照表現の開始時に確認する。群が認識されれば、認識された群と同じ新たな参照ドメインが、参照ドメインのリストに含まれていない限り、参照ドメインのリストに追加する。いずれの場合にも、該集合と同じ参照ドメインが既に参照ドメインのリストの先頭でない限り、該集合と同じ参照ドメインの顕現性をσ＋１とし、該集合と同じ参照ドメインの焦点は一番最近に操作されたピースに設定される。
【００７２】
新しい参照ドメイン＠_ｍがリストに追加されたとき、その補集合の参照ドメイン＠_ｎ及び包括参照ドメイン＠_ｌも、リストの＠_ｍの後に挿入される。ここで、
【数６２】

及び
【数６３】

である。この操作は、「残りの」(REST)のような概念を扱うのに必要である。
【００７３】
知覚的群化について説明する。ここでは、２個のピース間の最短距離が所定値以下である時に該２個のピースは接触しているとみなし、接触しているピースの集合だけを群として認識する。この方法は、汎用的ではないが、タングラム・パズルの性質によりＲＥＸ−Ｊコーパスの領域では満足に機能する。
【００７４】
図１１は、参照ドメインのリストを使用して
【数６４】

を求める方法を示す流れ図である。この処理は、対話管理部１０９が行ってもよい。
【００７５】
図１１のステップＳ４０１０において、対話管理部１０９は、参照表現処理部１０１による参照解決の直前に、知覚的群化の結果に基づき、参照ドメインのリストを更新する。
【００７６】
図１１のステップＳ４０２０において、参照表現処理部１０１は、参照ドメインのリストから求めた顕現性を、上述の顕現性のモデルに入力して
【数６５】

を求める。
【００７７】
図１１のステップＳ４０３０において、対話管理部１０９は、参照表現処理部１０１による参照解決の直後に、その結果に応じて、参照ドメインのリストを更新する。
【００７８】
上述のように、予測モデル
【数６６】

を構築するために、SVMrank（Thorsten Joachism. 2006. Training linear SVMs in linear time. In Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD), pages 217-226, Philadelphia, PA, USA, August）を使用するランキングに基づく方法(Ryu IIDA, Shumpei Kobayashi, and Takenobu Tokunaga. 2010. Incorporating extra-linguistic information into reference resolution in collaboration task dialogue. In Proceedings of the 48^th Annual Meeting of the Association for Computational Linguistics, pages 1259-1267, Uppsala, Sweden, July)を採用した。このモデルは、目標の要素は以前に参照されたか(談話素性)、目標はマウスカーソルの下にあるか(マウスカーソル素性)などの１６個の２値素性にしたがって要素をランク付けする。
【００７９】
目標が集合、すなわち参照ドメインである場合には、集合に対する談話素性は、ピースの場合のように計算される。一方、マウスカーソル素性は異なる仕方で処理される。すなわち、グループのメンバーの一つがマウスカーソル素性の基準を満たせば、そのグループは基準を満たすと判断される。
【００８０】
ランクは、
【数６７】

で表せる。θはコンテキスト情報である。
【数６８】

は、ランクを使用して以下の式で求められる。
【数６９】

ここで、
【数７０】

は
【数７１】

となるための正規化係数である。
【００８１】
ｄ内にｘがなければ、
【数７２】

は０である。
【００８２】
評価には２４個の対話を使用した。２４個の対話は、１４７４個の単位参照表現と２８個の複合参照表現を含む。複合参照表現の他に、適合度関数を短時間で具体化するのが困難な複雑な概念に言及する参照表現を除外した。これらの参照表現を除外した後、１３１０個の参照表現が利用可能であった。１３１０個の参照表現のうち、１８２個の（１３．９％）は集合を指し、６１２個（４６．７％）は、「それ」などの指示代名詞である。
【００８３】
実験において以下の条件を前提とする。
話者の役割の独立性
参照表現は、話者の役割、すなわち、「解く人」及び「操作する人」から独立しているとする。すべての参照表現は、混合され連続的に処理される。
完全な処理および過去の情報
音声認識、形態素解析および構文解析を含む前処理から誤りは生じないとする。さらに、過去の参照表現の全ての正しい指示対象は既知であるとする。
未来情報なし
人間間の対話において、しばしば、参照表現の解決に役立つ情報が参照表現が発せられた後に与えられる。このような未来の情報は考慮しない。
数の情報
英語を含む多数の言語は、冠詞、名詞の単数形・複数形及び連辞などを使用して数の区別を示すことを要求する。日本語はそのような文法的な仕組みを有さないが、言語的情報及び身振りの情報を用いる機械学習技術を使用してそのような区別を予測することができる。そこで、そのような数の情報を与える効果を観察した。以下の実験において、正しい指示対象の注釈を事前に見ることによって、単数・複数の区別の情報を参照ベイジアンネットワークに与える。このことは、特別の証拠ノードＣ０を追加することによって達成される。ここで、
【数７３】

である。ｘがピースであれば、
【数７４】

及び
【数７５】

である。反対にｘが集合であれば、
【数７６】

及び
【数７７】

である。
【００８４】
実験のベースラインとして、単一ドメインと呼ばれる
【数７８】

モデルを準備した。単一ドメインにおいて、
【数７９】

は、その時点までに認識された個々のピース及び参照ドメインを含む単一の参照ドメイン
【数８０】

のみから構成される。すなわち、
【数８１】

である。
【００８５】
本実験において、参照表現が指示詞を含む場合には、上述のモデルによる参照ドメインを使用するよりも単一ドメインを使用する方が、性能が向上した。以下の結果において、参照表現が指示詞を含む場合には、常に単一ドメインを使用した。
【００８６】
表２は、実験結果を示す表である。参照解決の性能は、カテゴリーごと及び条件ごとに正確さで表される。ここで、正確さは、正しく解決された参照表現の数を参照表現の数で割った値である。

【表２】

【００８７】
評価に当たり、「単数」、「複数」及び「全体」の３個のカテゴリーを設定した。「単数」カテゴリーは、単一のピースを指す参照表現の集まりである。「複数」は、ピースの集合を指す参照表現の集まりである。「全体」は、それらの和である。表１の一番目のようなあいまいな参照表現は、「単一」として数え、解決された結果が考えられる指示対象のうちの一つであれば、そのような参照表現の解決は正しいと考える。
【００８８】
「単複情報なし」は、単数・複数の区別の情報なしの実験結果を示し、「単複情報あり」は、単数・複数の区別の情報ありの実験結果を示す。単数・複数の情報は、明らかに強い影響力を有する。
【００８９】
「単数」カテゴリーに対する最良の性能は、線形モデルによって達成されたが、「複数」に対する最良の性能は「指数モデル」によって達成された。参照表現が「単数」のものであるか「複数」のものであるか知ることができれば、すなわち、単数・複数の情報が利用できれば、適切な
【数８２】

モデルを選択することができる。したがって、モデルを切り替えることによって、単数・複数の情報を使用した「全体」の裁量の性能は、８３．２%に達し、ベースラインに対して２．０ポイントの増加が達成された（符号検定、p<0.0001）。
【００９０】
参照ドメインを導入することによって、「複数」カテゴリーにおける解決は、顕著に向上した。最大の性能の増加は、９．３ポイントである（符号検定、p<0.005）。
【００９１】
さらに、LEFT及びRIGHTなどの位置概念を含むより多くの参照表現が、一様、線形及び指数モデルの場合に正しく解決された。
【００９２】
表３は、単数・複数の情報を使用した４個の位置概念の解決結果をまとめた表である。表３の数値は、全体の数または正解の数である。ベースラインである単一モデルは６５%を解決したが、線形モデルは７５%を正しく解決した（符号検定、p<0.05）。
【表３】

【００９３】
解決ごとに、問題の参照表現に対して専用のベイジアンネットワークが構築される。構築された参照表現ベイジアンネットワークは、記述、直示または照応の参照表現を統一的な仕方で処理する。参照表現ベイジアンネットワークは、コンテキスト依存の属性を使用して参照表現を解決し、集合に応じて参照表現を処理することを可能とする参照ドメインの考えを組み込んでいる。参照表現ベイジアンネットワークは、スマートフォン、自動車システム、サービス用ロボットなどのパーソナル・エイジェントのような任意かつ全てのタスク指向の応用に対して使用することのできる標準的なアプローチとなりうる。
【符号の説明】
【００９４】
１００…言語処理装置、１０１…参照表現処理部、１０３…言語理解処理部、１０５…記憶部、１０７…言語生成処理択部、１０９…対話管理部

【特許請求の範囲】
【請求項１】
考えられる指示対象の集合である参照ドメイン（Ｄ）、参照ドメイン中の指示対象（Ｘ）、指示対象に関する概念（Ｃ）及び概念を表現する語（Ｗ）の間の関係を表す参照表現ベイジアンネットワーククから構成された確率モデルによって、参照表現の理解及び生成の少なくとも一方を行う参照表現処理部と、
前記参照表現ベイジアンネットワークを形成するのに必要なデータを記憶する記憶部と、を備えた参照表現処理装置。
【請求項２】
前記参照表現ベイジアンネットワークが対話の進行中に参照表現の処理ごとに形成されるように構成された請求項１に記載の参照表現処理装置。
【請求項３】
参照表現の種類によって、前記参照ドメインの定め方を変えるように構成された請求項２に記載の参照表現処理装置。
【請求項４】
参照表現が指示詞を含む場合に前記参照ドメインが全ての要素を含むように構成された請求項３に記載の参照表現処理装置。
【請求項５】
参照ドメインの顕現性をパラメータとする、参照ドメインの複数の推定モデルを形成し、参照表現の指示対象が単一物か集合かによって、前記複数の推定モデルのうちの一つを選択して使用するように構成された請求項３に記載の参照表現処理装置。
【請求項６】
請求項１から５のいずれか１項に記載の参照表現処理装置を備えた言語処理装置。
【請求項７】
言語処理装置の参照表現処理部が、記憶部に記憶されたデータを使用して、参照表現に対して、参照ドメイン（Ｄ）、参照ドメイン中の指示対象（Ｘ）、指示対象に関する概念（Ｃ）及び概念を表現する語（Ｗ）の間の関係を表す参照表現ベイジアンネットワークを形成するステップと、
前記参照表現処理部が、前記ベイジアンネットワークを周辺化して、確率Ｐ（Ｘ｜Ｗ）を求めるステップと、
前記参照表現処理部が、確率Ｐ（Ｘ｜Ｗ）を最大とするｘ’を求め、前記参照表現の指示対象とするステップと、を含む参照表現処理方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【公開番号】特開２０１３−１６１５１（Ｐ２０１３−１６１５１Ａ）
【公開日】平成２５年１月２４日（２０１３．１．２４）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 自然言語データの取扱い (7,890)
        
        自然言語の処理または翻訳 (1,147)

【出願番号】特願２０１２−１１００６１（Ｐ２０１２−１１００６１）
【出願日】平成２４年５月１１日（２０１２．５．１１）
【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り　平成２３年１１月１４日に情報処理学会研究報告　第２０１１−ＮＬ−２０４巻　第１３号　第１−９頁にて公開した。　〔刊行物等〕　平成２３年１１月２１日、２２日に情報処理学会の第２０４回自然言語処理研究会にて公開した。
【出願人】（０００００５３２６）本田技研工業株式会社 (23,863)
【Ｆターム（参考）】

機械翻訳 (6,566)
- 対話型処理 (342)
  - 処理の時期 (145)
    - 処理中、途中介在 (32)

[ Back to top ]

言語処理装置

メニュー

スポンサーリンク

次の公報 »

« 前の公報

言語処理装置

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク