説明

単語対応付け装置、方法、及びプログラム

【課題】ベースとなる単語対応付けアルゴリズムに依存することなく、高精度かつ汎用性の高い単語対応付けを行う。
【解決手段】目的分野単語対応付け学習部12により、目的分野の対訳データを用いて目的モデルMinを学習し、一般分野単語対応付け学習部14により、一般分野の対訳データを用いて一般モデルMgenを学習する。目的分野対応付け確率推定部16により、目的モデルMinを用いて目的分野の対訳データを単語対応付けしたときの単語対応行列Ainに相当する確率Tij及びtijを推定し、一般分野対応付け確率推定部18により、一般モデルMgenを用いて同一の目的分野の対訳データを単語対応付けしたときの単語対応行列Agenに相当する確率Gij及びgijを推定する。単語対応行列生成部20により、確率Tij、tij、Gij及びgijを統合することにより、単語対応行列Aを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、単語対応付け装置、方法、及びプログラムに係り、特に、対訳文(お互いが翻訳となっている文の対)の原言語(第1言語)と目的言語(第2言語)との間の単語対応付け(Bilingual Word Alignmnet)を行う単語対応付け装置、方法、及びプログラムに関する。
【背景技術】
【0002】
従来、大量の対訳データ(原言語と目的言語の対訳文)に基づいて、統計的に翻訳規則を作成し、作成した規則に基づいて、入力された原言語を目的言語に機械翻訳することが行われている。このような統計翻訳技術によって機械翻訳を実現する場合に、最も重要な資源は対訳データである。例えば、英語で記述された専門分野の論文を日本語に翻訳する場合、英語論文と日本語論文との何万文もの文の対(sentence pair)を集めた対訳データを、学習データとして用意することが必要である。統計翻訳技術では、この対訳データを使って、統計的な情報を計算し、文の中の単語対応付けを行う。
【0003】
統計翻訳技術について、より具体的に説明する。一般的な統計翻訳システム1000の構成を図4に示す。まず、対訳文が単語対応付け部1002に受け渡され、単語対応付けが実行される。単語対応付けの方法はいくつか既に提案されており、例えば、生成モデルを用いた方法(例えば、非特許文献1参照)や識別モデルを用いた方法(例えば、非特許文献2参照)などがある。単語対応付け部1002において対応付けされた単語対応付け情報が、ルール抽出・確率計算部1004に受け渡され、ルール抽出・確率計算部1004において、単語対応付け情報を用いて、翻訳ルールを生成すると共に、各々のルールの確率が計算される。この確率の付与されたルールの集合を機械翻訳装置1006で利用することにより、機械翻訳装置1006に入力された入力文を翻訳文に翻訳することができる。このように、単語対応付けは、統計翻訳技術において、最初の重要なステップとなっている。
【0004】
ここで、翻訳対象、すなわち単語対応付け対象となる文章の分野と学習用の対訳データの分野とが一致している場合、学習用の対訳データの量があればあるほど、単語対応付けの精度は向上する。しかしながら、翻訳対象とする分野以外の対訳データを翻訳対象分野の対訳データに混ぜて学習用の対訳データを増やしても、必ずしも単語対応付け精度が向上するとは限らない、という問題がある。例えば、日本語の「素性」という単語は通常 “antecedent”や“background”の意味で使われるが、自然言語処理分野では、“feature”と訳されることが多い。このため、種々の対訳データを単純に混ぜただけでは、自然言語処理分野の文章に対して、良い精度の翻訳を得るには不十分である。
【0005】
この問題に対応する技術として、転移学習を使った単語対応付け方法が提案されている(例えば、非特許文献3及び4参照)。非特許文献3の方法では、初めに、目的分野以外のコーパス及び目的分野のコーパス各々で、2つの統計的な単語対応付けモデルを学習して、この2つのモデル各々から得られる辞書を補間法により統合している。また、非特許文献4の方法では、混合モデリングを統計的機械翻訳に適用して、トレーニングデータにより適合する確率分布を学習している。
【0006】
また、隠れマルコフモデル(Hidden Markov Model)の手法を用いた単語対応付けアルゴリズムも提案されている(例えば、非特許文献5参照)。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Franz Och and Hermann Ney, “A systematic comparison of various statistical alignment models,” Computational Linguistics, 29 (1): 19-51.
【非特許文献2】Ben Taskar, Simon Lacoste-Julien, Dan Klein, “A Discriminative matching approach to word alignment”, Proceedings of the Conference on Empirical Methods for Natural Language Processing (EMNLP), 2005.
【非特許文献3】Hua Wu, Haifeng Wang, Zhanyi Liu, “Alignment model adaptation for domain specific word alignment,” in Proceedings of the Annual Meeting of Association for Computational Linguistics (ACL), 2005.
【非特許文献4】Jorge Civera, Alfons Juan, “Domain adaptation in statistical machine translation with mixture modeling”, in Proceedings of the Workshop on Statistical Machine Translation (WMT), 2007.
【非特許文献5】Stephan Vogel, Hermann Ney, and Christoph Tilmann, “HMM-based Word alignment in statistical translation,” in Proceedings of the International Conference on Computational Linguistics (COLING), 1996.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、非特許文献3及び4に記載された方法は、ベースとなる単語対応付けアルゴリズムに依存した方法となっており、様々な単語対応付けアルゴリズムに対応できない。例えば、非特許文献3の方法は、非特許文献5のような隠れマルコフモデルの単語対応付けアルゴリズムにしか適用することができない。何語から何語への翻訳か、翻訳対象となる文章の分野は何か、などに応じて、最適な単語対応付けアルゴリズムは異なるため、非特許文献3及び4に記載された方法のように、単語対応付けアルゴリズムに依存する方法では、汎用性が低いものとなる、という問題がある。
【0009】
本発明は上記問題点に鑑みてなされたものであり、ベースとなる単語対応付けアルゴリズムに依存することなく、高精度かつ汎用性の高い単語対応付けを行うことができる単語対応付け装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成するために、本発明の単語対応付け装置は、第1言語で記述された複数の単語を含む第1言語文と該第1言語の翻訳となる第2言語で記述された複数の単語を含む第2言語文との対である対訳データであって、翻訳対象となる文の目的分野の対訳データを用いて、前記第1言語文に含まれる単語と前記第2言語文に含まれる単語との対応付けを行うための第1単語対応付けモデルを学習すると共に、前記目的分野以外の分野を含む対訳データを用いて、第2単語対応付けモデルを学習する学習手段と、前記学習手段により学習された第1単語対応付けモデル及びを第2単語対応付けモデル各々を用いて、目的分野の対訳データを構成する前記第1言語文に含まれる単語各々と前記第2言語文に含まれる単語各々との対応付けの有無を表す確率を各々推定する推定手段と、前記推定手段により、前記第1単語対応付けモデルを用いて推定された確率と、前記第2単語対応付けモデルを用いて推定された確率とを統合し、前記目的分野の対訳データを構成する前記第1言語文に含まれる単語各々と前記第2言語文に含まれる単語各々との対応付けを表す単語対応行列を生成する生成手段と、を含んで構成されている。
【0011】
本発明の単語対応付け装置によれば、学習手段により、第1言語で記述された複数の単語を含む第1言語文と第1言語の翻訳となる第2言語で記述された複数の単語を含む第2言語文との対である対訳データであって、翻訳対象となる文の目的分野の対訳データを用いて、第1言語文に含まれる単語と第2言語文に含まれる単語との対応付けを行うための第1単語対応付けモデルを学習する。また、同様に、学習手段は、目的分野以外の分野を含む対訳データを用いて、第2単語対応付けモデルを学習する。単語対応付けモデルの学習には、従来既知の手法を用いることができる。
【0012】
そして、推定手段が、学習手段により学習された第1単語対応付けモデルを用いて、目的分野の対訳データを構成する第1言語文に含まれる単語各々と第2言語文に含まれる単語各々との対応付けの有無を表す確率を推定する。また、同様に、推定手段は、第2単語対応付けモデルを用いて、単語の対応付けの有無を表す確率を推定する。そして、生成手段が、推定手段により、第1単語対応付けモデルを用いて推定された確率と、第2単語対応付けモデルを用いて推定された確率とを統合し、目的分野の対訳データを構成する第1言語文に含まれる単語各々と第2言語文に含まれる単語各々との対応付けを表す単語対応行列を生成する。
【0013】
このように、目的分野の対訳データによる単語対応付けの確率と、目的分野以外の分野を含む対訳データによる単語対応付けの確率とを統合することにより、ベースとなる単語対応付けアルゴリズムに依存することなく、高精度かつ汎用性の高い単語対応付けを行うことができる。
【0014】
また、前記推定手段は、前記第1単語対応付けモデルを用いて、前記目的分野の対訳データを構成する前記第1言語文に含まれる単語各々と前記第2言語文に含まれる単語各々とに対応付けがある確率及び対応付けがない確率を推定すると共に、前記第2単語対応付けモデルを用いて、前記目的分野の対訳データを構成する前記第1言語文に含まれる単語各々と前記第2言語文に含まれる単語各々とに対応付けがある確率及び対応付けがない確率を推定することができる。
【0015】
また、前記生成手段は、ベイズ理論により、前記単語対応行列の事前確率と尤度との積で表した事後確率に基づいて、前記単語対応行列を生成することができる。
【0016】
また、本発明の単語対応付け方法は、学習手段と、推定手段と、生成手段とを含む単語対応付け装置における単語対応付け方法であって、前記学習手段は、第1言語で記述された複数の単語を含む第1言語文と該第1言語の翻訳となる第2言語で記述された複数の単語を含む第2言語文との対である対訳データであって、翻訳対象となる文の目的分野の対訳データを用いて、前記第1言語文に含まれる単語と前記第2言語文に含まれる単語との対応付けを行うための第1単語対応付けモデルを学習すると共に、前記目的分野以外の分野を含む対訳データを用いて、第2単語対応付けモデルを学習し、前記推定手段は、前記学習手段により学習された第1単語対応付けモデル及びを第2単語対応付けモデル各々を用いて、目的分野の対訳データを構成する前記第1言語文に含まれる単語各々と前記第2言語文に含まれる単語各々との対応付けの有無を表す確率を各々推定し、前記生成手段は、前記推定手段により、前記第1単語対応付けモデルを用いて推定された確率と、前記第2単語対応付けモデルを用いて推定された確率とを統合し、前記目的分野の対訳データを構成する前記第1言語文に含まれる単語各々と前記第2言語文に含まれる単語各々との対応付けを表す単語対応行列を生成する方法である。
【0017】
また、本発明の単語対応付けプログラムは、コンピュータを、上記の単語対応付け装置を構成する各手段として機能させるためのプログラムである。
【発明の効果】
【0018】
以上説明したように、本発明の単語対応付け装置、方法、及びプログラムによれば、目的分野の対訳データによる単語対応付けの確率と、目的分野以外の分野を含む対訳データによる単語対応付けの確率とを統合することにより、ベースとなる単語対応付けアルゴリズムに依存することなく、高精度かつ汎用性の高い単語対応付けを行うことができる、という効果が得られる。
【図面の簡単な説明】
【0019】
【図1】本実施の形態の単語対応付け装置の機能的構成を示すブロック図である。
【図2】本実施の形態の単語対応付け装置における単語対応付け処理ルーチンの内容を示すフローチャートである。
【図3】本発明の評価実験の結果を示すグラフである。
【図4】従来の機械翻訳システムの構成を示すブロック図である。
【発明を実施するための形態】
【0020】
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、原言語を英語、目的言語を日本語とした場合の単語対応付けについて説明する。また、翻訳対象となる文章の分野を目的分野と呼ぶ。
【0021】
まず、単語対応付けという問題を次のように定義する。入力となる対訳データは、英語文と日本語文との対とする。英語文をe={e,e,e,・・・,e}で表し、I単語からなるものとする。同様に、日本語文をf={f,f,f,・・・,f}で表し、J単語からなるものとする。ここで、単語対応付けはI×J行列(A)として表現することができる。この行列を単語対応行列と呼ぶ。単語対応行列Aにおいて、Aの(i,j)要素であるAijが、Aij=0の場合はeとfとの単語対応付けがないことを表す。Aij=1の場合はeとfとの単語対応付けがあることを表す。単語対応付けアルゴリズムは、あらゆる単語対応行列Aの可能性に対して、別途与えられる単語対応付けモデルに基づいて、確率Prob[A]または尤度を計算し、最も尤もらしい単語対応行列Aを求める手続として定義される。
【0022】
本実施の形態に係る単語対応付け装置10は、CPUと、RAMと、後述する単語対応付け処理ルーチンを実行するためのプログラムを記憶したROMと、を備えたコンピュータで構成されている。また、記憶手段としてのHDDを含んで構成するようにしてもよい。コンピュータは、機能的には、図1に示すように、目的分野単語対応付け学習部12と、一般分野単語対応付け学習部14と、目的分野対応付け確率推定部16と、一般分野対応付け確率推定部18と、単語対応行列生成部20とを含んだ構成で表すことができる。なお、目的分野単語対応付け学習部12及び一般分野単語対応付け学習部14が、本発明の学習手段の一例、目的分野対応付け確率推定部16及び一般分野対応付け確率推定部18が、本発明の推定手段の一例である。
【0023】
目的分野単語対応付け学習部12は、目的分野の対訳データを入力とし、単語対応付けモデルを学習する。学習の手法は、従来既知の技術を用いることができ、例えば、非特許文献1記載の生成モデルや非特許文献2記載の識別モデルの方法を用いることができる。例えば、生成モデルを用いる手法では、対訳データから単語対応付けの真の確率分布を推定する。また、識別モデルを用いる手法では、単語対応付けが既知の対訳データを用いて、未知入力文に対する単語対応付けを判別するための判別関数を学習により生成する。目的分野単語対応付け学習部12により生成された単語対応付けモデルを、目的モデル(target model,Min)と呼ぶ。
【0024】
一般分野単語対応付け学習部14は、目的分野の対訳データ及び目的分野以外の他分野の対訳データ(以下、一般分野の対訳データともいう)を入力とし、目的分野単語対応付け学習部12と同様の手法により、単語対応付けモデルを生成する。一般分野単語対応付け学習部14により生成された単語対応付けモデルを、一般モデル(general model,Mgen)と呼ぶ。一般モデルMgenは、対訳データが目的分野かそうでないかを区別することなく生成したモデルであるため、一般的なモデルとみなすことができる。
【0025】
目的分野対応付け確率推定部16は、目的分野単語対応付け学習部12で生成された目的モデルMinを用いて、目的分野の対訳データを単語対応付けする。また、目的モデルMinによるeとfとに対応付けがある確率をTij、対応付けがない確率をtijとし、確率Tij及び確率tijを、下記(1)式及び(2)式により推定する。
【0026】
【数1】

【0027】
ここで、N(e,f)は、目的モデルMinにおける単語対応のN−bestリストを表す。また、δ(・)は識別関数であり、δ(Aij=1)は、Aij=1ならば1を返し、それ以外の場合は0を返す関数である。また、Zは、下記(3)式で表される正規化因子である。
【0028】
【数2】

【0029】
ここで、lin(A’)は、目的モデルMinのもとで単語対応行列A’が得られる確率であり、下記(4)式で表される。p(A;e,f)は、単語対応行列Aの事前確率である。
【0030】
【数3】

【0031】
一般分野対応付け確率推定部18は、一般分野単語対応付け学習部14で生成された一般モデルMgenを用いて、目的分野対応付け確率推定部16で用いたのと同一の目的分野の対訳データを単語対応付けする。また、一般モデルMgenによるeとfとに対応付けがある確率をGij、対応付けがない確率をgijとし、確率Gij及び確率gijを、下記(5)式及び(6)式により推定する。
【0032】
【数4】

【0033】
N(e,f)、δ(・)、及びZについては、目的分野対応付け確率推定部16と同様である。
【0034】
目的分野対応付け確率推定部16及び一般分野対応付け確率推定部18の処理は、同一の目的分野の対訳データを目的モデルMinに基づいて単語対応付けしたときの単語対応行列Ainと、一般モデルMgenに基づいて単語対応付けしたときの単語対応行列Agenとを推定することに相当する。単語対応行列Ain及び単語対応行列Agenは、下記(7)式で表される。
【0035】
【数5】

【0036】
単語対応行列生成部20は、目的分野対応付け確率推定部16で推定された単語対応行列Ainと、一般分野対応付け確率推定部18で推定された単語対応行列Agenとを統合して、単語対応行列Aを生成する。具体的には、(1)式、(2)式、(5)式及び(6)式により推定された確率Tij、tij、Gij及びgijを用いて、下記(8)式により、単語対応行列Ainと単語対応行列Agenとを統合することにより、単語対応行列Aを生成する。
【0037】
Prob[Aij=1|T,G]=(Tij+Gij)/(Tij+Gij+tij+gij) (8)
(8)式は、ベイズ理論(Bayesian Theory)に基づいたものである。ここで、(8)式の導出について説明する。まず、ベイズ理論によれば、単語対応付け行列の事後確率(posterior probability)は、事前確率(prior probability; P(A))と尤度(likelihood;P(Min|A))との掛算で表される。従って、各対訳データの事後確率は、下記(9)式のように表される。
【0038】
P(A|Min;e1I,f1J)=P(Min|A;e1I,f1J)P(A;e1I,f1J) (9)
【0039】
次に、行列の事後確率を高速に計算するために、行列の確率構造(graphical model structure)を近似する。要素A(i+1)jと要素Aijとの間に独立を仮定すると、(9)式は、下記(10)式のように書くことができる。
【0040】
P(A|Min;e1I,f1J)= ΠijP(Aij |Min;e1I,f1J) (10)
【0041】
ijはバイナリ変数のため、(10)式の各項はベルヌーイ−ベータ分布で表現できる。さらに、eとfとの対応付けがある確率は、下記(11)のように、パラメータuのベルヌーイ分布で表現できる。
【0042】
P(Aij |u)=u^Aij *(1-u)^(1-Aij) (11)
【0043】
ベイズ法を用いない場合、u=Tij/(Tij+tij)であるが、ベイズ法を用いた場合には、パラメータuは単なる数値ではなく、ベータプライアに従う確率変数であると考える。式で書くと、下記(12)式のようになる。
【0044】
P(u|Tij,Gij,tij,gij)
={Γ(Tij+Gij+tij+gij)/Γ(Tij+Gij)Γ(tij+gij)}*u^(Tij+Gij-1)*(1-u)^(tij+gij-1)
(12)
【0045】
ここで、Γはガンマ関数(gamma function)である。そして、(11)式と(12)式とを掛算して、uで積分すると、下記(13)式となり、最終的に(8)式が導出される。
【0046】
∫P(Aij|u)P(u|Tij,Gij,tij,gij)du=(Tij+Gij)/(Tij+Gij+tij+gij) (13)
【0047】
次に、図2を参照して、本実施の形態の単語対応付け装置10において実行される単語対応付け処理ルーチンについて説明する。
【0048】
ステップ100で、目的分野の対訳データ及び一般分野の対訳データを読み込む。
【0049】
次に、ステップ102で、上記ステップ100で読み込んだ目的分野の対訳データを入力とし、単語対応付けモデルを学習して、目的モデルMinを生成する。また、上記ステップ100で読み込んだ一般分野の対訳データを入力とし、単語対応付けモデルを学習して、一般モデルMgenを生成する。
【0050】
次に、ステップ104で、上記ステップ102で生成された目的モデルMinを用いて、目的分野の対訳データを単語対応付けし、目的モデルMinによるeとfとに対応付けがある確率Tij、対応付けがない確率tijを、(1)式及び(2)式により推定する。また、上記ステップ102で生成された一般モデルMgenを用いて、上記と同一の目的分野の対訳データを単語対応付けし、一般モデルMgenによるeとfとに対応付けがある確率Gij、対応付けがない確率gijを、(5)式及び(6)式により推定する。
【0051】
次に、ステップ106で、上記ステップ104で推定された確率Tij、tij、Gij及びgijを用いて、(8)式により、単語対応行列Ainと単語対応行列Agenとを統合することにより、単語対応行列Aを生成する。生成した単語対応行列Aを出力して、処理を終了する。
【0052】
以上説明したように、本実施の形態の単語対応付け装置によれば、目的分野の対訳データを用いて学習された目的モデルMinに基づいて、目的分野の対訳データを単語対応付けしたときの単語対応行列Ainに相当する確率Tij及びtijを推定する。また、一般分野の対訳データを用いて学習された一般モデルMgenに基づいて、上記と同一の目的分野の対訳データを単語対応付けしたときの単語対応行列Agenに相当する確率Gij及びgijを推定する。そして、これらの確率Tij、tij、Gij及びgijを統合することにより、単語対応行列Aを生成するため、ベースとなる単語対応付けアルゴリズムに依存することなく、高精度かつ汎用性の高い単語対応付けを行うことができる。
【0053】
なお、上記実施の形態では、原言語を英語、目的言語を日本語とする対訳データを用いる場合について説明したが、原言語を日本語、目的言語を英語とする対訳データとしてもよいし、他の言語を原言語及び目的言語とする対訳データとしてもよい。
【0054】
次に、上記実施の形態の効果を説明するために、下記の実験結果について説明する。
【0055】
目的分野の文章として医療分野の対訳データ(EMEA)を用いた。また、これと併用する他分野の文章として欧州議会の対訳データ(Europarl)を用いた。入力言語はデンマーク語(da)、ドイツ語(de)、ギリシャ語(el)、スペイン語(es)、フィンランド語(fi)、フランス語(fr)、イタリア語(it)、オランダ語(nl)、ポルトガル語(pt)及びスウェーデン語(sv)とし、これらの各言語を英語へ翻訳した。EMEAは約十万文、Europarlは約百万文の大きさである。
【0056】
実験では、提案法(bayes)、単純に目的分野と他分野の対訳データを混ぜて学習したシステム(general)、目的分野だけで学習したシステム(in−domain)の三つのシステムの比較を行った。結果を下記の表1に示す。提案法はほとんどの言語においてBLEU評価(数値が高いほどよい翻訳)で他のシステムに勝っていることが分かる。
【0057】
【表1】

【0058】
もう一つの評価実験として、中国語から英語への新聞翻訳のタスクにおいて、直接、単語対応付けのエラーを評価した。人間が正解単語対応をつけたデータと比較して、自動的に付与した単語対応がどれだけ一致するかを調べたものである。図3に示すように、提案法(bayes)は、精度(precision)及び再現率(recall)の両方を、in−domain及びgeneralと比較して改善することができた。
【0059】
以上の実験から、本発明は他分野の対訳データを利用して、より高精度の単語対応付けができることを示せた。
【0060】
本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0061】
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0062】
10 単語対応付け装置
12 目的分野単語対応付け学習部
14 一般分野単語対応付け学習部
16 目的分野対応付け確率推定部
18 一般分野対応付け確率推定部
20 対応付け転移部

【特許請求の範囲】
【請求項1】
第1言語で記述された複数の単語を含む第1言語文と該第1言語の翻訳となる第2言語で記述された複数の単語を含む第2言語文との対である対訳データであって、翻訳対象となる文の目的分野の対訳データを用いて、前記第1言語文に含まれる単語と前記第2言語文に含まれる単語との対応付けを行うための第1単語対応付けモデルを学習すると共に、前記目的分野以外の分野を含む対訳データを用いて、第2単語対応付けモデルを学習する学習手段と、
前記学習手段により学習された第1単語対応付けモデル及びを第2単語対応付けモデル各々を用いて、目的分野の対訳データを構成する前記第1言語文に含まれる単語各々と前記第2言語文に含まれる単語各々との対応付けの有無を表す確率を各々推定する推定手段と、
前記推定手段により、前記第1単語対応付けモデルを用いて推定された確率と、前記第2単語対応付けモデルを用いて推定された確率とを統合し、前記目的分野の対訳データを構成する前記第1言語文に含まれる単語各々と前記第2言語文に含まれる単語各々との対応付けを表す単語対応行列を生成する生成手段と、
を含む単語対応付け装置。
【請求項2】
前記推定手段は、前記第1単語対応付けモデルを用いて、前記目的分野の対訳データを構成する前記第1言語文に含まれる単語各々と前記第2言語文に含まれる単語各々とに対応付けがある確率及び対応付けがない確率を推定すると共に、前記第2単語対応付けモデルを用いて、前記目的分野の対訳データを構成する前記第1言語文に含まれる単語各々と前記第2言語文に含まれる単語各々とに対応付けがある確率及び対応付けがない確率を推定する請求項1記載の単語対応付け装置。
【請求項3】
前記生成手段は、ベイズ理論により、前記単語対応行列の事前確率と尤度との積で表した事後確率に基づいて、前記単語対応行列を生成する請求項1または請求項2記載の単語対応付け装置。
【請求項4】
学習手段と、推定手段と、生成手段とを含む単語対応付け装置における単語対応付け方法であって、
前記学習手段は、第1言語で記述された複数の単語を含む第1言語文と該第1言語の翻訳となる第2言語で記述された複数の単語を含む第2言語文との対である対訳データであって、翻訳対象となる文の目的分野の対訳データを用いて、前記第1言語文に含まれる単語と前記第2言語文に含まれる単語との対応付けを行うための第1単語対応付けモデルを学習すると共に、前記目的分野以外の分野を含む対訳データを用いて、第2単語対応付けモデルを学習し、
前記推定手段は、前記学習手段により学習された第1単語対応付けモデル及びを第2単語対応付けモデル各々を用いて、目的分野の対訳データを構成する前記第1言語文に含まれる単語各々と前記第2言語文に含まれる単語各々との対応付けの有無を表す確率を各々推定し、
前記生成手段は、前記推定手段により、前記第1単語対応付けモデルを用いて推定された確率と、前記第2単語対応付けモデルを用いて推定された確率とを統合し、前記目的分野の対訳データを構成する前記第1言語文に含まれる単語各々と前記第2言語文に含まれる単語各々との対応付けを表す単語対応行列を生成する
単語対応付け方法。
【請求項5】
コンピュータを、請求項1〜請求項3のいずれか1項記載の単語対応付け装置を構成する各手段として機能させるための単語対応付けプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2013−25397(P2013−25397A)
【公開日】平成25年2月4日(2013.2.4)
【国際特許分類】
【出願番号】特願2011−157008(P2011−157008)
【出願日】平成23年7月15日(2011.7.15)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】