単語対応付け装置、方法、及びプログラム

【課題】ベースとなる単語対応付けアルゴリズムに依存することなく、高精度かつ汎用性の高い単語対応付けを行う。
【解決手段】目的分野単語対応付け学習部１２により、目的分野の対訳データを用いて目的モデルＭ^ｉｎを学習し、一般分野単語対応付け学習部１４により、一般分野の対訳データを用いて一般モデルＭ^ｇｅｎを学習する。目的分野対応付け確率推定部１６により、目的モデルＭ^ｉｎを用いて目的分野の対訳データを単語対応付けしたときの単語対応行列Ａ^ｉｎに相当する確率Ｔ_ｉｊ及びｔ_ｉｊを推定し、一般分野対応付け確率推定部１８により、一般モデルＭ^ｇｅｎを用いて同一の目的分野の対訳データを単語対応付けしたときの単語対応行列Ａ^ｇｅｎに相当する確率Ｇ_ｉｊ及びｇ_ｉｊを推定する。単語対応行列生成部２０により、確率Ｔ_ｉｊ、ｔ_ｉｊ、Ｇ_ｉｊ及びｇ_ｉｊを統合することにより、単語対応行列Ａを生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、単語対応付け装置、方法、及びプログラムに係り、特に、対訳文（お互いが翻訳となっている文の対）の原言語（第１言語）と目的言語（第２言語）との間の単語対応付け（ＢｉｌｉｎｇｕａｌＷｏｒｄＡｌｉｇｎｍｎｅｔ）を行う単語対応付け装置、方法、及びプログラムに関する。
【背景技術】
【０００２】
従来、大量の対訳データ（原言語と目的言語の対訳文）に基づいて、統計的に翻訳規則を作成し、作成した規則に基づいて、入力された原言語を目的言語に機械翻訳することが行われている。このような統計翻訳技術によって機械翻訳を実現する場合に、最も重要な資源は対訳データである。例えば、英語で記述された専門分野の論文を日本語に翻訳する場合、英語論文と日本語論文との何万文もの文の対（ｓｅｎｔｅｎｃｅｐａｉｒ）を集めた対訳データを、学習データとして用意することが必要である。統計翻訳技術では、この対訳データを使って、統計的な情報を計算し、文の中の単語対応付けを行う。
【０００３】
統計翻訳技術について、より具体的に説明する。一般的な統計翻訳システム１０００の構成を図４に示す。まず、対訳文が単語対応付け部１００２に受け渡され、単語対応付けが実行される。単語対応付けの方法はいくつか既に提案されており、例えば、生成モデルを用いた方法（例えば、非特許文献１参照）や識別モデルを用いた方法（例えば、非特許文献２参照）などがある。単語対応付け部１００２において対応付けされた単語対応付け情報が、ルール抽出・確率計算部１００４に受け渡され、ルール抽出・確率計算部１００４において、単語対応付け情報を用いて、翻訳ルールを生成すると共に、各々のルールの確率が計算される。この確率の付与されたルールの集合を機械翻訳装置１００６で利用することにより、機械翻訳装置１００６に入力された入力文を翻訳文に翻訳することができる。このように、単語対応付けは、統計翻訳技術において、最初の重要なステップとなっている。
【０００４】
ここで、翻訳対象、すなわち単語対応付け対象となる文章の分野と学習用の対訳データの分野とが一致している場合、学習用の対訳データの量があればあるほど、単語対応付けの精度は向上する。しかしながら、翻訳対象とする分野以外の対訳データを翻訳対象分野の対訳データに混ぜて学習用の対訳データを増やしても、必ずしも単語対応付け精度が向上するとは限らない、という問題がある。例えば、日本語の「素性」という単語は通常 “ａｎｔｅｃｅｄｅｎｔ”や“ｂａｃｋｇｒｏｕｎｄ”の意味で使われるが、自然言語処理分野では、“ｆｅａｔｕｒｅ”と訳されることが多い。このため、種々の対訳データを単純に混ぜただけでは、自然言語処理分野の文章に対して、良い精度の翻訳を得るには不十分である。
【０００５】
この問題に対応する技術として、転移学習を使った単語対応付け方法が提案されている（例えば、非特許文献３及び４参照）。非特許文献３の方法では、初めに、目的分野以外のコーパス及び目的分野のコーパス各々で、２つの統計的な単語対応付けモデルを学習して、この２つのモデル各々から得られる辞書を補間法により統合している。また、非特許文献４の方法では、混合モデリングを統計的機械翻訳に適用して、トレーニングデータにより適合する確率分布を学習している。
【０００６】
また、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）の手法を用いた単語対応付けアルゴリズムも提案されている（例えば、非特許文献５参照）。
【先行技術文献】
【非特許文献】
【０００７】
【非特許文献１】Franz Och and Hermann Ney, “A systematic comparison of various statistical alignment models,” Computational Linguistics, 29 (1): 19-51.
【非特許文献２】Ben Taskar, Simon Lacoste-Julien, Dan Klein, “A Discriminative matching approach to word alignment”, Proceedings of the Conference on Empirical Methods for Natural Language Processing (EMNLP), 2005.
【非特許文献３】Hua Wu, Haifeng Wang, Zhanyi Liu, “Alignment model adaptation for domain specific word alignment,” in Proceedings of the Annual Meeting of Association for Computational Linguistics (ACL), 2005.
【非特許文献４】Jorge Civera, Alfons Juan, “Domain adaptation in statistical machine translation with mixture modeling”, in Proceedings of the Workshop on Statistical Machine Translation (WMT), 2007.
【非特許文献５】Stephan Vogel, Hermann Ney, and Christoph Tilmann, “HMM-based Word alignment in statistical translation,” in Proceedings of the International Conference on Computational Linguistics (COLING), 1996.
【発明の概要】
【発明が解決しようとする課題】
【０００８】
しかしながら、非特許文献３及び４に記載された方法は、ベースとなる単語対応付けアルゴリズムに依存した方法となっており、様々な単語対応付けアルゴリズムに対応できない。例えば、非特許文献３の方法は、非特許文献５のような隠れマルコフモデルの単語対応付けアルゴリズムにしか適用することができない。何語から何語への翻訳か、翻訳対象となる文章の分野は何か、などに応じて、最適な単語対応付けアルゴリズムは異なるため、非特許文献３及び４に記載された方法のように、単語対応付けアルゴリズムに依存する方法では、汎用性が低いものとなる、という問題がある。
【０００９】
本発明は上記問題点に鑑みてなされたものであり、ベースとなる単語対応付けアルゴリズムに依存することなく、高精度かつ汎用性の高い単語対応付けを行うことができる単語対応付け装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１０】
上記目的を達成するために、本発明の単語対応付け装置は、第１言語で記述された複数の単語を含む第１言語文と該第１言語の翻訳となる第２言語で記述された複数の単語を含む第２言語文との対である対訳データであって、翻訳対象となる文の目的分野の対訳データを用いて、前記第１言語文に含まれる単語と前記第２言語文に含まれる単語との対応付けを行うための第１単語対応付けモデルを学習すると共に、前記目的分野以外の分野を含む対訳データを用いて、第２単語対応付けモデルを学習する学習手段と、前記学習手段により学習された第１単語対応付けモデル及びを第２単語対応付けモデル各々を用いて、目的分野の対訳データを構成する前記第１言語文に含まれる単語各々と前記第２言語文に含まれる単語各々との対応付けの有無を表す確率を各々推定する推定手段と、前記推定手段により、前記第１単語対応付けモデルを用いて推定された確率と、前記第２単語対応付けモデルを用いて推定された確率とを統合し、前記目的分野の対訳データを構成する前記第１言語文に含まれる単語各々と前記第２言語文に含まれる単語各々との対応付けを表す単語対応行列を生成する生成手段と、を含んで構成されている。
【００１１】
本発明の単語対応付け装置によれば、学習手段により、第１言語で記述された複数の単語を含む第１言語文と第１言語の翻訳となる第２言語で記述された複数の単語を含む第２言語文との対である対訳データであって、翻訳対象となる文の目的分野の対訳データを用いて、第１言語文に含まれる単語と第２言語文に含まれる単語との対応付けを行うための第１単語対応付けモデルを学習する。また、同様に、学習手段は、目的分野以外の分野を含む対訳データを用いて、第２単語対応付けモデルを学習する。単語対応付けモデルの学習には、従来既知の手法を用いることができる。
【００１２】
そして、推定手段が、学習手段により学習された第１単語対応付けモデルを用いて、目的分野の対訳データを構成する第１言語文に含まれる単語各々と第２言語文に含まれる単語各々との対応付けの有無を表す確率を推定する。また、同様に、推定手段は、第２単語対応付けモデルを用いて、単語の対応付けの有無を表す確率を推定する。そして、生成手段が、推定手段により、第１単語対応付けモデルを用いて推定された確率と、第２単語対応付けモデルを用いて推定された確率とを統合し、目的分野の対訳データを構成する第１言語文に含まれる単語各々と第２言語文に含まれる単語各々との対応付けを表す単語対応行列を生成する。
【００１３】
このように、目的分野の対訳データによる単語対応付けの確率と、目的分野以外の分野を含む対訳データによる単語対応付けの確率とを統合することにより、ベースとなる単語対応付けアルゴリズムに依存することなく、高精度かつ汎用性の高い単語対応付けを行うことができる。
【００１４】
また、前記推定手段は、前記第１単語対応付けモデルを用いて、前記目的分野の対訳データを構成する前記第１言語文に含まれる単語各々と前記第２言語文に含まれる単語各々とに対応付けがある確率及び対応付けがない確率を推定すると共に、前記第２単語対応付けモデルを用いて、前記目的分野の対訳データを構成する前記第１言語文に含まれる単語各々と前記第２言語文に含まれる単語各々とに対応付けがある確率及び対応付けがない確率を推定することができる。
【００１５】
また、前記生成手段は、ベイズ理論により、前記単語対応行列の事前確率と尤度との積で表した事後確率に基づいて、前記単語対応行列を生成することができる。
【００１６】
また、本発明の単語対応付け方法は、学習手段と、推定手段と、生成手段とを含む単語対応付け装置における単語対応付け方法であって、前記学習手段は、第１言語で記述された複数の単語を含む第１言語文と該第１言語の翻訳となる第２言語で記述された複数の単語を含む第２言語文との対である対訳データであって、翻訳対象となる文の目的分野の対訳データを用いて、前記第１言語文に含まれる単語と前記第２言語文に含まれる単語との対応付けを行うための第１単語対応付けモデルを学習すると共に、前記目的分野以外の分野を含む対訳データを用いて、第２単語対応付けモデルを学習し、前記推定手段は、前記学習手段により学習された第１単語対応付けモデル及びを第２単語対応付けモデル各々を用いて、目的分野の対訳データを構成する前記第１言語文に含まれる単語各々と前記第２言語文に含まれる単語各々との対応付けの有無を表す確率を各々推定し、前記生成手段は、前記推定手段により、前記第１単語対応付けモデルを用いて推定された確率と、前記第２単語対応付けモデルを用いて推定された確率とを統合し、前記目的分野の対訳データを構成する前記第１言語文に含まれる単語各々と前記第２言語文に含まれる単語各々との対応付けを表す単語対応行列を生成する方法である。
【００１７】
また、本発明の単語対応付けプログラムは、コンピュータを、上記の単語対応付け装置を構成する各手段として機能させるためのプログラムである。
【発明の効果】
【００１８】
以上説明したように、本発明の単語対応付け装置、方法、及びプログラムによれば、目的分野の対訳データによる単語対応付けの確率と、目的分野以外の分野を含む対訳データによる単語対応付けの確率とを統合することにより、ベースとなる単語対応付けアルゴリズムに依存することなく、高精度かつ汎用性の高い単語対応付けを行うことができる、という効果が得られる。
【図面の簡単な説明】
【００１９】
【図１】本実施の形態の単語対応付け装置の機能的構成を示すブロック図である。
【図２】本実施の形態の単語対応付け装置における単語対応付け処理ルーチンの内容を示すフローチャートである。
【図３】本発明の評価実験の結果を示すグラフである。
【図４】従来の機械翻訳システムの構成を示すブロック図である。
【発明を実施するための形態】
【００２０】
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、原言語を英語、目的言語を日本語とした場合の単語対応付けについて説明する。また、翻訳対象となる文章の分野を目的分野と呼ぶ。
【００２１】
まず、単語対応付けという問題を次のように定義する。入力となる対訳データは、英語文と日本語文との対とする。英語文をｅ_１^Ｉ＝｛ｅ_１，ｅ_２，ｅ_３，・・・，ｅ_Ｉ｝で表し、Ｉ単語からなるものとする。同様に、日本語文をｆ_１^Ｊ＝｛ｆ_１，ｆ_２，ｆ_３，・・・，ｆ_Ｊ｝で表し、Ｊ単語からなるものとする。ここで、単語対応付けはＩ×Ｊ行列（Ａ）として表現することができる。この行列を単語対応行列と呼ぶ。単語対応行列Ａにおいて、Ａの（ｉ，ｊ）要素であるＡ_ｉｊが、Ａ_ｉｊ＝０の場合はｅ_ｉとｆ_ｊとの単語対応付けがないことを表す。Ａ_ｉｊ＝１の場合はｅ_ｉとｆ_ｊとの単語対応付けがあることを表す。単語対応付けアルゴリズムは、あらゆる単語対応行列Ａの可能性に対して、別途与えられる単語対応付けモデルに基づいて、確率Ｐｒｏｂ［Ａ］または尤度を計算し、最も尤もらしい単語対応行列Ａを求める手続として定義される。
【００２２】
本実施の形態に係る単語対応付け装置１０は、ＣＰＵと、ＲＡＭと、後述する単語対応付け処理ルーチンを実行するためのプログラムを記憶したＲＯＭと、を備えたコンピュータで構成されている。また、記憶手段としてのＨＤＤを含んで構成するようにしてもよい。コンピュータは、機能的には、図１に示すように、目的分野単語対応付け学習部１２と、一般分野単語対応付け学習部１４と、目的分野対応付け確率推定部１６と、一般分野対応付け確率推定部１８と、単語対応行列生成部２０とを含んだ構成で表すことができる。なお、目的分野単語対応付け学習部１２及び一般分野単語対応付け学習部１４が、本発明の学習手段の一例、目的分野対応付け確率推定部１６及び一般分野対応付け確率推定部１８が、本発明の推定手段の一例である。
【００２３】
目的分野単語対応付け学習部１２は、目的分野の対訳データを入力とし、単語対応付けモデルを学習する。学習の手法は、従来既知の技術を用いることができ、例えば、非特許文献１記載の生成モデルや非特許文献２記載の識別モデルの方法を用いることができる。例えば、生成モデルを用いる手法では、対訳データから単語対応付けの真の確率分布を推定する。また、識別モデルを用いる手法では、単語対応付けが既知の対訳データを用いて、未知入力文に対する単語対応付けを判別するための判別関数を学習により生成する。目的分野単語対応付け学習部１２により生成された単語対応付けモデルを、目的モデル（ｔａｒｇｅｔｍｏｄｅｌ，Ｍ^ｉｎ）と呼ぶ。
【００２４】
一般分野単語対応付け学習部１４は、目的分野の対訳データ及び目的分野以外の他分野の対訳データ（以下、一般分野の対訳データともいう）を入力とし、目的分野単語対応付け学習部１２と同様の手法により、単語対応付けモデルを生成する。一般分野単語対応付け学習部１４により生成された単語対応付けモデルを、一般モデル（ｇｅｎｅｒａｌｍｏｄｅｌ，Ｍ^ｇｅｎ）と呼ぶ。一般モデルＭ^ｇｅｎは、対訳データが目的分野かそうでないかを区別することなく生成したモデルであるため、一般的なモデルとみなすことができる。
【００２５】
目的分野対応付け確率推定部１６は、目的分野単語対応付け学習部１２で生成された目的モデルＭ^ｉｎを用いて、目的分野の対訳データを単語対応付けする。また、目的モデルＭ^ｉｎによるｅ_ｉとｆ_ｊとに対応付けがある確率をＴ_ｉｊ、対応付けがない確率をｔ_ｉｊとし、確率Ｔ_ｉｊ及び確率ｔ_ｉｊを、下記（１）式及び（２）式により推定する。
【００２６】
【数１】

【００２７】
ここで、Ｎ（ｅ_１^Ｉ，ｆ_Ｊ^１）は、目的モデルＭ^ｉｎにおける単語対応のＮ−ｂｅｓｔリストを表す。また、δ（・）は識別関数であり、δ（Ａ_ｉｊ＝１）は、Ａ_ｉｊ＝１ならば１を返し、それ以外の場合は０を返す関数である。また、Ｚは、下記（３）式で表される正規化因子である。
【００２８】
【数２】

【００２９】
ここで、ｌ^ｉｎ（Ａ’）は、目的モデルＭ^ｉｎのもとで単語対応行列Ａ’が得られる確率であり、下記（４）式で表される。ｐ（Ａ；ｅ_１^Ｉ，ｆ_Ｊ^１）は、単語対応行列Ａの事前確率である。
【００３０】
【数３】

【００３１】
一般分野対応付け確率推定部１８は、一般分野単語対応付け学習部１４で生成された一般モデルＭ^ｇｅｎを用いて、目的分野対応付け確率推定部１６で用いたのと同一の目的分野の対訳データを単語対応付けする。また、一般モデルＭ^ｇｅｎによるｅ_ｉとｆ_ｊとに対応付けがある確率をＧ_ｉｊ、対応付けがない確率をｇ_ｉｊとし、確率Ｇ_ｉｊ及び確率ｇ_ｉｊを、下記（５）式及び（６）式により推定する。
【００３２】
【数４】

【００３３】
Ｎ（ｅ_１^Ｉ，ｆ_Ｊ^１）、δ（・）、及びＺについては、目的分野対応付け確率推定部１６と同様である。
【００３４】
目的分野対応付け確率推定部１６及び一般分野対応付け確率推定部１８の処理は、同一の目的分野の対訳データを目的モデルＭ^ｉｎに基づいて単語対応付けしたときの単語対応行列Ａ^ｉｎと、一般モデルＭ^ｇｅｎに基づいて単語対応付けしたときの単語対応行列Ａ^ｇｅｎとを推定することに相当する。単語対応行列Ａ^ｉｎ及び単語対応行列Ａ^ｇｅｎは、下記（７）式で表される。
【００３５】
【数５】

【００３６】
単語対応行列生成部２０は、目的分野対応付け確率推定部１６で推定された単語対応行列Ａ^ｉｎと、一般分野対応付け確率推定部１８で推定された単語対応行列Ａ^ｇｅｎとを統合して、単語対応行列Ａを生成する。具体的には、（１）式、（２）式、（５）式及び（６）式により推定された確率Ｔ_ｉｊ、ｔ_ｉｊ、Ｇ_ｉｊ及びｇ_ｉｊを用いて、下記（８）式により、単語対応行列Ａ^ｉｎと単語対応行列Ａ^ｇｅｎとを統合することにより、単語対応行列Ａを生成する。
【００３７】
Prob[A_ij=1|T,G]=(T_ij+G_ij)/(T_ij+G_ij+t_ij+g_ij) （８）
（８）式は、ベイズ理論（ＢａｙｅｓｉａｎＴｈｅｏｒｙ）に基づいたものである。ここで、（８）式の導出について説明する。まず、ベイズ理論によれば、単語対応付け行列の事後確率（ｐｏｓｔｅｒｉｏｒｐｒｏｂａｂｉｌｉｔｙ）は、事前確率（ｐｒｉｏｒｐｒｏｂａｂｉｌｉｔｙ；Ｐ（Ａ））と尤度（ｌｉｋｅｌｉｈｏｏｄ；Ｐ（Ｍ^ｉｎ｜Ａ））との掛算で表される。従って、各対訳データの事後確率は、下記（９）式のように表される。
【００３８】
P(A|Mⁱⁿ;e₁^I,f₁^J)=P(Mⁱⁿ|A;e₁^I,f₁^J)P(A;e₁^I,f₁^J) （９）
【００３９】
次に、行列の事後確率を高速に計算するために、行列の確率構造（ｇｒａｐｈｉｃａｌｍｏｄｅｌｓｔｒｕｃｔｕｒｅ）を近似する。要素Ａ_{（ｉ＋１）ｊ}と要素Ａ_ｉｊとの間に独立を仮定すると、（９）式は、下記（１０）式のように書くことができる。
【００４０】
P(A|Mⁱⁿ;e₁^I,f₁^J)= Π_ijP(A_ij |Mⁱⁿ;e₁^I,f₁^J) （１０）
【００４１】
Ａ_ｉｊはバイナリ変数のため、（１０）式の各項はベルヌーイ−ベータ分布で表現できる。さらに、ｅ_ｉとｆ_ｊとの対応付けがある確率は、下記（１１）のように、パラメータｕのベルヌーイ分布で表現できる。
【００４２】
P(A_ij |u)=u^A_ij *(1-u)^(1-A_ij) （１１）
【００４３】
ベイズ法を用いない場合、ｕ＝Ｔ_ｉｊ／（Ｔ_ｉｊ＋ｔ_ｉｊ）であるが、ベイズ法を用いた場合には、パラメータｕは単なる数値ではなく、ベータプライアに従う確率変数であると考える。式で書くと、下記（１２）式のようになる。
【００４４】
P(u|T_ij,G_ij,t_ij,g_ij)
={Γ(T_ij+G_ij+t_ij+g_ij)/Γ(T_ij+G_ij)Γ(t_ij+g_ij)}*u^(T_ij+G_ij-1)*(1-u)^(t_ij+g_ij-1)
（１２）
【００４５】
ここで、Γはガンマ関数（ｇａｍｍａｆｕｎｃｔｉｏｎ）である。そして、（１１）式と（１２）式とを掛算して、ｕで積分すると、下記（１３）式となり、最終的に（８）式が導出される。
【００４６】
∫P(A_ij|u)P(u|T_ij,G_ij,t_ij,g_ij)du=(T_ij+G_ij)/(T_ij+G_ij+t_ij+g_ij) （１３）
【００４７】
次に、図２を参照して、本実施の形態の単語対応付け装置１０において実行される単語対応付け処理ルーチンについて説明する。
【００４８】
ステップ１００で、目的分野の対訳データ及び一般分野の対訳データを読み込む。
【００４９】
次に、ステップ１０２で、上記ステップ１００で読み込んだ目的分野の対訳データを入力とし、単語対応付けモデルを学習して、目的モデルＭ^ｉｎを生成する。また、上記ステップ１００で読み込んだ一般分野の対訳データを入力とし、単語対応付けモデルを学習して、一般モデルＭ^ｇｅｎを生成する。
【００５０】
次に、ステップ１０４で、上記ステップ１０２で生成された目的モデルＭ^ｉｎを用いて、目的分野の対訳データを単語対応付けし、目的モデルＭ^ｉｎによるｅ_ｉとｆ_ｊとに対応付けがある確率Ｔ_ｉｊ、対応付けがない確率ｔ_ｉｊを、（１）式及び（２）式により推定する。また、上記ステップ１０２で生成された一般モデルＭ^ｇｅｎを用いて、上記と同一の目的分野の対訳データを単語対応付けし、一般モデルＭ^ｇｅｎによるｅ_ｉとｆ_ｊとに対応付けがある確率Ｇ_ｉｊ、対応付けがない確率ｇ_ｉｊを、（５）式及び（６）式により推定する。
【００５１】
次に、ステップ１０６で、上記ステップ１０４で推定された確率Ｔ_ｉｊ、ｔ_ｉｊ、Ｇ_ｉｊ及びｇ_ｉｊを用いて、（８）式により、単語対応行列Ａ^ｉｎと単語対応行列Ａ^ｇｅｎとを統合することにより、単語対応行列Ａを生成する。生成した単語対応行列Ａを出力して、処理を終了する。
【００５２】
以上説明したように、本実施の形態の単語対応付け装置によれば、目的分野の対訳データを用いて学習された目的モデルＭ^ｉｎに基づいて、目的分野の対訳データを単語対応付けしたときの単語対応行列Ａ^ｉｎに相当する確率Ｔ_ｉｊ及びｔ_ｉｊを推定する。また、一般分野の対訳データを用いて学習された一般モデルＭ^ｇｅｎに基づいて、上記と同一の目的分野の対訳データを単語対応付けしたときの単語対応行列Ａ^ｇｅｎに相当する確率Ｇ_ｉｊ及びｇ_ｉｊを推定する。そして、これらの確率Ｔ_ｉｊ、ｔ_ｉｊ、Ｇ_ｉｊ及びｇ_ｉｊを統合することにより、単語対応行列Ａを生成するため、ベースとなる単語対応付けアルゴリズムに依存することなく、高精度かつ汎用性の高い単語対応付けを行うことができる。
【００５３】
なお、上記実施の形態では、原言語を英語、目的言語を日本語とする対訳データを用いる場合について説明したが、原言語を日本語、目的言語を英語とする対訳データとしてもよいし、他の言語を原言語及び目的言語とする対訳データとしてもよい。
【００５４】
次に、上記実施の形態の効果を説明するために、下記の実験結果について説明する。
【００５５】
目的分野の文章として医療分野の対訳データ（ＥＭＥＡ）を用いた。また、これと併用する他分野の文章として欧州議会の対訳データ（Ｅｕｒｏｐａｒｌ）を用いた。入力言語はデンマーク語（ｄａ）、ドイツ語（ｄｅ）、ギリシャ語（ｅｌ）、スペイン語（ｅｓ）、フィンランド語（ｆｉ）、フランス語（ｆｒ）、イタリア語（ｉｔ）、オランダ語（ｎｌ）、ポルトガル語（ｐｔ）及びスウェーデン語（ｓｖ）とし、これらの各言語を英語へ翻訳した。ＥＭＥＡは約十万文、Ｅｕｒｏｐａｒｌは約百万文の大きさである。
【００５６】
実験では、提案法（ｂａｙｅｓ）、単純に目的分野と他分野の対訳データを混ぜて学習したシステム（ｇｅｎｅｒａｌ）、目的分野だけで学習したシステム（ｉｎ−ｄｏｍａｉｎ）の三つのシステムの比較を行った。結果を下記の表１に示す。提案法はほとんどの言語においてＢＬＥＵ評価（数値が高いほどよい翻訳）で他のシステムに勝っていることが分かる。
【００５７】
【表１】

【００５８】
もう一つの評価実験として、中国語から英語への新聞翻訳のタスクにおいて、直接、単語対応付けのエラーを評価した。人間が正解単語対応をつけたデータと比較して、自動的に付与した単語対応がどれだけ一致するかを調べたものである。図３に示すように、提案法（ｂａｙｅｓ）は、精度（ｐｒｅｃｉｓｉｏｎ）及び再現率（ｒｅｃａｌｌ）の両方を、ｉｎ−ｄｏｍａｉｎ及びｇｅｎｅｒａｌと比較して改善することができた。
【００５９】
以上の実験から、本発明は他分野の対訳データを利用して、より高精度の単語対応付けができることを示せた。
【００６０】
本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【００６１】
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【００６２】
１０単語対応付け装置
１２目的分野単語対応付け学習部
１４一般分野単語対応付け学習部
１６目的分野対応付け確率推定部
１８一般分野対応付け確率推定部
２０対応付け転移部

【特許請求の範囲】
【請求項１】
第１言語で記述された複数の単語を含む第１言語文と該第１言語の翻訳となる第２言語で記述された複数の単語を含む第２言語文との対である対訳データであって、翻訳対象となる文の目的分野の対訳データを用いて、前記第１言語文に含まれる単語と前記第２言語文に含まれる単語との対応付けを行うための第１単語対応付けモデルを学習すると共に、前記目的分野以外の分野を含む対訳データを用いて、第２単語対応付けモデルを学習する学習手段と、
前記学習手段により学習された第１単語対応付けモデル及びを第２単語対応付けモデル各々を用いて、目的分野の対訳データを構成する前記第１言語文に含まれる単語各々と前記第２言語文に含まれる単語各々との対応付けの有無を表す確率を各々推定する推定手段と、
前記推定手段により、前記第１単語対応付けモデルを用いて推定された確率と、前記第２単語対応付けモデルを用いて推定された確率とを統合し、前記目的分野の対訳データを構成する前記第１言語文に含まれる単語各々と前記第２言語文に含まれる単語各々との対応付けを表す単語対応行列を生成する生成手段と、
を含む単語対応付け装置。
【請求項２】
前記推定手段は、前記第１単語対応付けモデルを用いて、前記目的分野の対訳データを構成する前記第１言語文に含まれる単語各々と前記第２言語文に含まれる単語各々とに対応付けがある確率及び対応付けがない確率を推定すると共に、前記第２単語対応付けモデルを用いて、前記目的分野の対訳データを構成する前記第１言語文に含まれる単語各々と前記第２言語文に含まれる単語各々とに対応付けがある確率及び対応付けがない確率を推定する請求項１記載の単語対応付け装置。
【請求項３】
前記生成手段は、ベイズ理論により、前記単語対応行列の事前確率と尤度との積で表した事後確率に基づいて、前記単語対応行列を生成する請求項１または請求項２記載の単語対応付け装置。
【請求項４】
学習手段と、推定手段と、生成手段とを含む単語対応付け装置における単語対応付け方法であって、
前記学習手段は、第１言語で記述された複数の単語を含む第１言語文と該第１言語の翻訳となる第２言語で記述された複数の単語を含む第２言語文との対である対訳データであって、翻訳対象となる文の目的分野の対訳データを用いて、前記第１言語文に含まれる単語と前記第２言語文に含まれる単語との対応付けを行うための第１単語対応付けモデルを学習すると共に、前記目的分野以外の分野を含む対訳データを用いて、第２単語対応付けモデルを学習し、
前記推定手段は、前記学習手段により学習された第１単語対応付けモデル及びを第２単語対応付けモデル各々を用いて、目的分野の対訳データを構成する前記第１言語文に含まれる単語各々と前記第２言語文に含まれる単語各々との対応付けの有無を表す確率を各々推定し、
前記生成手段は、前記推定手段により、前記第１単語対応付けモデルを用いて推定された確率と、前記第２単語対応付けモデルを用いて推定された確率とを統合し、前記目的分野の対訳データを構成する前記第１言語文に含まれる単語各々と前記第２言語文に含まれる単語各々との対応付けを表す単語対応行列を生成する
単語対応付け方法。
【請求項５】
コンピュータを、請求項１〜請求項３のいずれか１項記載の単語対応付け装置を構成する各手段として機能させるための単語対応付けプログラム。

【図１】