説明

自動単語対応付け装置とその方法とプログラム

【課題】トピックを導入した同義語辞書モデルを構築させ、その同義語辞書モデルと従来の単語対応付けモデルとを同時に用いた自動単語対応付け装置を提供する。
【解決手段】この発明の自動単語対応付け装置は、訓練データ記憶部と、アライメント確率学習部と、自動対応付け部と、を具備する。訓練データ記憶部は、単語で区切られた原言語と目的言語の対訳文の組みで構成される対訳文コーパスと、上記目的言語の同義語の組の集合である同義語辞書とから成る。アライメント確率学習部は、トピック毎に、対訳文コーパスの対数尤度と同義語辞書の対数尤度との重み付き和を最大にするパラメータを学習する。自動対応付け部は、対象翻訳文とそのパラメータを入力として対象翻訳文の原言語と目的言語の単語間のアライメントを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、原言語と翻訳後の目的言語の対訳文が、文単位で対応付けられている対訳文コーパスから単語間の対応関係を、自動的に抽出する自動単語対応付け装置とその方法とプログラムに関する。
【背景技術】
【0002】
原言語と目的言語の単語間の対応関係を単語アライメントと称する。従来から、単語アライメントには、共起情報に基づくものと、雑音チャネルモデルに基づくものがある。共起情報に基づく方法では、例えば、日本語と英語間の単語アライメントの場合、ある日本語の単語が対訳コーパス上に出現した回数、ある英語の単語がコーパス上に出現した回数、それらが対訳文中に同時に出現した回数からDice係数や相互情報量を計算し、最も尤もらしい単語の対応関係を抽出する。
【0003】
雑音チャネルモデルに基づく方法では、原言語が目的言語へ確率的に変換されたと仮定する。例えば、原言語を日本語、目的言語を英語とするとき、日本語の各単語の生成確率、日本語の単語から英語の単語への翻訳確率、語順の入れ替えを表すアライメント確率を対訳コーパスから学習し、それらの確率から単語アライメントを抽出する。
【0004】
この共起情報に基づく単語アライメント手法と、雑音チャネルモデルに基づく単語アライメント手法は、例えば非特許文献1に開示されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】F.J Och and H. Ney. 2003. A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1):19-51.
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来の自動単語対応付け装置には課題が二つある。その一つは、低頻度語の対応付けの精度が高くないという課題である。例えば、統計的な情報に基づく単語アライメント手法では、任意の原言語の単語と、任意の目的言語の単語が同時に対訳文中に出現する回数が多いほど、それらは対応関係にある可能性が高いと判定する。しかし、対訳コーパス中に一回しか出現しない単語では、その対訳文に含まれるあらゆる単語と対訳関係になる可能性が等しいと判断してしまう。それ故、対訳コーパス中に含まれる数が少ない単語ほど対応関係にある対訳語を判定することは困難になる。
【0007】
二つ目の課題は、単語の多様性の問題である。例えば、英単語「head」は「会長」や「頭部」など複数の意味をもち、文脈によって「head」が表す意味が異なる。それ故、「head」が用いられている文脈を考慮しなければ、誤った対応付けがされてしまう危険性がある。
【0008】
この発明は、このような課題に鑑みてなされたものであり、例えば、「会社」や「経済」といった話題であるトピックを導入した同義語辞書モデルを構築させ、その同義語辞書モデルと従来の単語対応付けモデルとを同時に用いて単語アライメントを学習させる自動単語対応付け装置とその方法とプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
この発明の自動単語対応付け装置は、訓練データ記憶部と、アライメント確率学習部と、自動対応付け部と、を具備する。訓練データ記憶部は、単語で区切られた原言語と目的言語の対訳文の組みで構成される対訳文コーパスと、上記目的言語の同義語の組の集合である同義語辞書とから成る。アライメント確率学習部は、トピック毎に、対訳文コーパスの対数尤度と同義語辞書の対数尤度との重み付き和を最大にするパラメータを学習する。自動対応付け部は、対象翻訳文とそのパラメータを入力として対象翻訳文の原言語と目的言語の単語間のアライメントを生成する。
【発明の効果】
【0010】
この発明の自動単語対応付け装置は、そのアライメント確率学習部が、対訳文コーパスの対数尤度と同義語辞書の対数尤度との重み付き和を最大にするパラメータを学習するので、自動単語対応付けの精度を向上させることができる。
【図面の簡単な説明】
【0011】
【図1】この発明の自動単語対応付け装置100の機能構成例を示す図。
【図2】自動単語対応付け装置100の動作フローを示す図。
【図3】アライメント確率学習部20の機能構成例を示す図。
【図4】アライメント確率学習部20の動作フローを示す図。
【図5】トピック別の原言語の単語生成確率テーブルの例を示す図。
【図6】トピック別の単語翻訳確率テーブルの例を示す図。
【図7】同義語辞書の確率テーブルの例を示す図。
【発明を実施するための形態】
【0012】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、この発明の基本的な考え方について説明する。
〔この発明の基本的な考え方〕
この発明は、同義語辞書に確率の考えを適用し、更に同義語辞書にトピック情報を導入した点で新しい。この発明では、同義語の「意味」uをトピックkと原言語の単語eの組み合わせu=(k,e)で表現する。そして、参考文献1(Zhao, B. and Xing, E.P. 2007. HM-BiTAM: Bilingual topic exploration, word alignment, and translation. Twenty-second annual conference on neural information processing systems, Vancouver BC, Canada)に開示されているパラメータセットΘ≡({αk},{βk,e},{Bf,e,k},{Ti,i’})を用いて、同義語辞書確率モデルpm(Dm;Θ)を式(1)に示すように計算する。
【0013】
【数1】

【0014】
同義語辞書確率モデルpm(Dm;Θ)を、全ての話題kと原言語eについての、原言語eと目的語fと同義語f′の確率値の和積に比例する値として定義する。ここで、αは話題kの混合比を生成する確率モデルのパラメータ、βk,eは原言語の単語生成確率、Bfs,e,kは単語翻訳確率、Bf’s,e,kは同義語確率である。
【0015】
一方、対訳データの確率モデルp(Db;Θ)は、従来技術で使われている式(2)を用いて計算される。
【0016】
【数2】

【0017】
ここで、Eは原言語文、Fは目的言語文、zはトピック、θはトピックの混合比、aは単語アライメントであり、z,θ,aはパラメータΘの値によって確率的に決まる値である。Ti,i′は、アライメントaを生成する確率モデルのパラメータである。
【0018】
対訳データの確率モデルp(Db;Θ)の対数尤度は式(4)で計算される。
【0019】
【数3】

【0020】
ここで、単語アライメントaと、トピックの事後確率p(z,θ,a)を解析的に解くことが出来ないので、次のように近似したp(z,θ,a)≒q(θ|γ)q(z|φ)q(a|λ)。また、q(θ|γ)はディレクレ分布、q(z|φ)は多項分布、q(a|λ)は一次隠れマルコフモデルをそれぞれ仮定する。式(2)〜(4)は全て従来技術である。
【0021】
この発明は、上記したように同義語辞書に確率の考えを適用し、更に同義語辞書にトピック情報を導入した点で新しい。その同義語辞書確率モデルpm(Dm;Θ)(式(1))の対数尤度は式(5)で計算される。
【0022】
【数4】

【0023】
この発明のアライメント確率学習部は、対訳データの確率モデルp(Db;Θ)の対数尤度と、同義語辞書確率モデルpm(Dm;Θ)の対数尤度との重み付き和log L(Θ)=log p(Db;Θ)+ζlog p(Dm; Θ)を、最大にするパラメータΘを学習する。log L(Θ)の下限値は式(6)で計算される。
【0024】
【数5】

【0025】
ここで、ζは同義語辞書確率モデルp(D;Θ)に与えられる重みである。この発明の自動単語対応付け装置は、log L(Θ)を最大化するパラメータを学習する。
【実施例1】
【0026】
図1にこの発明の自動単語対応付け装置100の機能構成例を示す。その動作フローを図2に示す。自動単語対応付け装置100は、訓練データ記憶部10と、アラメント確率学習部20と、自動対応付け部30と、を具備する。
【0027】
訓練データ記憶部10は、単語で区切られた原言語と目的言語の対訳文の組で構成される対訳文コーパス11と、目的語の同義語の組の集合である同義語辞書12とから成る。アライメント確率学習部20は、トピック毎に対訳データと同義語辞書の重み付き対数尤度を最大にするパラメータを学習する(ステップS20)。自動対応付け部40は、対象翻訳文XとパラメータΘを入力として対象翻訳文Xの単語アライメントを生成する(ステップS40)。
【0028】
自動単語対応付け装置100は、対訳文から単語アライメントを自動的に推定する装置であり、上記した各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0029】
対訳文コーパス11は、原言語と目的言語の対訳文ペアで構成されるデータである。同義語辞書12は、目的言語の同義語ペアの集合であり、例えば、目的言語が日本語の場合、「二酸化炭素」と「炭酸ガス」、「学生」と「生徒」などの同義語ペアを集めた辞書データである。
【0030】
アライメント確率学習部20は、対訳文コーパス11の対数尤度と同義語辞書12の対数尤度との重み付き和log L(Θ)=log pb(Db;Θ)+ζlog pm(Dm; Θ)を最大にするパラメータΘを学習する(ステップS20)。ただし、Db,Dmはそれぞれ、訓練データとして用意される対訳文コーパス11のデータ、同義語辞書12のデータを表す。また、pb(Db; Θ)はパラメータΘで表される対訳文コーパス11の確率モデルで、0から1までの値を取る。同様に、pm(Dm: Θ)は同義語辞書12の確率モデルである。ζは対訳文データDbと同義語辞書データDmの重要度の割合を表す重みである。学習されたパラメータはアライメント確率学習部20内の図示しないメモリに記憶される。
【0031】
確率モデルpb(Db; Θ)とpm(Dm: Θ)は、訓練データから未知の情報を潜在変数Zとして定式化される。例えば、この発明では単語の対応関係aやトピックzの情報が潜在変数として導入された確率モデルを用いる。したがって、対訳文データの確率モデルpb(Db; Θ)は、pb(Db; Θ)=Σpb(Db,Zb; Θ),Zb=(a,z)となる。同様に、同義語辞書データの確率モデルpm(Dm: Θ)は、pm(Dm: Θ)= Σp(D,Z; Θ)となる。
【0032】
自動対応付け部30は、アライメント確率学習部20で学習されたパラメータΘを用いて、対象翻訳文Xの原言語と目的言語の対応関係を推定する(ステップS40)。
【0033】
以上のように動作する自動単語対応付け装置100は、トピックを導入した同義語辞書モデルを構築する。そして、その同義語辞書モデルと従来からの単語対応付けモデルとを同時に用いて単語アライメントを学習させることで、高精度に自動単語対応付けを行うことができる。
【0034】
例えば、「炭酸ガス」と「二酸化炭素」が同義語であるという情報を利用することで、「炭酸ガス」を「二酸化炭素」と同じ対訳語に対応付ける。このとき、対訳文データに「炭酸ガス」がほとんど含まれていなくても「二酸化炭素」が対訳文データに多く含まれており、正しい対訳語「carbon dioxide」に対応付けられれば、「炭酸ガス」も正しい対訳語「carbon dioxide」に対応付けることができる。
【0035】
また、トピック情報を導入することで、多義性の課題に対処することができる。例えば、「head」という単語は、「forefront」または「chief」の両単語と同義語であるが、「forefront」と「chief」の意味は異なる。すなわち、文脈に応じて「head」の表す意味が異なる。トピックの概念を導入した同義語辞書モデルを用いることで、文全体のトピックに応じて「head」の同義語がどちらであるかを自動的に学習する。その結果、同義語を単語アライメントの学習に利用することが可能になり、アライメント精度の向上が期待できる。
【0036】
図3にアライメント確率学習部20の具体的な機能構成例を示し、更に詳しく自動単語対応付け装置100の動作を説明する。アライメント確率学習部20は、基準値計算部21と、単語アライメント確率計算部22と、同義語辞書確率計算部23と、パラメータ更新部24と、収束判定部25と、を具備する。
【0037】
アライメント確率学習部20は、確率モデルpb(Db; Θ)とpm(Dm: Θ)のパラメータΘが収束するまで逐次更新することで最適なパラメータΘ^を求めるものである。その動作フローを図4に示す。
【0038】
基準値計算部21は、訓練データ記憶部10に保存されている対訳文データDbと同義語辞書データDmを読み込んで、初期値Θ(0)を設定する(ステップS21)。
【0039】
単語アライメント確率計算部22は、パラメータの初期値Θ(0)を入力として潜在変数Zの事後確率pb(Zb|Db(0))を計算した後に、収束判定部25から入力されるパラメータΘ(t)から潜在変数Zの事後確率pb(Zb|Db(t))を計算する(ステップS22)。Θ(t)は、t回目の更新ステップで得られるパラメータを示す。
【0040】
同義語辞書確率計算部23は、パラメータの初期値Θ(0)と更新途中のパラメータΘ(t)から潜在変数Zの事後確率pm(Zm|D(t))を計算する(ステップS23)。
【0041】
パラメータ更新部24は、単語アライメント確率計算部22で計算された潜在変数Zの事後確率pb(Zb|Db(t))と、同義語辞書確率計算部23で計算された潜在変数Zの事後確率pb(Zb|Db(t))を入力として、トピック別の単語翻訳確率テーブル241に記録された単語翻訳確率と、トピック別の原言語の単語生成確率テーブル242に記録された単語生成確率と、同義語辞書確立テーブル243に記録された同義語辞書確率と、原言語から目的言語への単語の語順入れ替え確率と、トピックの混合比の生成確率とを参照する。そして、原言語の単語生成確率p(En|zn;β)、原言語から目的言語への単語翻訳確率p(Fm|En,zn,an;B)、訓練データの対訳文のトピックzn、訓練データ全体のトピックの混合比θ、原言語と目的言語の単語アライメントaを推定し、推定した上記値を基に新たなパラメータΘ(t+1)を計算する(ステップS24)。
【0042】
図5にトピック別の原言語の単語生成確率テーブル242の例を示す。図6にトピック別の単語翻訳確率テーブル241の例を示す。図7に同義語辞書確率テーブル243の例を示す。
【0043】
収束判定部25は、パラメータ更新部24から入力されるパラメータΘ(t+1)から計算される対数尤度log L(Θ(t+1))を計算し、収束条件log L(Θ(t+1))-log L(Θ(t))<εを満たせばΘ^←Θ(t+1)としてパラメータの推定値を更新する。収束条件を満たさない場合は、パラメータΘ(t+1)の更新ステップをt←t+1として、更新したパラメータΘ(t+1)を再度、単語アライメント確率計算部22と同義語辞書確率計算部23へ出力する(ステップS25、未収束)。
【0044】
ステップS22〜S25の処理は、収束条件を満たすまで繰り返し実行される。自動対応付け部30は、学習された最適なパラメータΘ^を用いて対象翻訳文Xの原言語と目的言語の最適な対応付けan^を抽出する(式(7))。
【0045】
【数6】

【0046】
上記した各処理の具体例を示して更に詳細に説明する。単語アライメント問題では、原言語の文が確率的に変換されて目的言語の文が生成されると考える。このとき、対訳データとして原言語と目的言語の対訳文集合(式(8))、同義語辞書として目的言語の同義語ペア集合(式(9))が与えられる。
【0047】
【数7】

【0048】
ここで、Enは対訳データ中のn番目の原言語文、Fnはn番目の目的言語文である。(fs,f’s)は目的言語の同義語ペアを表す。
【0049】
既存の単語アライメント抽出技術として、上記した参考文献1に開示されたHM-BiTAMを用いる場合で説明する。HM-BiTAMは、原言語と目的言語の対訳文集合の確率モデルを与える。潜在変数Zb=(z,a)は単語アライメントa、トピックzを表す。また、HM-BiTAMでは、トピックzのパラメータであるトピックの混合比θに対して事前分布を設定する。したがって、トピックの混合比θはモデルの学習において陽には現れず、その代わりに事前分布のパラメータ(ハイパーパラメーター)を推定するため、便宜上Zb=(z,a,θ)としてよい。単語アライメントを表す変数ajn=iは、対訳文nにおいて、目的言語のjn番目の単語と、原言語のi番目の単語が対応関係にあることを表す。トピックzは、各対訳文(En,Fn)に対して一つずつ割り当てられる。トピックの混合比θは、各トピックの生成確率を表す頻度分布である。
【0050】
次に、この発明の同義語辞書確率モデルについて説明する。同義語辞書確率モデルは、目的言語の同義語ペア(fs,fs)の集合である同義語辞書に対して確率を与える。同義語は、ある言葉の「意味」を異なる表現で表したものであり、式(10)に示すように定義される。
【0051】
【数8】

【0052】
ここで、uは同義語の意味を表す。この実施例では、同義語の意味uをトピックkと原言語の単語eの組み合わせで表現する。すなわち、u=(k,e)となる。図7に、同義語辞書の確率モデルで表現される同義語辞書確率テーブルの例を示す(図3の同義語辞書確率テーブル243)。
【0053】
以上の前提の下、対訳文データの確率モデルp(Db;Θ)は上記した式(2)で、同義語辞書確率モデルpm(Dm;Θ)は式(1)で表せる。アライメント確率学習部20は、対訳データの確率モデルp(Db;Θ)の対数尤度と、同義語辞書確率モデルpm(Dm;Θ)の対数尤度との重み付き和log L(Θ)=log p(Db;Θ)+ζlog p(Dm; Θ)を、最大にするパラメータΘを学習する。log L(Θ)の下限値は、上記した式(6)で計算される。
【0054】
単語アライメント確率計算部22は、式(6)を最大化するトピックの混合比θの確率モデルのパラメータγkを式(11)、トピックzの確率モデルのパラメータφn,kを式(12)、単語アライメントaの確率モデルのパラメータλn,j,iを式(13)で求める。
【0055】
【数9】

【0056】
同義語辞書確率計算部23は、潜在変数Zm=(k,e)であるため、事後確率pm(k,e|Dm(t))を計算する(式(14))。
【0057】
【数10】

【0058】
ここで、βk,eはトピック別の原言語の単語の生成確率であり式(15)で計算される。Bf,e,kはトピック別の原言語から目的言語への単語翻訳確率であり式(16)で計算される。αkはトピックの混合比θの確率モデルのパラメータであり式(17)で計算される。Ti′,iは原言語と目的言語の単語の語順入れ替え確率であり式(18)で計算される。
【0059】
【数11】

【0060】
【数12】

【0061】
式(11)〜式(18)に示すパラメータは、訓練データの対数尤度log L(Θ)を示す式(6)を各パラメータで偏微分することで得られる。
【0062】
収束判定部25は、更新されたパラメータΘ(t+1)が収束したかどうかを判定する。例えば、訓練データの対数尤度を更新前と更新後で比較し、その差がε未満であれば収束したと判定する(式(19))。
【0063】
【数13】

【0064】
〔実験結果〕
この発明の自動単語対応付け方法の効果を確認する目的で評価実験を行った。対訳データとして、単語アライメント問題でよく用いられる参考文献2(R. Mihalcea and T. Pedersen. 2003. An evaluation exercise for word alignment. In Proceedings of the HLT-NAACL 2003 Workshop on Building and using parallel texts: data driven machine translation and beyond-Voiume 3, page 10. Association for Computational Linguistics.)に示されるHansardsデータセットを用いた。これは、英仏の対訳文コーパスである。また、同義語辞書として参考文献3(G.A. Miller. 1995. WordNet: a lexical database for English. Communications of the ACM, 38(11):41.)に示されたWordNet2.1を用いた。
【0065】
評価用データとして、Hansardsデータセットの中から1万対訳文を無作為に抽出した。また、WordNetに掲載されている同義語の中で評価用対訳データセット中に少なくとも1回以上出現する同義語ペアを同義語辞書とした。これらの異種データと同義語辞書を訓練データとして英仏間の単語アライメントを推定し、評価を行った。その結果を表1に示す。評価の指標として、単語アライメントで一般的に用いられる精度、リコール、F値、AER(Alignment Error Rate)を用いた。
【0066】
【表1】


この発明の自動単語対応付け方法の精度が0.941と最も高く、この発明の効果が確認できた。
【0067】
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0068】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0069】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0070】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項1】
単語で区切られた原言語と目的言語の対訳文の組みで構成される対訳文コーパスと、上記目的言語の同義語の組の集合である同義語辞書とから成る訓練データ記憶部と、
上記対訳文コーパスの対数尤度と上記同義語辞書の対数尤度との重み付き和を最大にするパラメータを学習するアライメント確率学習部と、
対象翻訳文と上記パラメータを入力として、上記対象翻訳文の原言語と目的言語の単語間のアライメントを生成する自動対応付け部と、
を具備する自動単語対応付け装置。
【請求項2】
請求項1に記載の自動単語対応付け装置において、
上記同義語辞書の確率モデルは、
同義語のペアの意味毎の生成確率で構成されることを特徴とする自動単語対応付け装置。
【請求項3】
請求項1に記載の自動単語対応付け装置において、
目的言語の上記同義語辞書の確率モデルは、
単語アライメントで用いられる上記トピックと、原言語の単語の組み合わせで表現できると仮定し、上記トピック別の単語翻訳確率と、原言語の単語生成確率と、トピックの生成確率の組み合わせで与えられることを特徴とする自動単語対応付け装置。
【請求項4】
請求項1又は3に記載した自動単語対応付け装置において、
上記アライメント確率学習部は、
トピック別の単語翻訳確率テーブルに記録された単語翻訳確率と、トピック別の原言語の単語生成確率テーブルに記録された単語生成確率と、原言語から目的言語への単語の語順の入れ替え確率と、トピックの混合比の生成確率と、を参照して訓練データの対訳文のトピック、訓練データ全体のトピックの混合比、原言語と目的言語の単語間のアライメントを推定し、
推定した上記値を基にパラメータΘを更新するものであり、
パラメータΘの基準値を計算する基準値計算部と、
原言語と目的言語の対訳コーパスと、現在のパラメータΘ(t)が与えられたもとで、訓練データのトピックと単語対応の事後確率を計算する単語アライメント確率計算部と、
目的言語の同義語辞書と、現在のパラメータΘ(t)が与えられたもとで、訓練データのトピックと原言語の単語の事後確率を計算する同義語辞書確率計算部と、
現在のパラメータΘ(t)から新たなパラメータΘ(t+1)を計算するパラメータ更新部と、
上記パラメータΘ(t+1)を用いて尤度を計算し、上記パラメータΘ(t+1)が収束条件を満たす最適なパラメータ推定値Θ^かどうかを判定する収束判定部と、
を具備することを特徴とする自動単語対応付け装置。
【請求項5】
アライメント確率学習部が、単語で区切られた原言語と目的言語の対訳文の組みで構成される対訳文コーパスの対数尤度と上記目的言語の同義語の組の集合である同義語辞書の対数尤度との重み付き和を最大にするパラメータを学習するアライメント確率学習過程と、
自動対応付け部が、対象翻訳文と上記パラメータを入力として上記対象翻訳文の原言語と目的言語の単語間のアライメントを生成する自動対応付け過程と、
を含む自動単語対応付け方法。
【請求項6】
請求項5に記載の自動単語対応付け方法において、
上記同義語辞書の確率モデルは、
同義語のペアの意味毎の生成確率で構成されることを特徴とする自動単語対応付け方法。
【請求項7】
請求項5に記載の自動単語対応付け方法において、
目的言語の上記同義語辞書の確率モデルは、
単語アライメントで用いられる上記トピックと原言語の単語の組み合わせで表現できると仮定し、上記トピック別の単語翻訳確率と、原言語の単語生成確率と、トピックの生成確率の組み合わせで与えられることを特徴とする自動単語対応付け方法。
【請求項8】
請求項5又は7に記載した自動単語対応付け方法において、
上記アライメント確率学習過程は、
トピック別の単語翻訳確率テーブルに記録された単語翻訳確率と、トピック別の原言語の単語生成確率テーブルに記録された単語生成確率と、原言語から目的言語への単語の語順の入れ替え確率と、トピックの混合比の生成確率と、を参照して訓練データの対訳文のトピック、訓練データ全体のトピックの混合比、原言語と目的言語の単語間のアライメントを推定し、
推定した上記値を基にパラメータΘを更新するものであり、
基準値計算部が、パラメータΘの基準値を計算する基準値計算ステップと、
単語アライメント確率計算部が、原言語と目的言語の対訳コーパスと、現在のパラメータΘ(t)が与えられたもとで、訓練データのトピックと単語対応の事後確率を計算する単語アライメント確率計算ステップと、
同義語辞書確率計算部が、同義語辞書と、現在のパラメータΘ(t)が与えられたもとで、訓練データのトピックと原言語の単語の事後確率を計算する同義語辞書確率計算ステップと、
パラメータ更新部が、現在のパラメータΘ(t)から新たなパラメータΘ(t+1)を計算するパラメータ更新ステップと、
収束判定部が、上記パラメータΘ(t+1)を用いて尤度を計算し、上記パラメータΘ(t+1)が収束条件を満たす最適なパラメータ推定値Θ^かどうかを判定する収束判定ステップと、
を含むことを特徴とする自動単語対応付け方法。
【請求項9】
請求項1乃至4の何れかに記載した自動単語対応付け装置の各部の機能を、コンピュータに実行させるための装置プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate