自動単語対応付け装置とその方法とプログラム

【課題】トピックを導入した同義語辞書モデルを構築させ、その同義語辞書モデルと従来の単語対応付けモデルとを同時に用いた自動単語対応付け装置を提供する。
【解決手段】この発明の自動単語対応付け装置は、訓練データ記憶部と、アライメント確率学習部と、自動対応付け部と、を具備する。訓練データ記憶部は、単語で区切られた原言語と目的言語の対訳文の組みで構成される対訳文コーパスと、上記目的言語の同義語の組の集合である同義語辞書とから成る。アライメント確率学習部は、トピック毎に、対訳文コーパスの対数尤度と同義語辞書の対数尤度との重み付き和を最大にするパラメータを学習する。自動対応付け部は、対象翻訳文とそのパラメータを入力として対象翻訳文の原言語と目的言語の単語間のアライメントを生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、原言語と翻訳後の目的言語の対訳文が、文単位で対応付けられている対訳文コーパスから単語間の対応関係を、自動的に抽出する自動単語対応付け装置とその方法とプログラムに関する。
【背景技術】
【０００２】
原言語と目的言語の単語間の対応関係を単語アライメントと称する。従来から、単語アライメントには、共起情報に基づくものと、雑音チャネルモデルに基づくものがある。共起情報に基づく方法では、例えば、日本語と英語間の単語アライメントの場合、ある日本語の単語が対訳コーパス上に出現した回数、ある英語の単語がコーパス上に出現した回数、それらが対訳文中に同時に出現した回数からDice係数や相互情報量を計算し、最も尤もらしい単語の対応関係を抽出する。
【０００３】
雑音チャネルモデルに基づく方法では、原言語が目的言語へ確率的に変換されたと仮定する。例えば、原言語を日本語、目的言語を英語とするとき、日本語の各単語の生成確率、日本語の単語から英語の単語への翻訳確率、語順の入れ替えを表すアライメント確率を対訳コーパスから学習し、それらの確率から単語アライメントを抽出する。
【０００４】
この共起情報に基づく単語アライメント手法と、雑音チャネルモデルに基づく単語アライメント手法は、例えば非特許文献１に開示されている。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】F.J Och and H. Ney. 2003. A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1):19-51.
【発明の概要】
【発明が解決しようとする課題】
【０００６】
従来の自動単語対応付け装置には課題が二つある。その一つは、低頻度語の対応付けの精度が高くないという課題である。例えば、統計的な情報に基づく単語アライメント手法では、任意の原言語の単語と、任意の目的言語の単語が同時に対訳文中に出現する回数が多いほど、それらは対応関係にある可能性が高いと判定する。しかし、対訳コーパス中に一回しか出現しない単語では、その対訳文に含まれるあらゆる単語と対訳関係になる可能性が等しいと判断してしまう。それ故、対訳コーパス中に含まれる数が少ない単語ほど対応関係にある対訳語を判定することは困難になる。
【０００７】
二つ目の課題は、単語の多様性の問題である。例えば、英単語「head」は「会長」や「頭部」など複数の意味をもち、文脈によって「head」が表す意味が異なる。それ故、「head」が用いられている文脈を考慮しなければ、誤った対応付けがされてしまう危険性がある。
【０００８】
この発明は、このような課題に鑑みてなされたものであり、例えば、「会社」や「経済」といった話題であるトピックを導入した同義語辞書モデルを構築させ、その同義語辞書モデルと従来の単語対応付けモデルとを同時に用いて単語アライメントを学習させる自動単語対応付け装置とその方法とプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００９】
この発明の自動単語対応付け装置は、訓練データ記憶部と、アライメント確率学習部と、自動対応付け部と、を具備する。訓練データ記憶部は、単語で区切られた原言語と目的言語の対訳文の組みで構成される対訳文コーパスと、上記目的言語の同義語の組の集合である同義語辞書とから成る。アライメント確率学習部は、トピック毎に、対訳文コーパスの対数尤度と同義語辞書の対数尤度との重み付き和を最大にするパラメータを学習する。自動対応付け部は、対象翻訳文とそのパラメータを入力として対象翻訳文の原言語と目的言語の単語間のアライメントを生成する。
【発明の効果】
【００１０】
この発明の自動単語対応付け装置は、そのアライメント確率学習部が、対訳文コーパスの対数尤度と同義語辞書の対数尤度との重み付き和を最大にするパラメータを学習するので、自動単語対応付けの精度を向上させることができる。
【図面の簡単な説明】
【００１１】
【図１】この発明の自動単語対応付け装置１００の機能構成例を示す図。
【図２】自動単語対応付け装置１００の動作フローを示す図。
【図３】アライメント確率学習部２０の機能構成例を示す図。
【図４】アライメント確率学習部２０の動作フローを示す図。
【図５】トピック別の原言語の単語生成確率テーブルの例を示す図。
【図６】トピック別の単語翻訳確率テーブルの例を示す図。
【図７】同義語辞書の確率テーブルの例を示す図。
【発明を実施するための形態】
【００１２】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、この発明の基本的な考え方について説明する。
〔この発明の基本的な考え方〕
この発明は、同義語辞書に確率の考えを適用し、更に同義語辞書にトピック情報を導入した点で新しい。この発明では、同義語の「意味」uをトピックｋと原言語の単語ｅの組み合わせu=(k,e)で表現する。そして、参考文献１（Zhao, B. and Xing, E.P. 2007. HM-BiTAM: Bilingual topic exploration, word alignment, and translation. Twenty-second annual conference on neural information processing systems, Vancouver BC, Canada）に開示されているパラメータセットΘ≡({α_k},{β_k,e},{B_f,e,k},{T_i,i’})を用いて、同義語辞書確率モデルp_m(D_m;Θ）を式（１）に示すように計算する。
【００１３】
【数１】

【００１４】
同義語辞書確率モデルp_m(D_m;Θ）を、全ての話題ｋと原言語ｅについての、原言語ｅと目的語ｆ_ｓと同義語ｆ′_ｓの確率値の和積に比例する値として定義する。ここで、α_ｋは話題ｋの混合比を生成する確率モデルのパラメータ、β_k,eは原言語の単語生成確率、Ｂ_fs,e,kは単語翻訳確率、Ｂ_f’s,e,kは同義語確率である。
【００１５】
一方、対訳データの確率モデルp(D_b;Θ）は、従来技術で使われている式（２）を用いて計算される。
【００１６】
【数２】

【００１７】
ここで、Eは原言語文、Fは目的言語文、zはトピック、θはトピックの混合比、ａは単語アライメントであり、z,θ,aはパラメータΘの値によって確率的に決まる値である。Ｔ_i,i′は、アライメントaを生成する確率モデルのパラメータである。
【００１８】
対訳データの確率モデルp(D_b;Θ）の対数尤度は式（４）で計算される。
【００１９】
【数３】

【００２０】
ここで、単語アライメントａと、トピックの事後確率p(z,θ,a)を解析的に解くことが出来ないので、次のように近似したp(z,θ,a)≒q(θ｜γ)q(z｜φ)q(a｜λ)。また、q(θ｜γ)はディレクレ分布、q(z｜φ)は多項分布、q(a｜λ)は一次隠れマルコフモデルをそれぞれ仮定する。式（２）〜（４）は全て従来技術である。
【００２１】
この発明は、上記したように同義語辞書に確率の考えを適用し、更に同義語辞書にトピック情報を導入した点で新しい。その同義語辞書確率モデルp_m(D_m;Θ）（式（１））の対数尤度は式（５）で計算される。
【００２２】
【数４】

【００２３】
この発明のアライメント確率学習部は、対訳データの確率モデルp(D_b;Θ）の対数尤度と、同義語辞書確率モデルp_m(D_m;Θ）の対数尤度との重み付き和log L（Θ）=log p(D_b;Θ)+ζlog p(D_m; Θ)を、最大にするパラメータΘを学習する。log L（Θ）の下限値は式（６）で計算される。
【００２４】
【数５】

【００２５】
ここで、ζは同義語辞書確率モデルｐ_ｍ（Ｄ_ｍ；Θ）に与えられる重みである。この発明の自動単語対応付け装置は、log L（Θ）を最大化するパラメータを学習する。
【実施例１】
【００２６】
図１にこの発明の自動単語対応付け装置１００の機能構成例を示す。その動作フローを図２に示す。自動単語対応付け装置１００は、訓練データ記憶部１０と、アラメント確率学習部２０と、自動対応付け部３０と、を具備する。
【００２７】
訓練データ記憶部１０は、単語で区切られた原言語と目的言語の対訳文の組で構成される対訳文コーパス１１と、目的語の同義語の組の集合である同義語辞書１２とから成る。アライメント確率学習部２０は、トピック毎に対訳データと同義語辞書の重み付き対数尤度を最大にするパラメータを学習する（ステップＳ２０）。自動対応付け部４０は、対象翻訳文ＸとパラメータΘを入力として対象翻訳文Ｘの単語アライメントを生成する（ステップＳ４０）。
【００２８】
自動単語対応付け装置１００は、対訳文から単語アライメントを自動的に推定する装置であり、上記した各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。
【００２９】
対訳文コーパス１１は、原言語と目的言語の対訳文ペアで構成されるデータである。同義語辞書１２は、目的言語の同義語ペアの集合であり、例えば、目的言語が日本語の場合、「二酸化炭素」と「炭酸ガス」、「学生」と「生徒」などの同義語ペアを集めた辞書データである。
【００３０】
アライメント確率学習部２０は、対訳文コーパス１１の対数尤度と同義語辞書１２の対数尤度との重み付き和log L（Θ）=log p_b(D_b;Θ)+ζlog p_m(D_m; Θ)を最大にするパラメータΘを学習する（ステップＳ２０）。ただし、D_b,D_mはそれぞれ、訓練データとして用意される対訳文コーパス１１のデータ、同義語辞書１２のデータを表す。また、p_b(D_b; Θ)はパラメータΘで表される対訳文コーパス１１の確率モデルで、０から１までの値を取る。同様に、p_m(D_m: Θ)は同義語辞書１２の確率モデルである。ζは対訳文データD_bと同義語辞書データD_mの重要度の割合を表す重みである。学習されたパラメータはアライメント確率学習部２０内の図示しないメモリに記憶される。
【００３１】
確率モデルp_b(D_b; Θ)とp_m(D_m: Θ)は、訓練データから未知の情報を潜在変数Zとして定式化される。例えば、この発明では単語の対応関係aやトピックｚの情報が潜在変数として導入された確率モデルを用いる。したがって、対訳文データの確率モデルp_b(D_b; Θ)は、p_b(D_b; Θ)=Σ_Ｚp_b(D_b,Z_b; Θ),Z_b=(a,z)となる。同様に、同義語辞書データの確率モデルp_m(D_m: Θ)は、p_m(D_m: Θ)= Σ_Ｚp_ｍ(D_ｍ,Z_ｍ; Θ)となる。
【００３２】
自動対応付け部３０は、アライメント確率学習部２０で学習されたパラメータΘを用いて、対象翻訳文Ｘの原言語と目的言語の対応関係を推定する（ステップＳ４０）。
【００３３】
以上のように動作する自動単語対応付け装置１００は、トピックを導入した同義語辞書モデルを構築する。そして、その同義語辞書モデルと従来からの単語対応付けモデルとを同時に用いて単語アライメントを学習させることで、高精度に自動単語対応付けを行うことができる。
【００３４】
例えば、「炭酸ガス」と「二酸化炭素」が同義語であるという情報を利用することで、「炭酸ガス」を「二酸化炭素」と同じ対訳語に対応付ける。このとき、対訳文データに「炭酸ガス」がほとんど含まれていなくても「二酸化炭素」が対訳文データに多く含まれており、正しい対訳語「carbon dioxide」に対応付けられれば、「炭酸ガス」も正しい対訳語「carbon dioxide」に対応付けることができる。
【００３５】
また、トピック情報を導入することで、多義性の課題に対処することができる。例えば、「head」という単語は、「forefront」または「chief」の両単語と同義語であるが、「forefront」と「chief」の意味は異なる。すなわち、文脈に応じて「head」の表す意味が異なる。トピックの概念を導入した同義語辞書モデルを用いることで、文全体のトピックに応じて「head」の同義語がどちらであるかを自動的に学習する。その結果、同義語を単語アライメントの学習に利用することが可能になり、アライメント精度の向上が期待できる。
【００３６】
図３にアライメント確率学習部２０の具体的な機能構成例を示し、更に詳しく自動単語対応付け装置１００の動作を説明する。アライメント確率学習部２０は、基準値計算部２１と、単語アライメント確率計算部２２と、同義語辞書確率計算部２３と、パラメータ更新部２４と、収束判定部２５と、を具備する。
【００３７】
アライメント確率学習部２０は、確率モデルp_b(D_b; Θ)とp_m(D_m: Θ)のパラメータΘが収束するまで逐次更新することで最適なパラメータΘ＾を求めるものである。その動作フローを図４に示す。
【００３８】
基準値計算部２１は、訓練データ記憶部１０に保存されている対訳文データD_bと同義語辞書データD_mを読み込んで、初期値Θ⁽⁰⁾を設定する（ステップＳ２１）。
【００３９】
単語アライメント確率計算部２２は、パラメータの初期値Θ⁽⁰⁾を入力として潜在変数Ｚの事後確率p_b(Z_b｜D_b:Θ⁽⁰⁾)を計算した後に、収束判定部２５から入力されるパラメータΘ^(t)から潜在変数Ｚの事後確率p_b(Z_b｜D_b:Θ^(t))を計算する（ステップＳ２２）。Θ^(t)は、t回目の更新ステップで得られるパラメータを示す。
【００４０】
同義語辞書確率計算部２３は、パラメータの初期値Θ⁽⁰⁾と更新途中のパラメータΘ^(t)から潜在変数Ｚの事後確率p_m(Z_m｜D_ｍ:Θ^(t))を計算する（ステップＳ２３）。
【００４１】
パラメータ更新部２４は、単語アライメント確率計算部２２で計算された潜在変数Ｚの事後確率p_b(Z_b｜D_b:Θ^(t))と、同義語辞書確率計算部２３で計算された潜在変数Ｚの事後確率p_b(Z_b｜D_b:Θ^(t))を入力として、トピック別の単語翻訳確率テーブル２４１に記録された単語翻訳確率と、トピック別の原言語の単語生成確率テーブル２４２に記録された単語生成確率と、同義語辞書確立テーブル２４３に記録された同義語辞書確率と、原言語から目的言語への単語の語順入れ替え確率と、トピックの混合比の生成確率とを参照する。そして、原言語の単語生成確率p(E_n｜z_n;β)、原言語から目的言語への単語翻訳確率p(F_m｜E_n,z_n,a_n;B)、訓練データの対訳文のトピックz_n、訓練データ全体のトピックの混合比θ、原言語と目的言語の単語アライメントａを推定し、推定した上記値を基に新たなパラメータΘ^(t+1)を計算する（ステップＳ２４）。
【００４２】
図５にトピック別の原言語の単語生成確率テーブル２４２の例を示す。図６にトピック別の単語翻訳確率テーブル２４１の例を示す。図７に同義語辞書確率テーブル２４３の例を示す。
【００４３】
収束判定部２５は、パラメータ更新部２４から入力されるパラメータΘ^(t+1)から計算される対数尤度log L(Θ^(t+1))を計算し、収束条件log L(Θ^(t+1))-log L(Θ^(t))＜εを満たせばΘ＾←Θ^(t+1)としてパラメータの推定値を更新する。収束条件を満たさない場合は、パラメータΘ^(t+1)の更新ステップをt←t+1として、更新したパラメータΘ^(t+1)を再度、単語アライメント確率計算部２２と同義語辞書確率計算部２３へ出力する（ステップＳ２５、未収束）。
【００４４】
ステップＳ２２〜Ｓ２５の処理は、収束条件を満たすまで繰り返し実行される。自動対応付け部３０は、学習された最適なパラメータΘ＾を用いて対象翻訳文Ｘの原言語と目的言語の最適な対応付けa_n^を抽出する（式（７））。
【００４５】
【数６】

【００４６】
上記した各処理の具体例を示して更に詳細に説明する。単語アライメント問題では、原言語の文が確率的に変換されて目的言語の文が生成されると考える。このとき、対訳データとして原言語と目的言語の対訳文集合（式（８））、同義語辞書として目的言語の同義語ペア集合（式（９））が与えられる。
【００４７】
【数７】

【００４８】
ここで、E_nは対訳データ中のn番目の原言語文、F_nはn番目の目的言語文である。(f_s,f’_s)は目的言語の同義語ペアを表す。
【００４９】
既存の単語アライメント抽出技術として、上記した参考文献１に開示されたHM-BiTAMを用いる場合で説明する。HM-BiTAMは、原言語と目的言語の対訳文集合の確率モデルを与える。潜在変数Z_b=(z,a)は単語アライメントa、トピックzを表す。また、HM-BiTAMでは、トピックzのパラメータであるトピックの混合比θに対して事前分布を設定する。したがって、トピックの混合比θはモデルの学習において陽には現れず、その代わりに事前分布のパラメータ（ハイパーパラメーター）を推定するため、便宜上Z_b=(z,a,θ)としてよい。単語アライメントを表す変数a_jn=iは、対訳文nにおいて、目的言語のj_n番目の単語と、原言語のi番目の単語が対応関係にあることを表す。トピックzは、各対訳文（E_n,F_n）に対して一つずつ割り当てられる。トピックの混合比θは、各トピックの生成確率を表す頻度分布である。
【００５０】
次に、この発明の同義語辞書確率モデルについて説明する。同義語辞書確率モデルは、目的言語の同義語ペア(f_s,f_s)の集合である同義語辞書に対して確率を与える。同義語は、ある言葉の「意味」を異なる表現で表したものであり、式（１０）に示すように定義される。
【００５１】
【数８】

【００５２】
ここで、uは同義語の意味を表す。この実施例では、同義語の意味uをトピックｋと原言語の単語eの組み合わせで表現する。すなわち、u=(k,e)となる。図７に、同義語辞書の確率モデルで表現される同義語辞書確率テーブルの例を示す（図３の同義語辞書確率テーブル２４３）。
【００５３】
以上の前提の下、対訳文データの確率モデルp(D_b;Θ）は上記した式（２）で、同義語辞書確率モデルp_m(D_m;Θ）は式（１）で表せる。アライメント確率学習部２０は、対訳データの確率モデルp(D_b;Θ）の対数尤度と、同義語辞書確率モデルp_m(D_m;Θ）の対数尤度との重み付き和log L（Θ）=log p(D_b;Θ)+ζlog p(D_m; Θ)を、最大にするパラメータΘを学習する。log L（Θ）の下限値は、上記した式（６）で計算される。
【００５４】
単語アライメント確率計算部２２は、式（６）を最大化するトピックの混合比θの確率モデルのパラメータγ_kを式（１１）、トピックzの確率モデルのパラメータφ_n,kを式（１２）、単語アライメントaの確率モデルのパラメータλ_n,j,iを式（１３）で求める。
【００５５】
【数９】

【００５６】
同義語辞書確率計算部２３は、潜在変数Z_m=(k,e)であるため、事後確率p_m(k,e｜D_m;Θ^(t))を計算する（式（１４））。
【００５７】
【数１０】

【００５８】
ここで、β_k,eはトピック別の原言語の単語の生成確率であり式（１５）で計算される。B_f,e,kはトピック別の原言語から目的言語への単語翻訳確率であり式（１６）で計算される。α_kはトピックの混合比θの確率モデルのパラメータであり式（１７）で計算される。T_i′,iは原言語と目的言語の単語の語順入れ替え確率であり式（１８）で計算される。
【００５９】
【数１１】

【００６０】
【数１２】

【００６１】
式（１１）〜式（１８）に示すパラメータは、訓練データの対数尤度log L（Θ）を示す式（６）を各パラメータで偏微分することで得られる。
【００６２】
収束判定部２５は、更新されたパラメータΘ^(t+1)が収束したかどうかを判定する。例えば、訓練データの対数尤度を更新前と更新後で比較し、その差がε未満であれば収束したと判定する（式（１９））。
【００６３】
【数１３】

【００６４】
〔実験結果〕
この発明の自動単語対応付け方法の効果を確認する目的で評価実験を行った。対訳データとして、単語アライメント問題でよく用いられる参考文献２（R. Mihalcea and T. Pedersen. 2003. An evaluation exercise for word alignment. In Proceedings of the HLT-NAACL 2003 Workshop on Building and using parallel texts: data driven machine translation and beyond-Voiume 3, page 10. Association for Computational Linguistics.）に示されるHansardsデータセットを用いた。これは、英仏の対訳文コーパスである。また、同義語辞書として参考文献３（G.A. Miller. 1995. WordNet: a lexical database for English. Communications of the ACM, 38(11):41.）に示されたWordNet2.1を用いた。
【００６５】
評価用データとして、Hansardsデータセットの中から１万対訳文を無作為に抽出した。また、WordNetに掲載されている同義語の中で評価用対訳データセット中に少なくとも１回以上出現する同義語ペアを同義語辞書とした。これらの異種データと同義語辞書を訓練データとして英仏間の単語アライメントを推定し、評価を行った。その結果を表１に示す。評価の指標として、単語アライメントで一般的に用いられる精度、リコール、Ｆ値、AER(Alignment Error Rate)を用いた。
【００６６】
【表１】

この発明の自動単語対応付け方法の精度が0.941と最も高く、この発明の効果が確認できた。
【００６７】
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【００６８】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。
【００６９】
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【００７０】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項１】
単語で区切られた原言語と目的言語の対訳文の組みで構成される対訳文コーパスと、上記目的言語の同義語の組の集合である同義語辞書とから成る訓練データ記憶部と、
上記対訳文コーパスの対数尤度と上記同義語辞書の対数尤度との重み付き和を最大にするパラメータを学習するアライメント確率学習部と、
対象翻訳文と上記パラメータを入力として、上記対象翻訳文の原言語と目的言語の単語間のアライメントを生成する自動対応付け部と、
を具備する自動単語対応付け装置。
【請求項２】
請求項１に記載の自動単語対応付け装置において、
上記同義語辞書の確率モデルは、
同義語のペアの意味毎の生成確率で構成されることを特徴とする自動単語対応付け装置。
【請求項３】
請求項１に記載の自動単語対応付け装置において、
目的言語の上記同義語辞書の確率モデルは、
単語アライメントで用いられる上記トピックと、原言語の単語の組み合わせで表現できると仮定し、上記トピック別の単語翻訳確率と、原言語の単語生成確率と、トピックの生成確率の組み合わせで与えられることを特徴とする自動単語対応付け装置。
【請求項４】
請求項１又は３に記載した自動単語対応付け装置において、
上記アライメント確率学習部は、
トピック別の単語翻訳確率テーブルに記録された単語翻訳確率と、トピック別の原言語の単語生成確率テーブルに記録された単語生成確率と、原言語から目的言語への単語の語順の入れ替え確率と、トピックの混合比の生成確率と、を参照して訓練データの対訳文のトピック、訓練データ全体のトピックの混合比、原言語と目的言語の単語間のアライメントを推定し、
推定した上記値を基にパラメータΘを更新するものであり、
パラメータΘの基準値を計算する基準値計算部と、
原言語と目的言語の対訳コーパスと、現在のパラメータΘ^(t)が与えられたもとで、訓練データのトピックと単語対応の事後確率を計算する単語アライメント確率計算部と、
目的言語の同義語辞書と、現在のパラメータΘ^(t)が与えられたもとで、訓練データのトピックと原言語の単語の事後確率を計算する同義語辞書確率計算部と、
現在のパラメータΘ^(t)から新たなパラメータΘ^(t+1)を計算するパラメータ更新部と、
上記パラメータΘ^(t+1)を用いて尤度を計算し、上記パラメータΘ^(t+1)が収束条件を満たす最適なパラメータ推定値Θ＾かどうかを判定する収束判定部と、
を具備することを特徴とする自動単語対応付け装置。
【請求項５】
アライメント確率学習部が、単語で区切られた原言語と目的言語の対訳文の組みで構成される対訳文コーパスの対数尤度と上記目的言語の同義語の組の集合である同義語辞書の対数尤度との重み付き和を最大にするパラメータを学習するアライメント確率学習過程と、
自動対応付け部が、対象翻訳文と上記パラメータを入力として上記対象翻訳文の原言語と目的言語の単語間のアライメントを生成する自動対応付け過程と、
を含む自動単語対応付け方法。
【請求項６】
請求項５に記載の自動単語対応付け方法において、
上記同義語辞書の確率モデルは、
同義語のペアの意味毎の生成確率で構成されることを特徴とする自動単語対応付け方法。
【請求項７】
請求項５に記載の自動単語対応付け方法において、
目的言語の上記同義語辞書の確率モデルは、
単語アライメントで用いられる上記トピックと原言語の単語の組み合わせで表現できると仮定し、上記トピック別の単語翻訳確率と、原言語の単語生成確率と、トピックの生成確率の組み合わせで与えられることを特徴とする自動単語対応付け方法。
【請求項８】
請求項５又は７に記載した自動単語対応付け方法において、
上記アライメント確率学習過程は、
トピック別の単語翻訳確率テーブルに記録された単語翻訳確率と、トピック別の原言語の単語生成確率テーブルに記録された単語生成確率と、原言語から目的言語への単語の語順の入れ替え確率と、トピックの混合比の生成確率と、を参照して訓練データの対訳文のトピック、訓練データ全体のトピックの混合比、原言語と目的言語の単語間のアライメントを推定し、
推定した上記値を基にパラメータΘを更新するものであり、
基準値計算部が、パラメータΘの基準値を計算する基準値計算ステップと、
単語アライメント確率計算部が、原言語と目的言語の対訳コーパスと、現在のパラメータΘ^(t)が与えられたもとで、訓練データのトピックと単語対応の事後確率を計算する単語アライメント確率計算ステップと、
同義語辞書確率計算部が、同義語辞書と、現在のパラメータΘ^(t)が与えられたもとで、訓練データのトピックと原言語の単語の事後確率を計算する同義語辞書確率計算ステップと、
パラメータ更新部が、現在のパラメータΘ^(t)から新たなパラメータΘ^(t+1)を計算するパラメータ更新ステップと、
収束判定部が、上記パラメータΘ^(t+1)を用いて尤度を計算し、上記パラメータΘ^(t+1)が収束条件を満たす最適なパラメータ推定値Θ＾かどうかを判定する収束判定ステップと、
を含むことを特徴とする自動単語対応付け方法。
【請求項９】
請求項１乃至４の何れかに記載した自動単語対応付け装置の各部の機能を、コンピュータに実行させるための装置プログラム。

【図１】