説明

対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法

【課題】種々の粒度のフレーズペアを学習できなかったり、不適切なフレーズペアを学習したりした。
【解決手段】フレーズテーブルと、フレーズペアの取得を試みて、取得できなかった場合、一の記号を取得する記号取得部と、フレーズペアを取得できなかった場合、当該フレーズペアより小さい2つのフレーズペアを生成する部分フレーズペア生成部と、取得した記号に従って、新しいフレーズペアを生成する、または、2つのフレーズペアを順に繋げた新しいフレーズペアを生成する、または、2つのフレーズペアを逆順に繋げたフレーズペアを生成する、のいずれかを行う新フレーズペア生成部とを具備し、上記の処理を再帰的に行い、フレーズテーブルの各フレーズペアに対するスコアを算出し、当該スコアを各フレーズペアに対応付けて蓄積する対訳フレーズ学習装置により、多数の適切なフレーズペアを学習できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対訳フレーズを学習する対訳フレーズ学習装置等に関するものである。
【背景技術】
【0002】
従来の第一の手法において、単語アライメントの後、ヒューリスティックな句単位のアライメントを網羅的に行い、フレーズベース統計的機械翻訳のためのフレーズテーブルを作成する(例えば、非特許文献1参照)。この第一の手法では、長いフレーズで語彙的曖昧性を解消し、同時に短いフレーズによりスパースなデータに対応している。
【0003】
このヒューリスティックな手法(第一の手法)に対し、対訳データから直接句単位のアライメントを計算する手法が提案されている(例えば、非特許文献2から5参照)。非特許文献2および3に記載の手法では、フレーズを網羅的に計算するのに対し、非特許文献4および5に記載の手法では、Inversion Transduction Grammar(ITG)の制約を利用している。
【0004】
また、非特許文献3から5に記載の手法では、ノンパラメトリックベイズ法に基づく確率過程を用いて簡潔なフレーズに高い確率を割り当てることにより、短いフレーズの抽出を可能としている。
【0005】
さらに詳細には、ITGは同期文脈自由文法の一種で、非終端記号を生成する時に単語の並べ換えを行うことが特徴である。ITG制限を利用することにより計算量を減らし、多項式時間でアライメントの最尤解や周辺確率が計算できる。ITGにおいて、あるフレーズペアの生成確率をPflat(<e,f>;θxt)とし、フレーズペア確率θtと記号確率θxでパラメータ化する。従来のITGモデルは、以下の生成過程を利用する。なお、<e,f>は、第一言語(例えば、英語)のフレーズeと第二言語(例えば、日本語)のフレーズfのペアを示す。
【0006】
つまり、従来のITGモデルにおいて、第一に、シンボル(記号)xを多項式分布Px(x;θx)に従って生成する。xが取り得る値はterm、reg、またはinvである。ここで、Termは終端記号、regは普通非終端記号、invは倒置非終端記号である。
【0007】
第二に、xの値に従って、「x=term(終端記号)」の場合、フレーズペア確率Pt(<e,f>;θt)に従ってフレーズペアを生成する。また、「x=reg(普通非終端記号)」の場合、Pflatに従って、フレーズペア<e1,f1>と<e2,f2>を生成し、<e1e2,f1f2>で1つのフレーズペアに融合する。さらに、「x=inv(倒置非終端記号)」の場合、Pflatに従って、2つのフレーズペア<e1,f1>と<e2,f2>を生成するが、f1とf2を逆順に並べて<e1e2,f2f1>を得る。
【0008】
そして、各文に対するPflatの積を取り、数式1に示すように、コーパス尤度が計算できる。
【数1】

【0009】
従来のITGモデル(FLATと言う。)は、そのまま最尤推定で学習できるが、最尤解では非常に長いフレーズペア(1文1フレーズ)が得られてしまう。そこで、簡潔なフレーズ辞書に高い確率を与える事前確率P(θ)=P(θxt)を利用することで、長いフレーズの問題を解決する(非特許文献5参照)。
【0010】
ここでは、θxの事前確率にDirichlet分布を利用し、θtにはノンパラメトリックベイズ法に基づくPitman-Yor過程(非特許文献6参照)を利用する。なお、Pitman-Yor過程を数式2に示す。
【数2】

【0011】
数式2において、dはPitman-Yor過程の割引パラメータ、sは強さパラメータである。また、数式2において、非特許文献6に記載の技術を用いて、割引パラメータd、強さパラメータsを推定する。また、数式2において、Pbaseは後述する基底測度(base measure)である。さらに、数式2において、Dirichlet分布は公知技術であるので説明を省略する。
【0012】
Pitman-Yor過程による事前分布を用いる利点は、生成されたフレーズペアを記憶するという確率過程の性質にある。分布から頻繁に生成されるフレーズペアの確率が高くなり、さらに生成されやすくなる(かかる効果を「rich-gets-richer効果」という。)。Pitman-Yor過程を用いた学習によって、より少ない、より役に立つフレーズから構成されるフレーズテーブルが構築できる。また、Pt(フレーズペアの確率分布)から生成されるフレーズのみが記憶される。また、flat(ITGモデル)では、終端記号の最小フレーズペアのみがPtから生成されるため、記憶されるのも最小フレーズペアのみである。
【0013】
また、数式2のPbaseはモデルにおけるフレーズペアの事前確率であり、適切に決めることでフレーズのアライメントしやすさに関する事前知識をモデルに組み込める。ここで、Pbaseは対応なしのフレーズ(|e|=0または|f|=0)を生成するかどうかを一定の確率Puで選び、対応なしのフレーズをPbuから生成し、対応ありのフレーズペアをPbaから生成する。
Pbaは非特許文献7に記載されている通り、以下の数式3で算出できる。
【数3】

【0014】
数式3において、Ppoisは平均長パラメータλを持つポアソン分布である。長いフレーズを避けるために、λに小さい値を利用する。Pm1は単語確率に基づくIBMモデル1確率である(非特許文献8参照)。これを利用することで、フレーズを構成する単語の翻訳確率が高ければフレーズの確率も高くなる。両方向の条件付き確率の相乗平均を利用することで、両モデルが一致するフレーズを優先的にアライメントする。また、数式3において、eというフレーズを構成する単語がe1・・・e_nである場合、Puni(e)は、それぞれの単語のユニグラム確率の積である。
【0015】
Pbuでは、eとfの中から空でない単語列をgとし、確率を以下の数式4のように定義する。
【数4】

【0016】
なお、数式4において、eとfを両方考慮するため、Pbuを2で割っている。また、数式4において、gというフレーズを構成する単語がg1・・・g_nである場合、Puni(g)は、それぞれの単語のユニグラム確率の積である。
【先行技術文献】
【非特許文献】
【0017】
【非特許文献1】P. Koehn, F. J. Och, and D. Marcu. Statistical phrase-based translation. In Proc. NAACL, pp. 48-54, 2003.
【非特許文献2】Daniel Marcu and William Wong. 2002. A phrase-based, joint probability model for statistical machine transla- tion. pages 133-139.
【非特許文献3】J. DeNero and D. Klein. The complexity of phrase alignment problems. In Proc. ACL, pp. 25-28, 2008.
【非特許文献4】P. Blunsom and T. Cohn. Inducing synchronous gram- mars with slice sampling. In Proc. NAACL, 2010.
【非特許文献5】H. Zhang, C. Quirk, R. C. Moore, and D. Gildea. Bayesian learning of non-compositional phrases with synchronous parsing. Proc. ACL, pp. 97-105, 2008.
【非特許文献6】Y. W. Teh. A hierarchical Bayesian language model based on Pitman-Yor processes. In Proc. ACL, 2006.
【非特許文献7】J. DeNero, A. Bouchard-C^ot_e, and D. Klein. Sam-pling alignment structure under a Bayesian translation model. In Proc. EMNLP, pp. 314-323, 2008.
【非特許文献8】J. DeNero and D. Klein. Discriminative modeling of extraction sets for machine translation. In Proc. ACL,pp. 1453-1463, 2010.
【発明の概要】
【発明が解決しようとする課題】
【0018】
しかしながら、従来の第一の手法では、翻訳に最適なフレーズが得られているとは限らず、翻訳の精度の向上のため数多くのフレーズを抽出する必要があった。
【0019】
また、非特許文献2に記載の手法における最尤推定では、非常に長いフレーズペアのみしか抽出できない。
【0020】
また、非特許文献3から5に記載の手法では、上述したように、最小単位のフレーズの抽出のみ記憶し、複数の粒度のフレーズを直接モデル化できなかった。そのため、最小単位のフレーズアライメントの計算後、ヒューリスティックにより網羅的にフレーズの抽出を行っており、結局、二段階の手法を用いなければならなかった。また、網羅的にフレーズの抽出を行うため、不適切なフレーズペアを学習したりしていた。
【0021】
具体的には、従来のITGモデルを用いた場合、例えば、フレーズペア「Mrs.Smith's red cookbook/スミスさんの赤い料理本」に対して、図11に示すように、最小単位のフレーズ「Mrs./さん」「Smith/スミス」「's/の」「red/赤い」「cookbook/料理 本」のみが取得できる。
【課題を解決するための手段】
【0022】
本第一の発明の対訳フレーズ学習装置は、第一言語の1以上の単語を有する第一言語フレーズと、第二言語の1以上の単語を有する第二言語フレーズとの対であるフレーズペアとフレーズペアの出現確率に関する情報であるスコアとを有する1以上のスコア付きフレーズペアを格納し得るフレーズテーブルと、フレーズペアと、フレーズペアの出現頻度に関する情報であるF出現頻度情報とを有する1以上のフレーズ出現頻度情報を格納し得るフレーズ出現頻度情報格納部と、新しいフレーズペアを生成する方法を識別する記号と、記号の出現頻度に関する情報であるS出現頻度情報とを有する1以上の記号出現頻度情報を格納し得る記号出現頻度情報格納部と、1以上のフレーズ出現頻度情報を用いて、第一言語フレーズと第二言語フレーズとを有するフレーズペアを取得する生成フレーズペア取得部と、フレーズペアを取得できた場合、フレーズペアに対応するF出現頻度情報を、予め決められた値だけ増加するフレーズ出現頻度情報更新部と、フレーズペアを取得できなかった場合、1以上の記号出現頻度情報を用いて、一の記号を取得する記号取得部と、記号取得部が取得した記号に対応するS出現頻度情報を、予め決められた値だけ増加する記号出現頻度情報更新部と、フレーズペアを取得できなかった場合、取得しようとしたフレーズペアより小さい2つのフレーズペアを生成する部分フレーズペア生成部と、記号取得部が取得した記号に従って、新しいフレーズペアを生成する第一の処理、または、2つのより小さいフレーズペアを生成し、1以上のフレーズ出現頻度情報を用いて、生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第二の処理、または、2つのより小さいフレーズペアを生成し、1以上のフレーズ出現頻度情報を用いて、生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを逆順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第三の処理のいずれかを行う新フレーズペア生成部と、新フレーズペア生成部が生成したフレーズペアに対して、フレーズ出現頻度情報更新部、記号取得部、記号出現頻度情報更新部、部分フレーズペア生成部、および新フレーズペア生成部の処理を再帰的に行う制御部と、フレーズ出現頻度情報格納部に格納されている1以上のフレーズ出現頻度情報を用いて、フレーズテーブルの各フレーズペアに対するスコアを算出するスコア算出部と、スコア算出部が算出したスコアを各フレーズペアに対応付けて蓄積するフレーズテーブル更新部とを具備する対訳フレーズ学習装置である。
【0023】
かかる構成により、多数の適切なフレーズペアを学習できる。
【0024】
また、本第二の発明の対訳フレーズ学習装置は、第一の発明に対して、生成フレーズペア取得部は、フレーズペアの確率分布を用いて、第一言語フレーズと第二言語フレーズとを有する生成フレーズペアを取得し、記号取得部は、フレーズペアを取得できなかった場合、記号の確率分布を用いて、一の記号を取得し、部分フレーズペア生成部は、フレーズペアを取得できなかった場合、基底測度を用いて、生成しようとしたフレーズペアより小さい2つのフレーズペアを生成し、第一の処理は、フレーズペアの基底測度を用いて、新しいフレーズペアを生成する処理であり、スコア算出部は、フレーズ出現頻度情報格納部に格納されている1以上のフレーズ出現頻度情報を用いて、ノンパラメトリックベイズ法に基づいて、フレーズテーブルの各フレーズペアに対するスコアを算出する対訳フレーズ学習装置である。
【0025】
かかる構成により、多数の適切なフレーズペアを学習できる。
【0026】
また、本第三の発明のフレーズベース統計的機械翻訳装置は、第一または第二の発明に対して、対訳フレーズ学習装置が学習したフレーズテーブルと、1以上の単語を有する第一言語の文を受け付ける受付部と、受付部が受け付けた文から1以上のフレーズを抽出し、フレーズテーブルのスコアを用いて、フレーズテーブルから第二言語の1以上のフレーズを取得するフレーズ取得部と、フレーズ取得部が取得した1以上のフレーズから第二言語の文を構成する文構成部と、文構成部が構成した文を出力する出力部とを具備するフレーズベース統計的機械翻訳装置である。
【0027】
かかる構成により、多数の適切なフレーズペアを用いて、精度の良い機械翻訳が可能となる。
【発明の効果】
【0028】
本発明による対訳フレーズ学習装置によれば、多数の適切なフレーズペアを学習できる。
【図面の簡単な説明】
【0029】
【図1】実施の形態1における対訳フレーズ学習装置のブロック図
【図2】同対訳フレーズ学習装置の動作について説明するフローチャート
【図3】同フレーズ生成処理の動作について説明するフローチャート
【図4】同学習できるフレーズペアを説明する図
【図5】同コーパスの諸元を示す図
【図6】同実験結果を示す図
【図7】同モデル確率に基づくフレーズ抽出と従来法との比較示す図
【図8】実施の形態2におけるフレーズベース統計的機械翻訳装置のブロック図
【図9】上記実施の形態におけるコンピュータシステムの概観図
【図10】上記実施の形態におけるコンピュータシステムのブロック図
【図11】従来技術において学習できるフレーズペアを説明する図
【発明を実施するための形態】
【0030】
以下、対訳フレーズ学習装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0031】
(実施の形態1)
本実施の形態において、複数の階層の対訳フレーズを蓄積する対訳フレーズ学習装置について説明する。
【0032】
また、本実施の形態において、階層的なITGモデルを利用することにより、複数の粒度のフレーズを直接、確率モデルで表現する。このため、本実施の形態における対訳フレーズ学習装置では、ヒューリスティックスに基づくフレーズ抽出を行わずに高い翻訳精度を実現できる。
【0033】
図1は、本実施の形態における対訳フレーズ学習装置1のブロック図である。対訳フレーズ学習装置1は、対訳コーパス100、フレーズテーブル101、フレーズ出現頻度情報格納部102、記号出現頻度情報格納部103、フレーズテーブル初期化部113、生成フレーズペア取得部104、フレーズ出現頻度情報更新部105、記号取得部106、記号出現頻度情報更新部107、部分フレーズペア生成部108、新フレーズペア生成部109、制御部110、スコア算出部111、パージング部114、フレーズテーブル更新部112、および木更新部115を具備する。
【0034】
対訳コーパス100は、対訳文と対訳文の木構造とを有する1以上の対訳情報を格納し得る。対訳文とは、第一言語文と第二言語文との対である。第一言語文は、第一言語の文である。第二言語文は、第二言語の文である。ここで、文は、1以上の単語の意味であり、フレーズも含む。対訳文の木構造とは、2つの各言語の文を分割したフレーズ(単語も含む)の対応を木構造で表した情報である。対訳文の木構造は、例えば、図4に示すような情報である。
【0035】
フレーズテーブル101は、1以上のスコア付きフレーズペアを格納し得る。スコア付きフレーズペアは、フレーズペアとスコアとを有する。フレーズペアは、第一言語フレーズと第二言語フレーズとの対である。第一言語フレーズは、第一言語の1以上の単語を有するフレーズである。第二言語フレーズは、第二言語の1以上の単語を有するフレーズである。フレーズは、文も含むとして、広く解する。また、スコアは、フレーズペアの出現確率に関する情報である。また、スコアとは、例えば、フレーズペア確率θである。
【0036】
フレーズ出現頻度情報格納部102は、1以上のフレーズ出現頻度情報を格納し得る。フレーズ出現頻度情報は、フレーズペアとF出現頻度情報とを有する。F出現頻度情報は、フレーズペアの出現頻度に関する情報である。F出現頻度情報は、フレーズペアの出現頻度であることが好適であるが、フレーズペアの出現確率等でも良い。なお、F出現頻度情報の初期値は、例えば、すべて0である。
【0037】
記号出現頻度情報格納部103は、1以上の記号出現頻度情報を格納し得る。記号出現頻度情報は、記号とS出現頻度情報とを有する。記号とは、新しいフレーズペアを生成する方法を識別する情報である。記号は、例えば、BASE、REG、INVのいずれかである。ここで、BASEとは基底測度からフレーズペアを生成することを示す記号、REGとは普通非終端記号、INVとは倒置非終端記号である。また、S出現頻度情報は、記号の出現頻度に関する情報である。S出現頻度情報は、記号の出現頻度であることが好適であるが、記号の出現確率等でも良い。また、S出現頻度情報の初期値は、例えば、3つの記号すべてに対して0である。
【0038】
フレーズテーブル初期化部113は、対訳コーパス100の1以上の対訳情報から、1以上のスコア付きフレーズペアの初期の情報を生成し、フレーズテーブル101に蓄積する。なお、フレーズテーブル初期化部113は、例えば、1以上の対訳情報が有する対訳文の木構造に出現するフレーズペアとその出現回数をスコア付きフレーズペアとして取得し、フレーズテーブル101に蓄積する。なお、かかる場合、スコアは出現回数である。
【0039】
生成フレーズペア取得部104は、対訳コーパス100に格納されている1以上の各対訳文を取得し、当該各対訳文の木構造を構成する1以上の各フレーズペアの出現分(通常、出現頻度の「1」)を、フレーズテーブル101に存在するフレーズペアのスコアから引く。次に、生成フレーズペア取得部104は、1以上のフレーズ出現頻度情報を用いて、第一言語フレーズと第二言語フレーズとを有するフレーズペアを取得する(正確には、取得しようとする)。ここで、1以上のフレーズ出現頻度情報を用いることは、例えば、フレーズペアの確率分布Pを用いることであっても良い。つまり、生成フレーズペア取得部104は、フレーズペアの確率分布Pを用いて、第一言語フレーズと第二言語フレーズとを有するフレーズペアを取得することは好適である。
【0040】
フレーズ出現頻度情報更新部105は、生成フレーズペア取得部104等がフレーズペアが取得できた場合、当該フレーズペアに対応するF出現頻度情報を、予め決められた値だけ増加する。ここでのF出現頻度情報とは、通所、フレーズペアの出現頻度である。また、予め決められた値とは、通常、1である。なお、生成フレーズペア取得部104等とは、生成フレーズペア取得部104と新フレーズペア生成部109である。
【0041】
記号取得部106は、生成フレーズペア取得部104等がフレーズペアを取得できなかった場合、1以上の記号出現頻度情報を用いて、一の記号を取得する。ここで、1以上の記号出現頻度情報を用いることは、記号の確率分布Px(x;θx)を用いることが好適である。つまり、記号取得部106は、生成フレーズペア取得部104が生成フレーズペアを取得できなかった場合、記号の確率分布を用いて、一の記号を取得することが好適である。なお、一の記号とは、例えば、BASE、REG、INVのいずれかである。
【0042】
記号出現頻度情報更新部107は、記号取得部106が取得した記号に対応するS出現頻度情報を、予め決められた値だけ増加する。また、予め決められた値とは、通常、1である。
【0043】
部分フレーズペア生成部108は、生成フレーズペア取得部104等がフレーズペアを取得できなかった場合、取得しようとしたフレーズペアより小さい2つのフレーズペアを生成する。また、部分フレーズペア生成部108は、フレーズペアを取得できなかった場合、通常、フレーズペアの事前確率を用いて、取得しようとしたフレーズペアより小さい2つのフレーズペアを生成する。さらに詳細には、例えば、部分フレーズペア生成部108は、フレーズペアの事前確率から取得される基底測度Pdacを用いて、取得しようとしたフレーズペアより小さい2つのフレーズペアを生成する。また、基底測度Pdacのdacとは、("divide-and-conquer")の略であり、長いフレーズペアを短いフレーズペアに分割する仕組みによる確率である。例えば、取得しようとしたフレーズペアが<red cookbook,赤い 料理 本>の場合、「Pdac(<red cookbook,赤い 料理 本>)=Px(REG)*Pt(<red,赤い>)*P_{t}(<cookbook,料理 本>)+Px(REG)*Pt(<red,赤い 料理>)*Pt(<cookbook,本>)+Px(INV)*Pt(<red,本>)*Pt(<cookbook,赤い 料理>)+Px(INV)*Pt(<red,料理 本>)*Pt(<cookbook,赤い>)+Px(BASE)*Pbase(<red cookbook,赤い 料理 本>)」である。
【0044】
新フレーズペア生成部109は、記号取得部106が取得した記号に従って、第一の処理、または第二の処理、または第三の処理のいずれかを行う。新フレーズペア生成部109は、記号取得部106が取得した記号がBASEである場合に第一の処理を行い、記号がREGである場合に第二の処理を行い記号がINVである場合に第三の処理を行う。
【0045】
ここで、第一の処理は、新しいフレーズペアを生成する処理である。また、第一の処理は、フレーズペアの事前確率を用いて、新しいフレーズペアを生成する処理である。また、第一の処理は、公知技術であるので、説明を省略する。
【0046】
また、第二の処理は、2つのより小さいフレーズペアを生成し、1以上のフレーズ出現頻度情報を用いて、生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する処理である。さらに、第三の処理は、2つのより小さいフレーズペアを生成し、1以上のフレーズ出現頻度情報を用いて、生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを逆順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する処理である。ここで、1以上のフレーズ出現頻度情報を用いることは、フレーズペアの生成確率(Phier)を用いる意味でも良い。
【0047】
制御部110は、新フレーズペア生成部109が生成したフレーズペアに対して、フレーズ出現頻度情報更新部105、記号取得部106、記号出現頻度情報更新部107、部分フレーズペア生成部108、新フレーズペア生成部109の処理を再帰的に行う。なお、再帰的に行うとは、通常、処理対象が単語ペアになった時点で、再帰的な処理が終了する意味である。なお、再帰処理は、処理対象がPtから直接(基底測度を用いずに)フレーズを生成した場合に終了する。また、再帰処理は、P_xからBASEを生成して、P_baseからフレーズペアを生成した場合に終了する。
【0048】
スコア算出部111は、フレーズ出現頻度情報格納部102に格納されている1以上のフレーズ出現頻度情報を用いて、フレーズテーブル101の各フレーズペアに対するスコアを算出する。ここで、1以上のフレーズ出現頻度情報を用いてとは、例えば、数式5に示すように、ノンパラメトリックベイズ法に基づくPitman-Yor過程を利用することである。つまり、スコア算出部111は、フレーズ出現頻度情報格納部102に格納されている1以上のフレーズ出現頻度情報を用いて、ノンパラメトリックベイズ法に基づいて、フレーズテーブル101の各フレーズペアに対するスコアを算出することは好適である。
【数5】

【0049】
なお、数式5は、フレーズペアの確率分布が、d、s、PdacをパラメータとするPitman-Yor過程から生成される、ことを意味する。
【0050】
パージング部114は、スコア算出部111で算出したスコアが最大になるような対訳文(フレーズも含む)の木構造を取得する。さらに、詳細には、パージング部114は、ITGのチャートパーサにより、木構造を取得する。なお、ITGのチャートパーサについて、「M. Saers, J. Nivre, and D. Wu.Learning stochastic bracketing inversion transduction grammars with a cubic time biparsing algorithm.In Proc. IWPT, 2009.」に記載されている。
【0051】
木更新部115は、パージング部114が取得した木構造を、対訳コーパス100に蓄積する。ここで、通常、木更新部115は、木構造を上書きする。つまり、対訳コーパス100中の古い木構造は、新しい木構造に更新される。
【0052】
フレーズテーブル更新部112は、スコア算出部111が算出したスコアを各フレーズペアに対応付けて蓄積する。また、フレーズテーブル更新部112は、スコア算出部111が算出したスコアに対応するフレーズペアがフレーズテーブル101に存在しない場合、スコア算出部111が算出したスコアとフレームペアとを有するスコア付きフレーズペアを、フレーズテーブル101に蓄積しても良い。
【0053】
フレーズテーブル101、フレーズ出現頻度情報格納部102、記号出現頻度情報格納部103、または対訳コーパス100は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0054】
フレーズテーブル101等にスコア付きフレーズペア等が記憶される過程は問わない。例えば、記録媒体を介してスコア付きフレーズペア等がフレーズテーブル101等で記憶されるようになってもよく、通信回線等を介して送信されたスコア付きフレーズペア等がフレーズテーブル101等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたスコア付きフレーズペア等がフレーズテーブル101等で記憶されるようになってもよい。
【0055】
生成フレーズペア取得部104、フレーズ出現頻度情報更新部105、記号取得部106、記号出現頻度情報更新部107、部分フレーズペア生成部108、新フレーズペア生成部109、制御部110、スコア算出部111、フレーズテーブル更新部112、フレーズテーブル初期化部113、パージング部114、および木更新部115は、通常、MPUやメモリ等から実現され得る。生成フレーズペア取得部104等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0056】
次に、対訳フレーズ学習装置1の動作について、図2のフローチャートを用いて説明する。なお、図2のフローチャートの動作の前に、フレーズテーブル初期化部113は、初期段階のフレーズテーブル101を生成している、とする。また、図2、図3のフローチャートでは、対訳コーパス100内の一の対訳情報を用いて、スコア付きフレーズペアを取得する処理を説明している。つまり、通常、対訳コーパス100内の多数の各対訳情報に対して、繰り返し、スコア付きフレーズペアを取得する。また、一の対訳情報に対しても、繰り返し、スコア付きフレーズペアを取得することは好適である。
【0057】
(ステップS201)生成フレーズペア取得部104は、対訳コーパス100に格納されている1以上の各対訳文を取得し、当該各対訳文の木構造を構成する1以上の各フレーズペアの出現分(通常、出現頻度の「1」)を、フレーズテーブル101に存在するフレーズペアのスコアから引く。次に、生成フレーズペア取得部104は、フレーズペアの確率分布Pを用いて、一つのフレーズペアを生成しようとする。また、フレーズペアの確率分布Pは、フレーズ出現頻度情報格納部102のフレーズペア頻度(F出現頻度情報)を用いて、例えば、Pitman-Yor過程によって算出され得る。なお、Pitman-Yor過程に基づいた確率の算出は公知技術であるので、説明を省略する。
【0058】
(ステップS202)部分フレーズペア生成部108等は、フレーズ生成処理を行い、処理を終了する。フレーズ生成処理とは、階層的ITGを用いた、2階層以上のフレーズの生成処理である。フレーズ生成処理については、図3のフローチャートを用いて説明する。
【0059】
次に、ステップS102のフレーズ生成処理について、図3のフローチャートを用いて説明する。
【0060】
(ステップS301)部分フレーズペア生成部108は、先のフレーズペアの生成の処理において、フレーズペアが生成できたか否かを判断する。フレーズペアが生成できればステップS302に行き、生成できなければステップS305に行く。
【0061】
(ステップS302)フレーズ出現頻度情報更新部105は、先のフレーズペアの生成の処理において生成されたフレーズペアに対応するF出現頻度情報を予め決められた値(通常、「1」)だけ増加する。なお、フレーズペアがフレーズ出現頻度情報格納部102に存在しない場合は、フレーズ出現頻度情報更新部105は、生成されたフレーズペアとF出現頻度情報とを対応付けて、フレーズ出現頻度情報格納部102に蓄積する。
【0062】
(ステップS303)スコア算出部111は、更新されたフレーズ出現頻度情報に対応するフレーズペアのスコアを算出する。
【0063】
(ステップS304)フレーズテーブル更新部112は、ステップS303で算出されたスコアを有するスコア付きフレーズペアを構成し、フレーズテーブル101に書き込む。なお、フレーズテーブル101に当該フレーズペアが存在しない場合は、フレーズテーブル更新部112は、スコア付きフレーズペアを構成し、新たにフレーズテーブル101に追記する。また、フレーズテーブル101に当該フレーズペアが存在する場合は、フレーズテーブル更新部112は、当該フレーズペアに対応するスコアを、ステップS303で算出されたスコアに更新する。そして、上位処理(ステップS202等)にリターンする。
【0064】
(ステップS305)部分フレーズペア生成部108は、基底測度Pdacを用いて、生成しようとしたフレーズペアより小さい2つのフレーズペアを生成する。
【0065】
(ステップS306)記号取得部106は、1以上の記号出現頻度情報を用いて、一の記号xを取得する。
【0066】
(ステップS307)記号出現頻度情報更新部107は、記号取得部106が取得した記号xに対応するS出現頻度情報を、予め決められた値(通常、「1」)だけ増加する。
【0067】
(ステップS308)新フレーズペア生成部109は、ステップS306で取得された記号xが「BASE」であるか否かを判断する。記号xが「BASE」であればステップS309に行き、「BASE」でなければステップS310に行く。
【0068】
(ステップS309)新フレーズペア生成部109は、フレーズペアの事前確率を用いて、新しいフレーズペアを生成し、ステップS302にジャンプする。
【0069】
(ステップS310)新フレーズペア生成部109は、ステップS306で取得された記号xが「REG」であるか否かを判断する。記号xが「REG」であればステップS311に行き、「REG」でなければステップS315に行く。なお、記号xが「REG」でなければ、記号xは「INV」である。
【0070】
(ステップS311)新フレーズペア生成部109は、より小さい2つのフレーズペアを生成する。なお、ここでの2つのフレーズペアを第一フレーズペア、と第二フレーズペアとする。
【0071】
(ステップS312)ステップS311で生成された第一フレーズペアに対して、図3のフレーズ生成処理を行う。
【0072】
(ステップS313)ステップS311で生成された第二フレーズペアに対して、図3のフレーズ生成処理を行う。
【0073】
(ステップS314)新フレーズペア生成部109は、ステップS312とステップS313で生成された2つのフレーズペアを順に連結し、一つのフレーズペアを生成し、ステップS302にジャンプする。
【0074】
(ステップS315)新フレーズペア生成部109は、より小さい2つのフレーズペアを生成する。なお、ここでの2つのフレーズペアを第一フレーズペア、と第二フレーズペアとする。
【0075】
(ステップS316)ステップS315で生成された第一フレーズペアに対して、図3のフレーズ生成処理を行う。
【0076】
(ステップS317)ステップS315で生成された第二フレーズペアに対して、図3のフレーズ生成処理を行う。
【0077】
(ステップS318)新フレーズペア生成部109は、ステップS316とステップS317で生成された2つのフレーズペアを逆順に連結し、一つのフレーズペアを生成し、ステップS302にジャンプする。
【0078】
なお、図2、図3のフローチャートにおいて、ステップS304の後、リターンの前に、パージング部114による木構造の生成、および木更新部115による木構造(対訳コーパス100内の木構造)の更新処理が行われることは好適である。
【0079】
以下、本実施の形態における対訳フレーズ学習装置1の具体的な動作について説明する。
【0080】
今、フレーズテーブル101には、多数のスコア付きフレーズペアが格納されており、フレーズペアの確率分布がPtである、とする。
【0081】
また、フレーズ出現頻度情報格納部102には、フレーズペアと出現頻度の組である1以上のフレーズ出現頻度情報が格納されている。
【0082】
さらに、記号出現頻度情報格納部103には、記号「BASE」「REG」「INV」と、各記号の出現頻度の組である3つの記号出現頻度情報が格納されている。
【0083】
かかる状況において、まず、対訳フレーズ学習装置1の生成フレーズペア取得部104は、対訳コーパス100から一の対訳文を取得する。次に、生成フレーズペア取得部104は、取得した対訳文の木構造を構成する1以上の各フレーズペアの出現分(通常、出現頻度の「1」)を、フレーズテーブル101に存在するフレーズペアのスコアから引く。次に、生成フレーズペア取得部104は、当該対訳文であるフレーズペア<e,f>を、フレーズペアの確率分布Ptから生成しようとする。
【0084】
そして、部分フレーズペア生成部108は、先のフレーズペアの生成の処理において、フレーズペアが生成できなかった、と判断した場合、以下のように処理を行う。
【0085】
つまり、部分フレーズペア生成部108は、基底測度Pdacを用いて、再帰的に、生成しようとしたフレーズペアより小さい2つのフレーズペアを生成する。そして、生成したより小さい2つのフレーズペアを組み合わせることで新たなフレーズペアを生成する。なお、基底測度Pdacを定義し、θtの式は数式5に示したとおりである。
【0086】
また、Pdacの生成過程は、以下のようなITGに基づく生成過程となる。
【0087】
つまり、記号取得部106は、3つの記号出現頻度情報を用いて、記号の確率分布Px(x;θx)に従って、記号を生成する。そして、記号出現頻度情報更新部107は、記号「x=reg」に対応するS出現頻度情報を1だけ増加する。
【0088】
次に、生成した記号xが「x=base」の場合、新フレーズペア生成部109は、新しいフレーズペアをPbaseから直接生成する。また、生成した記号xが「x=reg」の場合、新フレーズペア生成部109は、<e1,f1>と<e2,f2>をPhierから生成し、1つのフレーズペア<e1e2,f1f2>を作成する。また、生成した記号xが「x=inv」の場合、新フレーズペア生成部109は、<e1,f1>と<e2,f2>をPhierから生成し、f1とf2を逆順に並べて、1つのフレーズペア<e1e2,f2f1>を作成する。
【0089】
そして、フレーズ出現頻度情報更新部105は、新たに作成されたフレーズペアのフレーズ出現頻度情報を更新する。
【0090】
また、スコア算出部111は、更新されたフレーズ出現頻度情報に対応するフレーズペアのスコアを算出する。
【0091】
そして、フレーズテーブル更新部112は、フレーズテーブルを更新する。
【0092】
また、パージング部114は、スコア算出部111が算出したスコアを用いて、木構造のスコアが最大になるような新しい木構造を取得する。そして、木更新部115は、取得された木構造を、対訳コーパス100に蓄積し、古い木構造を新しい木構造に更新する。
【0093】
以上の処理により、フレーズペア「Mrs.Smith's red cookbook/スミスさんの赤い料理本」に対して、図4に示すように、多階層の粒度のフレーズペアが学習できることとなる。
【0094】
なお、本具体例におけるフレーズテーブル101の構築法は、例えば、以下である。
【0095】
フレーズテーブルの素性として、条件付き確率Pt(f|e)とPt(e|f)や、lexical weight-ing確率、フレーズペナルティなどを利用する。ここでは、モデル確率Ptを使って条件付き確率を計算する。つまり、数式6、数式7を用いて、条件付き確率を算出する。そして、スコア算出部111は、例えば、フレーズテーブルの各素性に予め決められた重みを乗算し、それらの値の和をとることによりスコアを算出する。また、lexical weighting確率は、フレーズを構成する単語を利用して算出できる。かかる算出は公知技術(P. Koehn, F. J. Och, and D. Marcu.Statistical phrase-based translation.In Proc. NAACL, pp. 48-54, 2003.参照)
である。また、フレーズペナルティは、例えば、すべてのフレーズに対して「1」である。
【数6】

【数7】

【0096】
なお、フレーズテーブル更新部112は、サンプルに1回以上現れるフレーズペアのみをフレーズテーブル101に入れる。さらに、2つの素性を加える。1つ目はモデルによるフレーズペアの同時確率Pt(<e,f>)である。2つ目はinside-outside アルゴリズムで計算されたスパンの事後確率に基づいて、あるフレーズペア<e,f>が入っているスパンの平均事後確率を素性とする。スパン確率は頻繁に起こるフレーズペア、または頻繁に起こるフレーズペアを元に構成されるフレーズペアで高くなるため、フレーズペアがどの程度信頼できるかを判定するのに有用である。このモデル確率に基づくフレーズ抽出をMODと呼ぶ。なお、スパン確率は、ITGのチャートパーサによって算出できる。
(実験)
【0097】
以下、対訳フレーズ学習装置1の実験結果について説明する。本実験において、対訳フレーズ学習装置1の手法を、仏英翻訳と日英翻訳のタスクで評価した。
【0098】
仏英翻訳においてWorkshop on Statistical Machine Translation(WMT)(C. Callison-Burch, et al. Findings of the 2010 joint workshop on statistical machine translation and metrics for machine translation. In Proc.WMT/MetricsMATR, pp. 17{53, 2010.参照)のデータを用い、翻訳モデル学習にnews commentaryのコーパス、言語モデル学習にnews commentaryとEuroparlのコーパスを利用した。日英翻訳はNTCIRの特許翻訳タスク(A.Fujii,M.Utiyama,M.Yamamoto, and T.Utsuro.Overview of the patent translation task at the NTCIR-7 workshop. In Proc. NTCIR-7, pp. 389-400, 2008.)のデータを用い、翻訳モデルにパラレルコーパスの最初の10万文、言語モデルにパラレルコーパス全体を利用した。コーパスの諸元を図5に示す。データの前処理として単語分割(トークン化)と小文字化を行い、翻訳モデルの学習に40単語以下の文のみを利用する。デコーダとしてMoses(P. Koehn,et al. Moses: Open source toolkit for statistical machine translation. In Proc. ACL, 2007.参照)を利用する。フレーズの最大長を7とし、言語モデルはKneser-Ney平滑化を用いた5-gramモデルである。評価基準は4-gramまでのBLEUスコアとする。最初の実験では、flatとhierのモデル確率を利用したフレーズ抽出(mod)と、GIZA++から得られたアライメント(giza)とヒューリスティックスに基づくフレーズ抽出の精度を比べる。gizaの場合はModel4までの標準的な学習設定を用いて、grow-diag-final-andで両方向のアライメント結果で組み合わせる。対訳フレーズ学習装置1の手法では100イタレーションの学習を行い、最後のサンプルを利用する。実際には100イタレーション目まで尤度が単調増加したが、翻訳精度は5〜10イタレーション目以降ほぼ同等となった。1イタレーションは1コアで約1.3時間かかったため、良い翻訳精度は6.5〜13時間で実現することができた。
【0099】
実験結果を図6に示す。図6において、BLEUスコアとフレーズテーブルサイズを示す。図6において、仏英・日英ともに、階層的モデルの確率を利用したフレーズテーブルはGIZA++とヒューリスティックスに基づくフレーズ抽出の精度をわずかに上回った。つまり、完全な確率モデルが、ヒューリスティックスに基づくフレーズ抽出を上回った。さらに、対訳フレーズ学習装置1の手法で得られたフレーズテーブルのサイズも従来法の20%弱に収まった。また、モデル確率を用いた場合、hier(本手法)はflat(ITGモデルによる従来手法)を大きく上回った。これは、最小フレーズのみを利用すると高い精度が得られないからである。
【0100】
さらに、モデル確率に基づくフレーズ抽出と従来法の比較を図7に示す。図7において、種々のフレーズ抽出法による翻訳精度とフレーズテーブルサイズを示す。図7では、hierやflatのアライメントを利用し、モデル確率を用いる提案手法modに加えて、フレーズheur-p、ブロックheur-b、単語heur-wを最小単位とするヒューリスティック抽出を比較した。hierとmodの組み合わせはヒューリスティック抽出とほぼ同等、またはより高い精度を示しながら、フレーズテーブルのサイズを大幅に削減していることが、図7から分かる。
【0101】
以上、本実施の形態によれば、対訳フレーズ学習装置1で作成したフレーズテーブルを用いた機械翻訳の精度を保ちながら、フレーズテーブルのサイズを大幅に削減できる。つまり、本実施の形態によれば、多数の適切なフレーズペアを学習できる。
【0102】
なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。
【0103】
(実施の形態2)
本実施の形態において、実施の形態1における対訳フレーズ学習装置1が学習したフレーズテーブル101を用いたフレーズベース統計的機械翻訳装置について説明する。
【0104】
図8は、本実施の形態におけるフレーズベース統計的機械翻訳装置2のブロック図である。
【0105】
フレーズベース統計的機械翻訳装置2は、フレーズテーブル101、受付部201、フレーズ取得部202、文構成部203、および出力部204を具備する。
【0106】
フレーズテーブル101は、対訳フレーズ学習装置1が学習したフレーズテーブルである。
【0107】
受付部201は、1以上の単語を有する第一言語の文を受け付ける。ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。第一言語の文の入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。受付部201は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0108】
フレーズ取得部202は、受付部201が受け付けた文から1以上のフレーズを抽出し、フレーズテーブル101のスコアを用いて、フレーズテーブル101から第二言語の1以上のフレーズを取得する。なお、フレーズ取得部202の処理は公知技術である。
【0109】
文構成部203は、フレーズ取得部202が取得した1以上のフレーズから第二言語の文を構成する。なお、文構成部203の処理は公知技術である。
【0110】
出力部204は、文構成部203が構成した文を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
【0111】
フレーズ取得部202、および文構成部203は、通常、MPUやメモリ等から実現され得る。フレーズ取得部202等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0112】
出力部204は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部204は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0113】
また、フレーズベース統計的機械翻訳装置2の動作については、公知のフレーズベースの統計的機械翻訳処理を行うことで足りるので、詳細な説明を省略する。
【0114】
以上、本実施の形態によれば、少ない記憶領域で実現可能なフレーズテーブルを用いて、精度の高い機械翻訳が可能となる。
【0115】
また、図9は、上述した実施の形態の対訳フレーズ学習装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図9は、このコンピュータシステム340の概観図であり、図10は、コンピュータシステム340のブロック図である。
【0116】
図9において、コンピュータシステム340は、FDドライブ、CD−ROMドライブを含むコンピュータ341と、キーボード342と、マウス343と、モニタ344とを含む。
【0117】
図10において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、MPU3413と、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM3415とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0118】
コンピュータシステム340に、上述した実施の形態の対訳フレーズ学習装置等の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
【0119】
プログラムは、コンピュータ341に、上述した実施の形態の対訳フレーズ学習装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
【0120】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0121】
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0122】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0123】
以上のように、本発明にかかる対訳フレーズ学習装置は、多数の適切なフレーズペアを学習できる、という効果を有し、対訳フレーズ学習装置、機械翻訳装置等として有用である。
【符号の説明】
【0124】
1 対訳フレーズ学習装置
2 フレーズベース統計的機械翻訳装置
101 フレーズテーブル
102 フレーズ出現頻度情報格納部
103 記号出現頻度情報格納部
104 生成フレーズペア取得部
105 フレーズ出現頻度情報更新部
106 記号取得部
107 記号出現頻度情報更新部
108 部分フレーズペア生成部
109 新フレーズペア生成部
110 制御部
111 スコア算出部
112 フレーズテーブル更新部
201 受付部
202 フレーズ取得部
203 文構成部
204 出力部

【特許請求の範囲】
【請求項1】
第一言語の1以上の単語を有する第一言語フレーズと、第二言語の1以上の単語を有する第二言語フレーズとの対であるフレーズペアと当該フレーズペアの出現確率に関する情報であるスコアとを有する1以上のスコア付きフレーズペアを格納し得るフレーズテーブルと、
フレーズペアと、当該フレーズペアの出現頻度に関する情報であるF出現頻度情報とを有する1以上のフレーズ出現頻度情報を格納し得るフレーズ出現頻度情報格納部と、
新しいフレーズペアを生成する方法を識別する記号と、当該記号の出現頻度に関する情報であるS出現頻度情報とを有する1以上の記号出現頻度情報を格納し得る記号出現頻度情報格納部と、
前記1以上のフレーズ出現頻度情報を用いて、第一言語フレーズと第二言語フレーズとを有するフレーズペアを取得する生成フレーズペア取得部と、
フレーズペアを取得できた場合、当該フレーズペアに対応するF出現頻度情報を、予め決められた値だけ増加するフレーズ出現頻度情報更新部と、
フレーズペアを取得できなかった場合、1以上の記号出現頻度情報を用いて、一の記号を取得する記号取得部と、
前記記号取得部が取得した記号に対応するS出現頻度情報を、予め決められた値だけ増加する記号出現頻度情報更新部と、
フレーズペアを取得できなかった場合、前記取得しようとしたフレーズペアより小さい2つのフレーズペアを生成する部分フレーズペア生成部と、
前記記号取得部が取得した記号に従って、新しいフレーズペアを生成する第一の処理、または、2つのより小さいフレーズペアを生成し、前記1以上のフレーズ出現頻度情報を用いて、前記生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第二の処理、または、2つのより小さいフレーズペアを生成し、前記1以上のフレーズ出現頻度情報を用いて、生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを逆順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第三の処理のいずれかを行う新フレーズペア生成部と、
前記新フレーズペア生成部が生成したフレーズペアに対して、前記フレーズ出現頻度情報更新部、前記記号取得部、前記記号出現頻度情報更新部、前記部分フレーズペア生成部、および前記新フレーズペア生成部の処理を再帰的に行う制御部と、
前記フレーズ出現頻度情報格納部に格納されている1以上のフレーズ出現頻度情報を用いて、フレーズテーブルの各フレーズペアに対するスコアを算出するスコア算出部と、
前記スコア算出部が算出したスコアを前記各フレーズペアに対応付けて蓄積するフレーズテーブル更新部とを具備する対訳フレーズ学習装置。
【請求項2】
前記生成フレーズペア取得部は、
フレーズペアの確率分布を用いて、第一言語フレーズと第二言語フレーズとを有する生成フレーズペアを取得し、
前記記号取得部は、
フレーズペアを取得できなかった場合、記号の確率分布を用いて、一の記号を取得し、
前記部分フレーズペア生成部は、
フレーズペアを取得できなかった場合、基底測度を用いて、前記生成しようとしたフレーズペアより小さい2つのフレーズペアを生成し、
前記第一の処理は、フレーズペアの基底測度を用いて、新しいフレーズペアを生成する処理であり、
前記スコア算出部は、
前記フレーズ出現頻度情報格納部に格納されている1以上のフレーズ出現頻度情報を用いて、ノンパラメトリックベイズ法に基づいて、フレーズテーブルの各フレーズペアに対するスコアを算出する請求項1記載の対訳フレーズ学習装置。
【請求項3】
請求項1または請求項2記載の対訳フレーズ学習装置が学習したフレーズテーブルと、
1以上の単語を有する第一言語の文を受け付ける受付部と、
前記受付部が受け付けた文から1以上のフレーズを抽出し、前記フレーズテーブルのスコアを用いて、前記フレーズテーブルから第二言語の1以上のフレーズを取得するフレーズ取得部と、
前記フレーズ取得部が取得した1以上のフレーズから第二言語の文を構成する文構成部と、
前記文構成部が構成した文を出力する出力部とを具備するフレーズベース統計的機械翻訳装置。
【請求項4】
記憶媒体に、
第一言語の1以上の単語を有する第一言語フレーズと、第二言語の1以上の単語を有する第二言語フレーズとの対であるフレーズペアと当該フレーズペアの出現確率に関する情報であるスコアとを有する1以上のスコア付きフレーズペアであるフレーズテーブルと、
フレーズペアと、当該フレーズペアの出現頻度に関する情報であるF出現頻度情報とを有する1以上のフレーズ出現頻度情報と、
新しいフレーズペアを生成する方法を識別する記号と、当該記号の出現頻度に関する情報であるS出現頻度情報とを有する1以上の記号出現頻度情報とを格納しており、
生成フレーズペア取得部、フレーズ出現頻度情報更新部、記号取得部、記号出現頻度情報更新部、部分フレーズペア生成部、新フレーズペア生成部、制御部、スコア算出部、およびフレーズテーブル更新部により実現される対訳フレーズ学習方法であって、
前記生成フレーズペア取得部が、前記1以上のフレーズ出現頻度情報を用いて、第一言語フレーズと第二言語フレーズとを有するフレーズペアを取得する生成フレーズペア取得ステップと、
前記フレーズ出現頻度情報更新部が、フレーズペアを取得できた場合、当該フレーズペアに対応するF出現頻度情報を、予め決められた値だけ増加するフレーズ出現頻度情報更新ステップと、
前記記号取得部が、フレーズペアを取得できなかった場合、1以上の記号出現頻度情報を用いて、一の記号を取得する記号取得部と、
前記記号出現頻度情報更新部が、前記記号取得ステップで取得された記号に対応するS出現頻度情報を、予め決められた値だけ増加する記号出現頻度情報更新ステップと、
フレーズペアを取得できなかった場合、前記取得しようとしたフレーズペアより小さい2つのフレーズペアを生成する部分フレーズペア生成ステップと、
前記新フレーズペア生成部が、前記記号取得ステップで取得された記号に従って、新しいフレーズペアを生成する第一の処理、または、2つのより小さいフレーズペアを生成し、前記1以上のフレーズ出現頻度情報を用いて、前記生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第二の処理、または、2つのより小さいフレーズペアを生成し、前記1以上のフレーズ出現頻度情報を用いて、生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを逆順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第三の処理のいずれかを行う新フレーズペア生成ステップと、
前記制御部が、前記新フレーズペア生成ステップで生成されたフレーズペアに対して、前記フレーズ出現頻度情報更新ステップ、前記記号取得ステップ、前記記号出現頻度情報更新ステップ、前記部分フレーズペア生成ステップ、および前記新フレーズペア生成ステップの処理を再帰的に行う制御ステップと、
前記スコア算出部が、前記記憶媒体に格納されている1以上のフレーズ出現頻度情報を用いて、フレーズテーブルの各フレーズペアに対するスコアを算出するスコア算出ステップと、
前記フレーズテーブル更新部が、前記スコア算出ステップで算出されたスコアを前記各フレーズペアに対応付けて蓄積するフレーズテーブル更新ステップとを具備する対訳フレーズ学習方法。
【請求項5】
記憶媒体に、
第一言語の1以上の単語を有する第一言語フレーズと、第二言語の1以上の単語を有する第二言語フレーズとの対であるフレーズペアと当該フレーズペアの出現確率に関する情報であるスコアとを有する1以上のスコア付きフレーズペアであるフレーズテーブルと、
フレーズペアと、当該フレーズペアの出現頻度に関する情報であるF出現頻度情報とを有する1以上のフレーズ出現頻度情報と、
新しいフレーズペアを生成する方法を識別する記号と、当該記号の出現頻度に関する情報であるS出現頻度情報とを有する1以上の記号出現頻度情報とを格納しており、
生成フレーズペア取得部、フレーズ出現頻度情報更新部、記号取得部、記号出現頻度情報更新部、部分フレーズペア生成部、新フレーズペア生成部、制御部、スコア算出部、およびフレーズテーブル更新部により実現される対訳フレーズの生産方法であって、
前記生成フレーズペア取得部が、前記1以上のフレーズ出現頻度情報を用いて、第一言語フレーズと第二言語フレーズとを有する生成フレーズペアを取得する生成フレーズペア取得ステップと、
前記フレーズ出現頻度情報更新部が、フレーズペアを取得できた場合、当該フレーズペアに対応するF出現頻度情報を、予め決められた値だけ増加するフレーズ出現頻度情報更新ステップと、
前記記号取得部が、フレーズペアを取得できなかった場合、1以上の記号出現頻度情報を用いて、一の記号を取得する記号取得部と、
前記記号出現頻度情報更新部が、前記記号取得ステップで取得された記号に対応するS出現頻度情報を、予め決められた値だけ増加する記号出現頻度情報更新ステップと、
フレーズペアを取得できなかった場合、前記取得しようとしたフレーズペアより小さい2つのフレーズペアを生成する部分フレーズペア生成ステップと、
前記新フレーズペア生成部が、前記記号取得ステップで取得された記号に従って、新しいフレーズペアを生成する第一の処理、または、2つのより小さいフレーズペアを生成し、前記1以上のフレーズ出現頻度情報を用いて、前記生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第二の処理、または、2つのより小さいフレーズペアを生成し、前記1以上のフレーズ出現頻度情報を用いて、生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを逆順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第三の処理のいずれかを行う新フレーズペア生成ステップと、
前記制御部が、前記新フレーズペア生成ステップで生成されたフレーズペアに対して、前記フレーズ出現頻度情報更新ステップ、前記記号取得ステップ、前記記号出現頻度情報更新ステップ、前記部分フレーズペア生成ステップ、および前記新フレーズペア生成ステップの処理を再帰的に行う制御ステップと、
前記スコア算出部が、前記記憶媒体に格納されている1以上のフレーズ出現頻度情報を用いて、フレーズテーブルの各フレーズペアに対するスコアを算出するスコア算出ステップと、
前記フレーズテーブル更新部が、前記スコア算出ステップで算出されたスコアを前記各フレーズペアに対応付けて蓄積するフレーズテーブル更新ステップとを具備する対訳フレーズの生産方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図4】
image rotate

【図11】
image rotate


【公開番号】特開2012−185622(P2012−185622A)
【公開日】平成24年9月27日(2012.9.27)
【国際特許分類】
【出願番号】特願2011−47588(P2011−47588)
【出願日】平成23年3月4日(2011.3.4)
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】