機械翻訳装置、機械翻訳方法、およびそのプログラム
【課題】部分列に分割された入力文に対する機械翻訳において、手作業で作成した規則を用いることなく部分列翻訳を適切な順序に結合可能とする。
【解決手段】構文解析に基づき各ブロックが1以上の単語と下位のブロックの挿入位置を表す非終端記号とからなる複数のブロックに分割された原言語の学習文と、当該分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文とからなるブロック分割対訳文を用いてブロック翻訳モデルを学習し、目的言語への翻訳対象である原言語の入力文を、構文解析に基づき複数のブロックに分割し、前記ブロック翻訳モデルを用いて前記入力文の分割された各ブロックをそれぞれ目的言語による前記非終端記号を含む翻訳文に翻訳し、各ブロックの翻訳文を前記非終端記号で表されるブロック挿入位置に基づき結合することにより、入力文に対する翻訳文を生成する。
【解決手段】構文解析に基づき各ブロックが1以上の単語と下位のブロックの挿入位置を表す非終端記号とからなる複数のブロックに分割された原言語の学習文と、当該分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文とからなるブロック分割対訳文を用いてブロック翻訳モデルを学習し、目的言語への翻訳対象である原言語の入力文を、構文解析に基づき複数のブロックに分割し、前記ブロック翻訳モデルを用いて前記入力文の分割された各ブロックをそれぞれ目的言語による前記非終端記号を含む翻訳文に翻訳し、各ブロックの翻訳文を前記非終端記号で表されるブロック挿入位置に基づき結合することにより、入力文に対する翻訳文を生成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ある言語の入力文を異なる言語の文に機械翻訳する機械翻訳装置、機械翻訳方法、およびそのプログラムに関する。
【背景技術】
【0002】
ある言語(以下、「原言語」という。)の入力文から異なる言語(以下、「目的言語」という。)の翻訳文を得るための統計的な機械翻訳(例えば、特許文献1、2)において、あらゆる翻訳の可能性を探索しようとすると、入力文の長さ(単語数)の数乗の計算量が必要となることが知られており、長い原言語の文の翻訳に際しては一般に探索範囲を狭めることにより対処する。
【0003】
探索範囲を狭める方法としては、探索の過程で或る水準以上のスコアを持つ解候補のみを残し、水準に満たない解候補のそれ以上の探索を打ち切るビームサーチと呼ばれる方法や、翻訳における語順の並べ替えを一定の範囲に制約することで、単語数の階乗個の語順の並べ替えの全探索を避ける方法が一般的に用いられている。しかし、いずれの方法でも、入力文が長い場合は近似の度合いが大きくなり、最終的な翻訳品質が低下するという問題がある。特に後者の方法では、英語から日本語への翻訳のように語順が大きく入れ替わる言語間の翻訳において正しい翻訳を得ることができず、翻訳品質が著しく低下することがある。
【0004】
このような問題に対処する従来技術として、文を複数の部分列に分割し、その部分列をそれぞれ翻訳して再度結合するものがある(例えば、特許文献3)。文を分割することで翻訳すべき文の長さにより生じる上記の問題が軽減できる。特許文献3では、分割された部分列を複数の翻訳装置でそれぞれ翻訳し、最適となる部分列翻訳の組み合わせから翻訳文を生成する方式が提案されている。具体的には、予め作成した規則を用いて文の分割および組み上げを行う。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−99208号公報
【特許文献2】特開2008−15844号公報
【特許文献3】特開2001−222529号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献3の方法では、文の分割および組み上げを行うための規則を手作業で作成しておく必要があり、様々な文を分割し組み上げるためには膨大な数の規則を定義する労力を要する。本発明の目的は、部分列に分割された入力文の翻訳において、手作業で作成した規則を用いることなく部分列翻訳を適切な順序に結合可能とし、大きく語順の異なる言語間の翻訳においても翻訳文の品質を高めることができる機械翻訳装置、機械翻訳方法、およびそのプログラムを提供することにある。
【課題を解決するための手段】
【0007】
本発明の機械翻訳装置は、ブロック対訳文データベースと翻訳訓練部とブロック翻訳モデルデータベースとブロック分割部と翻訳部と結合部とを備える。
【0008】
ブロック分割対訳文データベースは、構文解析に基づき各ブロックが1以上の単語と下位のブロックの挿入位置を表す非終端記号とからなる複数のブロックに分割された原言語の学習文と、当該分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文と、からなるブロック分割対訳文が蓄積されたものである。
【0009】
翻訳訓練部は、前記ブロック対訳文データベースから読み出したブロック分割対訳文を用いて、ブロック翻訳モデルを学習し、ブロック翻訳モデルデータベースに書き込む。
【0010】
ブロック翻訳モデルデータベースは、前記ブロック翻訳モデルを蓄積する。
【0011】
ブロック分割部は、目的言語への翻訳対象である原言語の入力文を、構文解析に基づき、複数の前記ブロックに分割する。
【0012】
翻訳部は、前記ブロック翻訳モデルデータベースから読み出した前記ブロック翻訳モデルを用いて、前記ブロック分割部で分割された前記入力文の各ブロックを、それぞれ目的言語による前記非終端記号を含む翻訳文に翻訳する。
【0013】
結合部は、各ブロックの翻訳文を前記非終端記号で表されるブロック挿入位置に基づき結合することにより、前記入力文に対する翻訳文を生成する。
【発明の効果】
【0014】
本発明の機械翻訳装置、機械翻訳方法、およびそのプログラムによれば、本発明の目的は、部分列に分割された入力文の翻訳において、手作業で作成した規則を用いることなく部分列翻訳を適切な順序に結合可能とし、大きく語順の異なる言語間の翻訳においても翻訳文の品質を高めることができる。そのため、長い入力文を分割して効率的に翻訳でき、かつ原言語と目的言語との間の語順の差が大きい場合でも、適切な語順による精度の高い翻訳文を生成することができる。
【図面の簡単な説明】
【0015】
【図1】機械翻訳装置100の構成例を示すブロック図。
【図2】機械翻訳装置100の処理フロー例を示す図。
【図3】構文解析結果の例。
【図4】ブロック分割対訳文データベース110へのブロック分割対訳文の格納イメージを示す図。
【図5】構文解析結果の別の例。
【図6】機械翻訳装置200の構成例を示すブロック図。
【図7】機械翻訳装置200の構成例を示すブロック図。
【図8】対訳文データベース240への対訳文の格納イメージを示す図。
【図9】目的言語の各単語と原言語のブロックとの対応付けイメージを示す図。
【図10】単語関連度データベース220への単語関連度モデルの格納イメージを示す図。
【図11】単語連接度データベース230への単語連接度モデルの格納イメージを示す図。
【発明を実施するための形態】
【0016】
以下、本発明の実施の形態について、詳細に説明する。
【実施例1】
【0017】
図1に本発明の機械翻訳装置100の構成例を示すブロック図を、図2に機械翻訳装置100の処理フロー例をそれぞれ示す。機械翻訳装置100は、ブロック対訳文データベース110と翻訳訓練部120とブロック翻訳モデルデータベース130とブロック分割部140と翻訳部150と結合部160とを備える。
【0018】
ブロック分割対訳文データベース110は、公知の一般的な構文解析手法に基づき複数のブロックに分割された原言語の非終端記号を含む学習文と、当該分割されたブロックごとの目的言語による非終端記号を含む理想翻訳文と、からなるブロック分割対訳文が蓄積されたものである。本発明におけるブロックとは、1以上の連続する単語と下位のブロックによって構成される単位をいう。このように定義することで、原言語の文全体を最上位のブロックと考え、下位において単語とブロックの列の形式で再帰的・階層的に文を表現することができる。ブロックの単位は構文解析結果(構造木)上の任意の部分木に設定することが可能であるが、本発明では節を単位とすることが望ましいため、以下では節がブロックの単位であるとして説明する。
【0019】
図3は、英文 "John bought a toy that was popular in Japan" について構文解析を行った結果の例である。構文解析には公知の英語構文解析器Enjuを用いた。Sは関係詞節以外の節を指す記号であり、S−RELは関係詞節を指す記号である。図3の例では、まず文全体を節と考えることができ、その中に関係詞節が埋め込まれていることがわかる。節をブロックの単位として、図3の構造の上位から順にSまたはS−RELで表現される英文中の部分列を切り出すと、上記の英文は、
B0:John bought a toy [B1]
B1:that was popular in Japan
という2つのブロックに分割される。ここで、ブロックB0に含まれる [B1] は、ブロックB0内でのブロックB1の位置を表す非終端記号である。そして、これらのブロックとその目的言語による非終端記号を含む理想翻訳文とが対となったものがブロック分割対訳文である。日本語が目的言語である場合、非終端記号を含む理想翻訳文は例えば、
B0:ジョンは [B1] おもちゃを買った。
【0020】
B1:日本で人気があった
となり、これらのそれぞれが上記の各英文と対とされたものがブロック分割対訳文である。ブロック分割対訳文データベース110へのブロック分割対訳文の格納イメージを図4に示す。図4は英語と日本語との対訳であり、(a)が英語側、(b)が日本語側である。図4においては、__s0、__s1が非終端記号であり、1つのブロックに複数のブロックが挿入される場合は、非終端記号を例えばこのように区別して表現する。
【0021】
実施例1は、このようなブロック分割対訳文が事前に用意されていることを前提とする構成である。用意されていない場合の構成については実施例2で説明する。
【0022】
翻訳訓練部120は、ブロック分割対訳文データベース110から読み出した非終端記号を含むブロック分割対訳文を用いて、ブロック翻訳モデルを学習し、ブロック翻訳モデルデータベース130に書き込む(S1)。ブロック翻訳モデルの学習は、公知の技術を用いることができ、例えば、機械翻訳プログラムMosesと合わせて用いられる翻訳モデル学習プログラムや単語翻訳確率推定プログラムGIZA++や単語Nグラム確率推定プログラムSRILMなどを用いることができる。また、モデルごとの重みの最適化のために、例えば、誤り率最小化学習 (Minimum Error Rate Training: MERT) と呼ばれる公知の技術を用いてもよい。なお、学習に際しては、より精度を高めるためブロック分割対訳文でない通常の文単位の対訳文を併用してもよい。この場合の学習方法についても、既存の方法(特許文献1、2等の統計的モデルに基づく方法、参考文献1等の辞書・規則に基づく方法、参考文献2等の用例に基づく方法)が利用できる。
【0023】
〔参考文献1〕特許第3358096号公報
〔参考文献2〕特許第4239505号公報
非終端記号を含むブロック分割対訳文を用いてブロック翻訳モデルを学習することで、原言語と目的言語との対訳関係だけでなく、原言語における非終端記号の位置と目的言語における非終端記号の位置との位置関係も学習される。そのため、このブロック翻訳モデルを翻訳部150での翻訳処理に用いることで、ブロック分割部140でブロック分割された原言語の入力文に含まれる非終端記号を、ブロックの翻訳文において目的言語における適切な位置に配置することができる。
【0024】
ブロック分割部140は、目的言語への翻訳対象である原言語の入力文を、公知の一般的な構文解析手法に基づき非終端記号を含む複数のブロックに分割する(S2)。なお、ブロック分割は単語列に対して行うため、入力文全体が単語列の場合(例えば英語のように空白文字を用いて分かち書きされた文)はそのまま入力できるが、入力文が文字列である場合(例えば日本語)又は単語分割されていない部分を含む文である場合には、図1に示すようにブロック分割部140の前段に文字列を単語列に分割する原言語単語分割部145を設ける必要がある。原言語単語分割部145における文字列から単語列への分割は、公知の一般的な形態素解析手法を用いて行うことができる。日本語の形態素解析プログラムとしては例えばMecabなどが挙げられる。
【0025】
翻訳部150は、ブロック翻訳モデルデータベース130から読み出したブロック翻訳モデルを用いて、ブロック分割部140で分割された原言語の入力文の各ブロックを、それぞれ目的言語による非終端記号を含む翻訳文に翻訳する(S3)。翻訳は公知の機械翻訳技術(特許文献1〜3、参考文献1、2等)を用いて行うことができる。
【0026】
結合部160は、翻訳部150で翻訳された各ブロックの翻訳文を、前記非終端記号で表されるブロック挿入位置に基づき結合することにより、原言語による入力文に対する翻訳文を生成する(S4)。
【0027】
以上のように構成された機械翻訳装置100を用いて、以下に示す英語による入力文を日本語による翻訳文に翻訳する例を説明する。なお、ブロック翻訳モデルは予め学習されているものとする。
【0028】
入力文:we examined whether idiopathic pancreatitis is associated with CFTR mutations in persons who do not have lung disease of cystic fibrosis .
まず、ブロック分割部140において、構文解析を行い、図5に示すような構文木を得る。図5は公知の英語構文解析器Enjuによる構文解析例である。ブロック分割部140はこの解析結果に基づき、節をブロックの単位として入力文を、非終端記号を含む形でブロック分割する。図5の構造木において節はSおよびS−RELであるため、SまたはS−RELの節点以下の部分をブロックとして分割すると、以下のようになる。
【0029】
1. We examined whether __s0 .
2. idiopathic pacreatitis is associated with CFTR mutation in person __s0
3. who do not have lung disease of cystic fibrosis
この分割結果において、__s0はリストの次のブロックが挿入される位置を表す非終端記号である。
【0030】
続いて翻訳部150において、ブロック分割部140の出力として得られた3つのブロックを、ブロック翻訳モデルデータベース130に蓄積されたブロック翻訳モデルを用いて、それぞれ非終端記号を含む日本語に翻訳する。公知の機械翻訳プログラムMosesを用いた場合の翻訳結果は以下のようになる。
【0031】
1. __s0 か どうか を 検討 し た。
2. __s0 人 で は 、特発性膵炎 が CFTR 変異 と 関係 が ある
3. 嚢胞性線維症 の 肺疾患 を 発症 し て い ない
【0032】
そして、結合部160において、翻訳部150の出力として得られた3つのブロック翻訳結果を非終端記号をもとに結合することにより、以下のような翻訳文が得られる。
【0033】
翻訳文:嚢胞性線維症 の 肺疾患 を 発症 し て い ない 人 で は 、特発性 膵炎 が CFTR 変異 と 関係 が ある か どうか を 検討 し た。
【0034】
この翻訳文からわかるように、入力文の末尾の関係代名詞節の係り受け関係が適切に維持され、異和感のない日本語文となっている。これに対し、上記の入力文をブロック分割を行わない従来の機械翻訳装置により翻訳すると、例えば以下のように入力文の末尾の関係代名詞節の係り受け関係が失われる場合がある。
【0035】
従来技術による翻訳文:われわれ は 、特発性 膵炎 CFTR 変異 と 関連 し て いる か 否か を 検討 した 嚢胞性線維症 の 肺疾患 を 有し ない 人々 で あった 。
【0036】
以上のように、本発明の機械翻訳装置100によれば、非終端記号を含むブロック対訳文によりブロック翻訳モデルを学習し、これを用いて非終端記号を含む形でブロック分割された入力文の各ブロックを翻訳する。そのため、各ブロックの翻訳文において、非終端記号が目的言語における適切な位置に配されるため、非終端記号に基づいて各ブロックを結合するだけで、予め規則を作成することなく適切な語順の翻訳文を得ることができる。また、長い修飾節についても適切な順序に並べ替えることができ、翻訳の品質を向上することができる。
【実施例2】
【0037】
実施例1は、ブロック分割対訳文が事前に用意されていることを前提とする構成であるが、用意されていない場合には作成する必要がある。実施例2の機械翻訳装置200は、実施例1の構成にブロック分割対訳文を作成するための構成を加えたものである。
【0038】
図6に機械翻訳装置200の構成例を示すブロック図を、図7に機械翻訳装置200の処理フロー例をそれぞれ示す。機械翻訳装置200は、機械翻訳装置100の各構成要素に加え、ブロック分割対訳部作成部210と単語関連度モデルデータベース220と単語連接度モデルデータベース230とを備える。
【0039】
ブロック分割対訳文は、文単位で原言語と目的言語とで訳の対応がとられた学習用の対訳文から作成する。この対訳文(原言語の学習文とそれに対応する目的言語による理想翻訳文との組)は、通常、対訳文データベース240に予め蓄積しておく。対訳文データベース240への対訳文の格納イメージを図8に示す。図8は英語と日本語との対訳であり、(a)が英語側、(b)が日本語側である。
【0040】
ブロック分割対訳文作成部210においては、ブロック単位に分割された原言語の学習文と、当該学習文の目的言語による理想翻訳文の単語列とを入力として処理を行う。そのため、原言語の学習文が文字列の場合又は単語分割されていない部分を含む文である場合には、原言語単語分割部145にて単語列に分割した上で、得られた単語列をブロック分割部140にてブロック単位に分割して(S11)、ブロック分割対訳文作成部210に入力する。また、目的言語による理想翻訳文が文字列の場合又は単語分割されていない部分を含む文である場合には、目的言語単語分割部245にて単語列に分割して、ブロック分割対訳文作成部210に入力する。目的言語単語分割部245での文字列の単語列への分割は、原言語単語分割部145と同様、公知の一般的な形態素解析手法を用いて行うことができる。
【0041】
ブロック分割対訳文作成部210は、入力された目的言語の各単語を原言語の各ブロックに対応付ける処理を行うことにより、目的言語の単語列をブロック化するとともに、原言語のブロックにおける非終端記号を、対応する目的言語のブロックにおいて適切な位置に配置する(S12)。目的言語の各単語を原言語の各ブロックに対応付ける処理は、原言語の単語列がF=f1,f2,・・・,fM、ブロック数がK、Block(k)(1≦k≦K)がk番目のブロックに含まれる原言語の単語を表し、目的言語の単語列がE=e1,e2,・・・,eNなる翻訳文において、各e1,e2,・・・,eNがどのブロックに対応するかを求めることと等価である。
【0042】
本発明では、この問題を図9で表されるようなグラフの分割問題と定義し、参考文献3と同様な方法により解決する。
【0043】
〔参考文献3〕X. Zhu, Z. Ghahramani, and J. Lafferty,"Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions", Proceedings of the 20th International Conference on Machine Learning, 2003, p.912-919
具体的には、図9において、原言語のブロックBlock(k)(1≦k≦K)と目的言語の各単語en(1≦n≦N)がそれぞれ節点を構成し、ブロックの節点と目的言語の単語の節点とを結ぶ枝(細実線で表記)と目的言語の隣り合う単語の節点同士(太実線で表記)が存在している。図9のグラフを、それぞれが1つのブロックの節点を持つK個のグラフに分割すれば、各単語enがどのブロックと対応するかが求められる。これは次式のLの最適化問題として解決される。
【0044】
【数1】
【0045】
ここで、wijは節点iと節点jとを結ぶ枝の重み、vi、vjはそれぞれ節点iと節点jのブロックIDであるk(1≦k≦K)である。節点iがブロック節点である場合、viはそのブロックのIDであり、未知数は目的言語の単語のN個の節点が属するブロックのIDである(つまり、K+N次元のベクトルvの要素のうち、K個は既知でN個が未知である)。wijは、ブロックの節点と単語の節点とを結ぶ枝については、ブロック内の原言語の単語と単語節点である目的言語の単語との関連度、単語節点同士を結ぶ枝については、目的言語の単語の連接度となるように設計する。機械翻訳装置200においては、単語の関連度が単語関連度モデルとして単語関連度モデルデータベース220に、単語の連接度が単語連接度モデルとして単語連接度モデルデータベース230にそれぞれ蓄積されているものとする。単語関連度モデルと単語連接度モデルは対訳文データベース240やその他の対訳文データベースから別途学習されたものを予め蓄積しておく。単語関連度モデルとしては、統計的な機械翻訳システムで利用される単語翻訳確率モデルなどの公知技術によるものが利用できる。単語翻訳確率モデルは、例えば対訳文データベースと公知の単語翻訳確率推定プログラムGIZA++によって得られた図10に示すような単語翻訳確率のリストとして構成することができる。図10において各行は、それぞれ「英単語」「日本語単語」「日本語単語から英単語への条件付き翻訳確率」である。また、単語連接度モデルとしては、統計的な機械翻訳システムで利用される単語バイグラムモデルなどの公知技術によるものが利用できる。単語バイグラムモデルは、例えば対訳文データベースの日本語側と公知の単語Nグラム確率推定プログラムSRILMによって得られた図11に示すような単語バイグラム確率のリストとして構成することができる。図11において各行は、それぞれ「1番目の単語の次に2番目の単語が現れる条件付き確率の対数」「1番目の単語」「2番目の単語」「バックオフ確率」である。式(1)の最適化により、目的言語の単語はより強く関連するブロックに属するようになり、また、連接度の大きい目的言語の単語群は同じブロックに属するようになるため、目的言語側のブロック分割および原言語側への対応付けという問題に適したグラフ分割結果の獲得が期待できる。
【0046】
以上の定義に基づき、ブロック分割対訳文作成部230は式(1)を最適化するベクトルvを求める。節点番号が、ブロック節点、単語節点の順に割り当てられているとすると、vは式(2)のようにブロック節点に関するK次元ベクトルvbと単語節点に関するN次元ベクトルvwとを連結したベクトルとして表現することができる。
【0047】
【数2】
【0048】
また、枝の重みwijによって構成される対称な重み行列Wも同様にブロック節点と単語節点に関わる部分を分けて考えることができる(式(3))。
【0049】
【数3】
【0050】
式(3)において、Wbbはブロック節点同士を結ぶ枝の重み(本発明においてはブロック節点同士の枝が存在しないため値はすべて0)、WbwとWwbはブロック節点と単語節点とを結ぶ枝の重み、Wwwは単語節点同士を結ぶ枝の重みを表す行列である。
【0051】
式(2),(3)のもとで、式(1)を最適化するvの未知部分vwは、参考文献3に従い次の等式で表される行列の演算により求めることができる。
【0052】
【数4】
【0053】
式(4)において、Dwwは(K+N)×(K+N)次元の対角行列Dの単語節点同士を結ぶ枝に関する部分(式(3)のWとWwwの関係と同様)であり、各要素diが、
【0054】
【数5】
【0055】
なる行列である。
【0056】
以上の処理内容に基づき、ブロック分割対訳文作成部230において英語の学習文の各ブロックに対訳の日本語の単語の割り付けを行うことによりブロック分割対訳文を生成する例を示す。
【0057】
対訳文データベース240から読み出した学習用の対訳文が以下のような単語列であるとする。
【0058】
英文:Although epidural corticosteroid injection are commonly used for sciatica , their efficacy has not been established .
日本語文:コルチコステロイド の 硬膜外 注射 は 、 坐骨神経痛 に対して 一般 的 に 用い られ て いる が 、 その 有効 性 は 確立 さ れ て い ない 。
【0059】
まず、原言語である英文の単語列について、ブロック分割部140において次のように非終端記号を含む形でブロック分割される。
【0060】
1. Although __s0 , __s1 .
2. epidural corticosteroid injection are commonly used for sciatica
3. their efficacy has not been established
そして、ブロック分割対訳文作成部230おいて、上記のようにブロック分割された英文に、対訳文データベース240から読み出した対訳の日本語文の各単語を割り付けることにより、各ブロックの英文に対応するブロック分割された日本語文が以下のように得られる。
【0061】
1. __s0 られ て いる が 、__s1 。
2. コルチコステロイド の 硬膜外 注射 は 、 坐骨神経痛 に対して 一般 的 に 用い
3. その 有効 性 は 確立 さ れ て い ない
【0062】
以上のように、機械翻訳装置200によれば、ブロック分割対訳文が事前に用意されていなくても、既存の技術における用例や統計モデルの学習に利用される文単位で訳の対応がとられた対訳文からブロック分割対訳文を生成することができ、これを用いて実施例1で示した機械翻訳装置100による処理内容を実行できる。
【0063】
なお、本発明の機械翻訳装置100、200の各構成要素の機能分担は、上記の実施例に示す機能分担に限定されるものではなく、本発明を逸脱しない範囲で適宜変更が可能である。また、本発明の機械翻訳方法における各ステップの処理は上記で説明した時系列において実行されるのみならず、処理を実行する各構成要素の処理能力あるいは必要に応じて並列的にあるいは個別に実行することとしてもよい。
【技術分野】
【0001】
本発明は、ある言語の入力文を異なる言語の文に機械翻訳する機械翻訳装置、機械翻訳方法、およびそのプログラムに関する。
【背景技術】
【0002】
ある言語(以下、「原言語」という。)の入力文から異なる言語(以下、「目的言語」という。)の翻訳文を得るための統計的な機械翻訳(例えば、特許文献1、2)において、あらゆる翻訳の可能性を探索しようとすると、入力文の長さ(単語数)の数乗の計算量が必要となることが知られており、長い原言語の文の翻訳に際しては一般に探索範囲を狭めることにより対処する。
【0003】
探索範囲を狭める方法としては、探索の過程で或る水準以上のスコアを持つ解候補のみを残し、水準に満たない解候補のそれ以上の探索を打ち切るビームサーチと呼ばれる方法や、翻訳における語順の並べ替えを一定の範囲に制約することで、単語数の階乗個の語順の並べ替えの全探索を避ける方法が一般的に用いられている。しかし、いずれの方法でも、入力文が長い場合は近似の度合いが大きくなり、最終的な翻訳品質が低下するという問題がある。特に後者の方法では、英語から日本語への翻訳のように語順が大きく入れ替わる言語間の翻訳において正しい翻訳を得ることができず、翻訳品質が著しく低下することがある。
【0004】
このような問題に対処する従来技術として、文を複数の部分列に分割し、その部分列をそれぞれ翻訳して再度結合するものがある(例えば、特許文献3)。文を分割することで翻訳すべき文の長さにより生じる上記の問題が軽減できる。特許文献3では、分割された部分列を複数の翻訳装置でそれぞれ翻訳し、最適となる部分列翻訳の組み合わせから翻訳文を生成する方式が提案されている。具体的には、予め作成した規則を用いて文の分割および組み上げを行う。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−99208号公報
【特許文献2】特開2008−15844号公報
【特許文献3】特開2001−222529号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献3の方法では、文の分割および組み上げを行うための規則を手作業で作成しておく必要があり、様々な文を分割し組み上げるためには膨大な数の規則を定義する労力を要する。本発明の目的は、部分列に分割された入力文の翻訳において、手作業で作成した規則を用いることなく部分列翻訳を適切な順序に結合可能とし、大きく語順の異なる言語間の翻訳においても翻訳文の品質を高めることができる機械翻訳装置、機械翻訳方法、およびそのプログラムを提供することにある。
【課題を解決するための手段】
【0007】
本発明の機械翻訳装置は、ブロック対訳文データベースと翻訳訓練部とブロック翻訳モデルデータベースとブロック分割部と翻訳部と結合部とを備える。
【0008】
ブロック分割対訳文データベースは、構文解析に基づき各ブロックが1以上の単語と下位のブロックの挿入位置を表す非終端記号とからなる複数のブロックに分割された原言語の学習文と、当該分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文と、からなるブロック分割対訳文が蓄積されたものである。
【0009】
翻訳訓練部は、前記ブロック対訳文データベースから読み出したブロック分割対訳文を用いて、ブロック翻訳モデルを学習し、ブロック翻訳モデルデータベースに書き込む。
【0010】
ブロック翻訳モデルデータベースは、前記ブロック翻訳モデルを蓄積する。
【0011】
ブロック分割部は、目的言語への翻訳対象である原言語の入力文を、構文解析に基づき、複数の前記ブロックに分割する。
【0012】
翻訳部は、前記ブロック翻訳モデルデータベースから読み出した前記ブロック翻訳モデルを用いて、前記ブロック分割部で分割された前記入力文の各ブロックを、それぞれ目的言語による前記非終端記号を含む翻訳文に翻訳する。
【0013】
結合部は、各ブロックの翻訳文を前記非終端記号で表されるブロック挿入位置に基づき結合することにより、前記入力文に対する翻訳文を生成する。
【発明の効果】
【0014】
本発明の機械翻訳装置、機械翻訳方法、およびそのプログラムによれば、本発明の目的は、部分列に分割された入力文の翻訳において、手作業で作成した規則を用いることなく部分列翻訳を適切な順序に結合可能とし、大きく語順の異なる言語間の翻訳においても翻訳文の品質を高めることができる。そのため、長い入力文を分割して効率的に翻訳でき、かつ原言語と目的言語との間の語順の差が大きい場合でも、適切な語順による精度の高い翻訳文を生成することができる。
【図面の簡単な説明】
【0015】
【図1】機械翻訳装置100の構成例を示すブロック図。
【図2】機械翻訳装置100の処理フロー例を示す図。
【図3】構文解析結果の例。
【図4】ブロック分割対訳文データベース110へのブロック分割対訳文の格納イメージを示す図。
【図5】構文解析結果の別の例。
【図6】機械翻訳装置200の構成例を示すブロック図。
【図7】機械翻訳装置200の構成例を示すブロック図。
【図8】対訳文データベース240への対訳文の格納イメージを示す図。
【図9】目的言語の各単語と原言語のブロックとの対応付けイメージを示す図。
【図10】単語関連度データベース220への単語関連度モデルの格納イメージを示す図。
【図11】単語連接度データベース230への単語連接度モデルの格納イメージを示す図。
【発明を実施するための形態】
【0016】
以下、本発明の実施の形態について、詳細に説明する。
【実施例1】
【0017】
図1に本発明の機械翻訳装置100の構成例を示すブロック図を、図2に機械翻訳装置100の処理フロー例をそれぞれ示す。機械翻訳装置100は、ブロック対訳文データベース110と翻訳訓練部120とブロック翻訳モデルデータベース130とブロック分割部140と翻訳部150と結合部160とを備える。
【0018】
ブロック分割対訳文データベース110は、公知の一般的な構文解析手法に基づき複数のブロックに分割された原言語の非終端記号を含む学習文と、当該分割されたブロックごとの目的言語による非終端記号を含む理想翻訳文と、からなるブロック分割対訳文が蓄積されたものである。本発明におけるブロックとは、1以上の連続する単語と下位のブロックによって構成される単位をいう。このように定義することで、原言語の文全体を最上位のブロックと考え、下位において単語とブロックの列の形式で再帰的・階層的に文を表現することができる。ブロックの単位は構文解析結果(構造木)上の任意の部分木に設定することが可能であるが、本発明では節を単位とすることが望ましいため、以下では節がブロックの単位であるとして説明する。
【0019】
図3は、英文 "John bought a toy that was popular in Japan" について構文解析を行った結果の例である。構文解析には公知の英語構文解析器Enjuを用いた。Sは関係詞節以外の節を指す記号であり、S−RELは関係詞節を指す記号である。図3の例では、まず文全体を節と考えることができ、その中に関係詞節が埋め込まれていることがわかる。節をブロックの単位として、図3の構造の上位から順にSまたはS−RELで表現される英文中の部分列を切り出すと、上記の英文は、
B0:John bought a toy [B1]
B1:that was popular in Japan
という2つのブロックに分割される。ここで、ブロックB0に含まれる [B1] は、ブロックB0内でのブロックB1の位置を表す非終端記号である。そして、これらのブロックとその目的言語による非終端記号を含む理想翻訳文とが対となったものがブロック分割対訳文である。日本語が目的言語である場合、非終端記号を含む理想翻訳文は例えば、
B0:ジョンは [B1] おもちゃを買った。
【0020】
B1:日本で人気があった
となり、これらのそれぞれが上記の各英文と対とされたものがブロック分割対訳文である。ブロック分割対訳文データベース110へのブロック分割対訳文の格納イメージを図4に示す。図4は英語と日本語との対訳であり、(a)が英語側、(b)が日本語側である。図4においては、__s0、__s1が非終端記号であり、1つのブロックに複数のブロックが挿入される場合は、非終端記号を例えばこのように区別して表現する。
【0021】
実施例1は、このようなブロック分割対訳文が事前に用意されていることを前提とする構成である。用意されていない場合の構成については実施例2で説明する。
【0022】
翻訳訓練部120は、ブロック分割対訳文データベース110から読み出した非終端記号を含むブロック分割対訳文を用いて、ブロック翻訳モデルを学習し、ブロック翻訳モデルデータベース130に書き込む(S1)。ブロック翻訳モデルの学習は、公知の技術を用いることができ、例えば、機械翻訳プログラムMosesと合わせて用いられる翻訳モデル学習プログラムや単語翻訳確率推定プログラムGIZA++や単語Nグラム確率推定プログラムSRILMなどを用いることができる。また、モデルごとの重みの最適化のために、例えば、誤り率最小化学習 (Minimum Error Rate Training: MERT) と呼ばれる公知の技術を用いてもよい。なお、学習に際しては、より精度を高めるためブロック分割対訳文でない通常の文単位の対訳文を併用してもよい。この場合の学習方法についても、既存の方法(特許文献1、2等の統計的モデルに基づく方法、参考文献1等の辞書・規則に基づく方法、参考文献2等の用例に基づく方法)が利用できる。
【0023】
〔参考文献1〕特許第3358096号公報
〔参考文献2〕特許第4239505号公報
非終端記号を含むブロック分割対訳文を用いてブロック翻訳モデルを学習することで、原言語と目的言語との対訳関係だけでなく、原言語における非終端記号の位置と目的言語における非終端記号の位置との位置関係も学習される。そのため、このブロック翻訳モデルを翻訳部150での翻訳処理に用いることで、ブロック分割部140でブロック分割された原言語の入力文に含まれる非終端記号を、ブロックの翻訳文において目的言語における適切な位置に配置することができる。
【0024】
ブロック分割部140は、目的言語への翻訳対象である原言語の入力文を、公知の一般的な構文解析手法に基づき非終端記号を含む複数のブロックに分割する(S2)。なお、ブロック分割は単語列に対して行うため、入力文全体が単語列の場合(例えば英語のように空白文字を用いて分かち書きされた文)はそのまま入力できるが、入力文が文字列である場合(例えば日本語)又は単語分割されていない部分を含む文である場合には、図1に示すようにブロック分割部140の前段に文字列を単語列に分割する原言語単語分割部145を設ける必要がある。原言語単語分割部145における文字列から単語列への分割は、公知の一般的な形態素解析手法を用いて行うことができる。日本語の形態素解析プログラムとしては例えばMecabなどが挙げられる。
【0025】
翻訳部150は、ブロック翻訳モデルデータベース130から読み出したブロック翻訳モデルを用いて、ブロック分割部140で分割された原言語の入力文の各ブロックを、それぞれ目的言語による非終端記号を含む翻訳文に翻訳する(S3)。翻訳は公知の機械翻訳技術(特許文献1〜3、参考文献1、2等)を用いて行うことができる。
【0026】
結合部160は、翻訳部150で翻訳された各ブロックの翻訳文を、前記非終端記号で表されるブロック挿入位置に基づき結合することにより、原言語による入力文に対する翻訳文を生成する(S4)。
【0027】
以上のように構成された機械翻訳装置100を用いて、以下に示す英語による入力文を日本語による翻訳文に翻訳する例を説明する。なお、ブロック翻訳モデルは予め学習されているものとする。
【0028】
入力文:we examined whether idiopathic pancreatitis is associated with CFTR mutations in persons who do not have lung disease of cystic fibrosis .
まず、ブロック分割部140において、構文解析を行い、図5に示すような構文木を得る。図5は公知の英語構文解析器Enjuによる構文解析例である。ブロック分割部140はこの解析結果に基づき、節をブロックの単位として入力文を、非終端記号を含む形でブロック分割する。図5の構造木において節はSおよびS−RELであるため、SまたはS−RELの節点以下の部分をブロックとして分割すると、以下のようになる。
【0029】
1. We examined whether __s0 .
2. idiopathic pacreatitis is associated with CFTR mutation in person __s0
3. who do not have lung disease of cystic fibrosis
この分割結果において、__s0はリストの次のブロックが挿入される位置を表す非終端記号である。
【0030】
続いて翻訳部150において、ブロック分割部140の出力として得られた3つのブロックを、ブロック翻訳モデルデータベース130に蓄積されたブロック翻訳モデルを用いて、それぞれ非終端記号を含む日本語に翻訳する。公知の機械翻訳プログラムMosesを用いた場合の翻訳結果は以下のようになる。
【0031】
1. __s0 か どうか を 検討 し た。
2. __s0 人 で は 、特発性膵炎 が CFTR 変異 と 関係 が ある
3. 嚢胞性線維症 の 肺疾患 を 発症 し て い ない
【0032】
そして、結合部160において、翻訳部150の出力として得られた3つのブロック翻訳結果を非終端記号をもとに結合することにより、以下のような翻訳文が得られる。
【0033】
翻訳文:嚢胞性線維症 の 肺疾患 を 発症 し て い ない 人 で は 、特発性 膵炎 が CFTR 変異 と 関係 が ある か どうか を 検討 し た。
【0034】
この翻訳文からわかるように、入力文の末尾の関係代名詞節の係り受け関係が適切に維持され、異和感のない日本語文となっている。これに対し、上記の入力文をブロック分割を行わない従来の機械翻訳装置により翻訳すると、例えば以下のように入力文の末尾の関係代名詞節の係り受け関係が失われる場合がある。
【0035】
従来技術による翻訳文:われわれ は 、特発性 膵炎 CFTR 変異 と 関連 し て いる か 否か を 検討 した 嚢胞性線維症 の 肺疾患 を 有し ない 人々 で あった 。
【0036】
以上のように、本発明の機械翻訳装置100によれば、非終端記号を含むブロック対訳文によりブロック翻訳モデルを学習し、これを用いて非終端記号を含む形でブロック分割された入力文の各ブロックを翻訳する。そのため、各ブロックの翻訳文において、非終端記号が目的言語における適切な位置に配されるため、非終端記号に基づいて各ブロックを結合するだけで、予め規則を作成することなく適切な語順の翻訳文を得ることができる。また、長い修飾節についても適切な順序に並べ替えることができ、翻訳の品質を向上することができる。
【実施例2】
【0037】
実施例1は、ブロック分割対訳文が事前に用意されていることを前提とする構成であるが、用意されていない場合には作成する必要がある。実施例2の機械翻訳装置200は、実施例1の構成にブロック分割対訳文を作成するための構成を加えたものである。
【0038】
図6に機械翻訳装置200の構成例を示すブロック図を、図7に機械翻訳装置200の処理フロー例をそれぞれ示す。機械翻訳装置200は、機械翻訳装置100の各構成要素に加え、ブロック分割対訳部作成部210と単語関連度モデルデータベース220と単語連接度モデルデータベース230とを備える。
【0039】
ブロック分割対訳文は、文単位で原言語と目的言語とで訳の対応がとられた学習用の対訳文から作成する。この対訳文(原言語の学習文とそれに対応する目的言語による理想翻訳文との組)は、通常、対訳文データベース240に予め蓄積しておく。対訳文データベース240への対訳文の格納イメージを図8に示す。図8は英語と日本語との対訳であり、(a)が英語側、(b)が日本語側である。
【0040】
ブロック分割対訳文作成部210においては、ブロック単位に分割された原言語の学習文と、当該学習文の目的言語による理想翻訳文の単語列とを入力として処理を行う。そのため、原言語の学習文が文字列の場合又は単語分割されていない部分を含む文である場合には、原言語単語分割部145にて単語列に分割した上で、得られた単語列をブロック分割部140にてブロック単位に分割して(S11)、ブロック分割対訳文作成部210に入力する。また、目的言語による理想翻訳文が文字列の場合又は単語分割されていない部分を含む文である場合には、目的言語単語分割部245にて単語列に分割して、ブロック分割対訳文作成部210に入力する。目的言語単語分割部245での文字列の単語列への分割は、原言語単語分割部145と同様、公知の一般的な形態素解析手法を用いて行うことができる。
【0041】
ブロック分割対訳文作成部210は、入力された目的言語の各単語を原言語の各ブロックに対応付ける処理を行うことにより、目的言語の単語列をブロック化するとともに、原言語のブロックにおける非終端記号を、対応する目的言語のブロックにおいて適切な位置に配置する(S12)。目的言語の各単語を原言語の各ブロックに対応付ける処理は、原言語の単語列がF=f1,f2,・・・,fM、ブロック数がK、Block(k)(1≦k≦K)がk番目のブロックに含まれる原言語の単語を表し、目的言語の単語列がE=e1,e2,・・・,eNなる翻訳文において、各e1,e2,・・・,eNがどのブロックに対応するかを求めることと等価である。
【0042】
本発明では、この問題を図9で表されるようなグラフの分割問題と定義し、参考文献3と同様な方法により解決する。
【0043】
〔参考文献3〕X. Zhu, Z. Ghahramani, and J. Lafferty,"Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions", Proceedings of the 20th International Conference on Machine Learning, 2003, p.912-919
具体的には、図9において、原言語のブロックBlock(k)(1≦k≦K)と目的言語の各単語en(1≦n≦N)がそれぞれ節点を構成し、ブロックの節点と目的言語の単語の節点とを結ぶ枝(細実線で表記)と目的言語の隣り合う単語の節点同士(太実線で表記)が存在している。図9のグラフを、それぞれが1つのブロックの節点を持つK個のグラフに分割すれば、各単語enがどのブロックと対応するかが求められる。これは次式のLの最適化問題として解決される。
【0044】
【数1】
【0045】
ここで、wijは節点iと節点jとを結ぶ枝の重み、vi、vjはそれぞれ節点iと節点jのブロックIDであるk(1≦k≦K)である。節点iがブロック節点である場合、viはそのブロックのIDであり、未知数は目的言語の単語のN個の節点が属するブロックのIDである(つまり、K+N次元のベクトルvの要素のうち、K個は既知でN個が未知である)。wijは、ブロックの節点と単語の節点とを結ぶ枝については、ブロック内の原言語の単語と単語節点である目的言語の単語との関連度、単語節点同士を結ぶ枝については、目的言語の単語の連接度となるように設計する。機械翻訳装置200においては、単語の関連度が単語関連度モデルとして単語関連度モデルデータベース220に、単語の連接度が単語連接度モデルとして単語連接度モデルデータベース230にそれぞれ蓄積されているものとする。単語関連度モデルと単語連接度モデルは対訳文データベース240やその他の対訳文データベースから別途学習されたものを予め蓄積しておく。単語関連度モデルとしては、統計的な機械翻訳システムで利用される単語翻訳確率モデルなどの公知技術によるものが利用できる。単語翻訳確率モデルは、例えば対訳文データベースと公知の単語翻訳確率推定プログラムGIZA++によって得られた図10に示すような単語翻訳確率のリストとして構成することができる。図10において各行は、それぞれ「英単語」「日本語単語」「日本語単語から英単語への条件付き翻訳確率」である。また、単語連接度モデルとしては、統計的な機械翻訳システムで利用される単語バイグラムモデルなどの公知技術によるものが利用できる。単語バイグラムモデルは、例えば対訳文データベースの日本語側と公知の単語Nグラム確率推定プログラムSRILMによって得られた図11に示すような単語バイグラム確率のリストとして構成することができる。図11において各行は、それぞれ「1番目の単語の次に2番目の単語が現れる条件付き確率の対数」「1番目の単語」「2番目の単語」「バックオフ確率」である。式(1)の最適化により、目的言語の単語はより強く関連するブロックに属するようになり、また、連接度の大きい目的言語の単語群は同じブロックに属するようになるため、目的言語側のブロック分割および原言語側への対応付けという問題に適したグラフ分割結果の獲得が期待できる。
【0046】
以上の定義に基づき、ブロック分割対訳文作成部230は式(1)を最適化するベクトルvを求める。節点番号が、ブロック節点、単語節点の順に割り当てられているとすると、vは式(2)のようにブロック節点に関するK次元ベクトルvbと単語節点に関するN次元ベクトルvwとを連結したベクトルとして表現することができる。
【0047】
【数2】
【0048】
また、枝の重みwijによって構成される対称な重み行列Wも同様にブロック節点と単語節点に関わる部分を分けて考えることができる(式(3))。
【0049】
【数3】
【0050】
式(3)において、Wbbはブロック節点同士を結ぶ枝の重み(本発明においてはブロック節点同士の枝が存在しないため値はすべて0)、WbwとWwbはブロック節点と単語節点とを結ぶ枝の重み、Wwwは単語節点同士を結ぶ枝の重みを表す行列である。
【0051】
式(2),(3)のもとで、式(1)を最適化するvの未知部分vwは、参考文献3に従い次の等式で表される行列の演算により求めることができる。
【0052】
【数4】
【0053】
式(4)において、Dwwは(K+N)×(K+N)次元の対角行列Dの単語節点同士を結ぶ枝に関する部分(式(3)のWとWwwの関係と同様)であり、各要素diが、
【0054】
【数5】
【0055】
なる行列である。
【0056】
以上の処理内容に基づき、ブロック分割対訳文作成部230において英語の学習文の各ブロックに対訳の日本語の単語の割り付けを行うことによりブロック分割対訳文を生成する例を示す。
【0057】
対訳文データベース240から読み出した学習用の対訳文が以下のような単語列であるとする。
【0058】
英文:Although epidural corticosteroid injection are commonly used for sciatica , their efficacy has not been established .
日本語文:コルチコステロイド の 硬膜外 注射 は 、 坐骨神経痛 に対して 一般 的 に 用い られ て いる が 、 その 有効 性 は 確立 さ れ て い ない 。
【0059】
まず、原言語である英文の単語列について、ブロック分割部140において次のように非終端記号を含む形でブロック分割される。
【0060】
1. Although __s0 , __s1 .
2. epidural corticosteroid injection are commonly used for sciatica
3. their efficacy has not been established
そして、ブロック分割対訳文作成部230おいて、上記のようにブロック分割された英文に、対訳文データベース240から読み出した対訳の日本語文の各単語を割り付けることにより、各ブロックの英文に対応するブロック分割された日本語文が以下のように得られる。
【0061】
1. __s0 られ て いる が 、__s1 。
2. コルチコステロイド の 硬膜外 注射 は 、 坐骨神経痛 に対して 一般 的 に 用い
3. その 有効 性 は 確立 さ れ て い ない
【0062】
以上のように、機械翻訳装置200によれば、ブロック分割対訳文が事前に用意されていなくても、既存の技術における用例や統計モデルの学習に利用される文単位で訳の対応がとられた対訳文からブロック分割対訳文を生成することができ、これを用いて実施例1で示した機械翻訳装置100による処理内容を実行できる。
【0063】
なお、本発明の機械翻訳装置100、200の各構成要素の機能分担は、上記の実施例に示す機能分担に限定されるものではなく、本発明を逸脱しない範囲で適宜変更が可能である。また、本発明の機械翻訳方法における各ステップの処理は上記で説明した時系列において実行されるのみならず、処理を実行する各構成要素の処理能力あるいは必要に応じて並列的にあるいは個別に実行することとしてもよい。
【特許請求の範囲】
【請求項1】
構文解析に基づき各ブロックが1以上の単語と下位のブロックの挿入位置を表す非終端記号とからなる複数のブロックに分割された原言語の学習文と、当該分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文と、からなるブロック分割対訳文が蓄積されたブロック分割対訳文データベースと、
前記ブロック対訳文データベースから読み出したブロック分割対訳文を用いてブロック翻訳モデルを学習し、ブロック翻訳モデルデータベースに書き込む翻訳訓練部と、
前記ブロック翻訳モデルが蓄積されるブロック翻訳モデルデータベースと、
目的言語への翻訳対象である原言語の入力文を、構文解析に基づき、複数の前記ブロックに分割するブロック分割部と、
前記ブロック翻訳モデルデータベースから読み出したブロック翻訳モデルを用いて、前記ブロック分割部で分割された前記入力文の各ブロックを、それぞれ目的言語による前記非終端記号を含む翻訳文に翻訳する翻訳部と、
各ブロックの前記翻訳文を前記非終端記号で表されるブロック挿入位置に基づき結合することにより、前記入力文に対する翻訳文を生成する結合部と、
を備える機械翻訳装置。
【請求項2】
請求項1に記載の機械翻訳装置であって、
前記ブロック分割部は更に、原言語の学習文を構文解析に基づき複数の前記ブロックに分割し、
原言語の学習文に含まれる単語と原言語の学習文の目的言語による理想翻訳文に含まれる単語との関連度を示す単語関連度モデルが蓄積された単語関連度モデルデータベースと、
原言語の学習文の目的言語による理想翻訳文に含まれる単語間の連接度を示す単語連接度モデルが蓄積された単語連接度モデルデータベースと、
前記ブロック単位に分割された原言語の学習文と、当該学習文の目的言語による理想翻訳文とが入力され、前記単語関連度モデルデータベースから読み出した単語関連度モデルと前記単語連接度モデルデータベースから読み出した単語連接度モデルとを用いて、目的言語による理想翻訳文に含まれる各単語がそれぞれ原言語の学習文のいずれのブロックに対応するかを特定することにより、原言語の学習文の分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文を生成し、得られたブロック分割対訳文を前記ブロック分割対訳文データベースに書き込むブロック分割対訳文作成部と、
を更に備える機械翻訳装置。
【請求項3】
請求項1又は2に記載の機械翻訳装置であって、前記ブロックは節単位であることを特徴とする機械翻訳装置。
【請求項4】
翻訳訓練部が、構文解析に基づき各ブロックが1以上の単語と下位のブロックの挿入位置を表す非終端記号とからなる複数のブロックに分割された原言語の学習文と、当該分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文と、からなるブロック分割対訳文をブロック分割対訳文データベースから読み出し、これを用いてブロック翻訳モデルを学習し、ブロック翻訳モデルデータベースに書き込む翻訳訓練ステップと、
ブロック分割部が、目的言語への翻訳対象である原言語の入力文を、構文解析に基づき、複数の前記ブロックに分割するブロック分割ステップと、
翻訳部が、前記ブロック翻訳モデルデータベースから読み出したブロック翻訳モデルを用いて、前記ブロック分割ステップで分割された前記入力文の各ブロックを、それぞれ目的言語による前記非終端記号を含む翻訳文に翻訳する翻訳ステップと、
結合部が、各ブロックの前記翻訳文を前記非終端記号で表されるブロック挿入位置に基づき結合することにより、前記入力文に対する翻訳文を生成する結合ステップと、
を実行する機械翻訳方法。
【請求項5】
請求項4に記載の機械翻訳方法であって、
原言語の学習文を構文解析に基づき複数の前記ブロックに分割する学習文ブロック分割ステップと、
前記ブロック単位に分割された原言語の学習文と、当該学習文の目的言語による理想翻訳文とから、単語関連度モデルデータベースから読み出した原言語の学習文に含まれる単語と原言語の学習文の目的言語による理想翻訳文に含まれる単語との関連度を示す単語関連度モデルと、単語連接度モデルデータベースから読みだした原言語の学習文の目的言語による理想翻訳文に含まれる単語間の連接度を示す単語連接度モデルとを用いて、目的言語による理想翻訳文に含まれる各単語がそれぞれ原言語の学習文のいずれのブロックに対応するかを特定することにより、原言語の学習文の分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文を生成し、得られたブロック分割対訳文を前記ブロック分割対訳文データベースに書き込むブロック分割対訳文作成ステップ
を更に実行する機械翻訳方法。
【請求項6】
請求項4又は5に記載の機械翻訳方法であって、前記ブロックは節単位であることを特徴とする機械翻訳方法。
【請求項7】
請求項1乃至3のいずれかに記載の機械翻訳装置としてコンピュータを機能させるためのプログラム。
【請求項1】
構文解析に基づき各ブロックが1以上の単語と下位のブロックの挿入位置を表す非終端記号とからなる複数のブロックに分割された原言語の学習文と、当該分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文と、からなるブロック分割対訳文が蓄積されたブロック分割対訳文データベースと、
前記ブロック対訳文データベースから読み出したブロック分割対訳文を用いてブロック翻訳モデルを学習し、ブロック翻訳モデルデータベースに書き込む翻訳訓練部と、
前記ブロック翻訳モデルが蓄積されるブロック翻訳モデルデータベースと、
目的言語への翻訳対象である原言語の入力文を、構文解析に基づき、複数の前記ブロックに分割するブロック分割部と、
前記ブロック翻訳モデルデータベースから読み出したブロック翻訳モデルを用いて、前記ブロック分割部で分割された前記入力文の各ブロックを、それぞれ目的言語による前記非終端記号を含む翻訳文に翻訳する翻訳部と、
各ブロックの前記翻訳文を前記非終端記号で表されるブロック挿入位置に基づき結合することにより、前記入力文に対する翻訳文を生成する結合部と、
を備える機械翻訳装置。
【請求項2】
請求項1に記載の機械翻訳装置であって、
前記ブロック分割部は更に、原言語の学習文を構文解析に基づき複数の前記ブロックに分割し、
原言語の学習文に含まれる単語と原言語の学習文の目的言語による理想翻訳文に含まれる単語との関連度を示す単語関連度モデルが蓄積された単語関連度モデルデータベースと、
原言語の学習文の目的言語による理想翻訳文に含まれる単語間の連接度を示す単語連接度モデルが蓄積された単語連接度モデルデータベースと、
前記ブロック単位に分割された原言語の学習文と、当該学習文の目的言語による理想翻訳文とが入力され、前記単語関連度モデルデータベースから読み出した単語関連度モデルと前記単語連接度モデルデータベースから読み出した単語連接度モデルとを用いて、目的言語による理想翻訳文に含まれる各単語がそれぞれ原言語の学習文のいずれのブロックに対応するかを特定することにより、原言語の学習文の分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文を生成し、得られたブロック分割対訳文を前記ブロック分割対訳文データベースに書き込むブロック分割対訳文作成部と、
を更に備える機械翻訳装置。
【請求項3】
請求項1又は2に記載の機械翻訳装置であって、前記ブロックは節単位であることを特徴とする機械翻訳装置。
【請求項4】
翻訳訓練部が、構文解析に基づき各ブロックが1以上の単語と下位のブロックの挿入位置を表す非終端記号とからなる複数のブロックに分割された原言語の学習文と、当該分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文と、からなるブロック分割対訳文をブロック分割対訳文データベースから読み出し、これを用いてブロック翻訳モデルを学習し、ブロック翻訳モデルデータベースに書き込む翻訳訓練ステップと、
ブロック分割部が、目的言語への翻訳対象である原言語の入力文を、構文解析に基づき、複数の前記ブロックに分割するブロック分割ステップと、
翻訳部が、前記ブロック翻訳モデルデータベースから読み出したブロック翻訳モデルを用いて、前記ブロック分割ステップで分割された前記入力文の各ブロックを、それぞれ目的言語による前記非終端記号を含む翻訳文に翻訳する翻訳ステップと、
結合部が、各ブロックの前記翻訳文を前記非終端記号で表されるブロック挿入位置に基づき結合することにより、前記入力文に対する翻訳文を生成する結合ステップと、
を実行する機械翻訳方法。
【請求項5】
請求項4に記載の機械翻訳方法であって、
原言語の学習文を構文解析に基づき複数の前記ブロックに分割する学習文ブロック分割ステップと、
前記ブロック単位に分割された原言語の学習文と、当該学習文の目的言語による理想翻訳文とから、単語関連度モデルデータベースから読み出した原言語の学習文に含まれる単語と原言語の学習文の目的言語による理想翻訳文に含まれる単語との関連度を示す単語関連度モデルと、単語連接度モデルデータベースから読みだした原言語の学習文の目的言語による理想翻訳文に含まれる単語間の連接度を示す単語連接度モデルとを用いて、目的言語による理想翻訳文に含まれる各単語がそれぞれ原言語の学習文のいずれのブロックに対応するかを特定することにより、原言語の学習文の分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文を生成し、得られたブロック分割対訳文を前記ブロック分割対訳文データベースに書き込むブロック分割対訳文作成ステップ
を更に実行する機械翻訳方法。
【請求項6】
請求項4又は5に記載の機械翻訳方法であって、前記ブロックは節単位であることを特徴とする機械翻訳方法。
【請求項7】
請求項1乃至3のいずれかに記載の機械翻訳装置としてコンピュータを機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2011−221650(P2011−221650A)
【公開日】平成23年11月4日(2011.11.4)
【国際特許分類】
【出願番号】特願2010−87921(P2010−87921)
【出願日】平成22年4月6日(2010.4.6)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成23年11月4日(2011.11.4)
【国際特許分類】
【出願日】平成22年4月6日(2010.4.6)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]