機械翻訳装置、機械翻訳方法、およびそのプログラム

【課題】部分列に分割された入力文に対する機械翻訳において、手作業で作成した規則を用いることなく部分列翻訳を適切な順序に結合可能とする。
【解決手段】構文解析に基づき各ブロックが１以上の単語と下位のブロックの挿入位置を表す非終端記号とからなる複数のブロックに分割された原言語の学習文と、当該分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文とからなるブロック分割対訳文を用いてブロック翻訳モデルを学習し、目的言語への翻訳対象である原言語の入力文を、構文解析に基づき複数のブロックに分割し、前記ブロック翻訳モデルを用いて前記入力文の分割された各ブロックをそれぞれ目的言語による前記非終端記号を含む翻訳文に翻訳し、各ブロックの翻訳文を前記非終端記号で表されるブロック挿入位置に基づき結合することにより、入力文に対する翻訳文を生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ある言語の入力文を異なる言語の文に機械翻訳する機械翻訳装置、機械翻訳方法、およびそのプログラムに関する。
【背景技術】
【０００２】
ある言語（以下、「原言語」という。）の入力文から異なる言語（以下、「目的言語」という。）の翻訳文を得るための統計的な機械翻訳（例えば、特許文献１、２）において、あらゆる翻訳の可能性を探索しようとすると、入力文の長さ（単語数）の数乗の計算量が必要となることが知られており、長い原言語の文の翻訳に際しては一般に探索範囲を狭めることにより対処する。
【０００３】
探索範囲を狭める方法としては、探索の過程で或る水準以上のスコアを持つ解候補のみを残し、水準に満たない解候補のそれ以上の探索を打ち切るビームサーチと呼ばれる方法や、翻訳における語順の並べ替えを一定の範囲に制約することで、単語数の階乗個の語順の並べ替えの全探索を避ける方法が一般的に用いられている。しかし、いずれの方法でも、入力文が長い場合は近似の度合いが大きくなり、最終的な翻訳品質が低下するという問題がある。特に後者の方法では、英語から日本語への翻訳のように語順が大きく入れ替わる言語間の翻訳において正しい翻訳を得ることができず、翻訳品質が著しく低下することがある。
【０００４】
このような問題に対処する従来技術として、文を複数の部分列に分割し、その部分列をそれぞれ翻訳して再度結合するものがある（例えば、特許文献３）。文を分割することで翻訳すべき文の長さにより生じる上記の問題が軽減できる。特許文献３では、分割された部分列を複数の翻訳装置でそれぞれ翻訳し、最適となる部分列翻訳の組み合わせから翻訳文を生成する方式が提案されている。具体的には、予め作成した規則を用いて文の分割および組み上げを行う。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００６−９９２０８号公報
【特許文献２】特開２００８−１５８４４号公報
【特許文献３】特開２００１−２２２５２９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
特許文献３の方法では、文の分割および組み上げを行うための規則を手作業で作成しておく必要があり、様々な文を分割し組み上げるためには膨大な数の規則を定義する労力を要する。本発明の目的は、部分列に分割された入力文の翻訳において、手作業で作成した規則を用いることなく部分列翻訳を適切な順序に結合可能とし、大きく語順の異なる言語間の翻訳においても翻訳文の品質を高めることができる機械翻訳装置、機械翻訳方法、およびそのプログラムを提供することにある。
【課題を解決するための手段】
【０００７】
本発明の機械翻訳装置は、ブロック対訳文データベースと翻訳訓練部とブロック翻訳モデルデータベースとブロック分割部と翻訳部と結合部とを備える。
【０００８】
ブロック分割対訳文データベースは、構文解析に基づき各ブロックが１以上の単語と下位のブロックの挿入位置を表す非終端記号とからなる複数のブロックに分割された原言語の学習文と、当該分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文と、からなるブロック分割対訳文が蓄積されたものである。
【０００９】
翻訳訓練部は、前記ブロック対訳文データベースから読み出したブロック分割対訳文を用いて、ブロック翻訳モデルを学習し、ブロック翻訳モデルデータベースに書き込む。
【００１０】
ブロック翻訳モデルデータベースは、前記ブロック翻訳モデルを蓄積する。
【００１１】
ブロック分割部は、目的言語への翻訳対象である原言語の入力文を、構文解析に基づき、複数の前記ブロックに分割する。
【００１２】
翻訳部は、前記ブロック翻訳モデルデータベースから読み出した前記ブロック翻訳モデルを用いて、前記ブロック分割部で分割された前記入力文の各ブロックを、それぞれ目的言語による前記非終端記号を含む翻訳文に翻訳する。
【００１３】
結合部は、各ブロックの翻訳文を前記非終端記号で表されるブロック挿入位置に基づき結合することにより、前記入力文に対する翻訳文を生成する。
【発明の効果】
【００１４】
本発明の機械翻訳装置、機械翻訳方法、およびそのプログラムによれば、本発明の目的は、部分列に分割された入力文の翻訳において、手作業で作成した規則を用いることなく部分列翻訳を適切な順序に結合可能とし、大きく語順の異なる言語間の翻訳においても翻訳文の品質を高めることができる。そのため、長い入力文を分割して効率的に翻訳でき、かつ原言語と目的言語との間の語順の差が大きい場合でも、適切な語順による精度の高い翻訳文を生成することができる。
【図面の簡単な説明】
【００１５】
【図１】機械翻訳装置１００の構成例を示すブロック図。
【図２】機械翻訳装置１００の処理フロー例を示す図。
【図３】構文解析結果の例。
【図４】ブロック分割対訳文データベース１１０へのブロック分割対訳文の格納イメージを示す図。
【図５】構文解析結果の別の例。
【図６】機械翻訳装置２００の構成例を示すブロック図。
【図７】機械翻訳装置２００の構成例を示すブロック図。
【図８】対訳文データベース２４０への対訳文の格納イメージを示す図。
【図９】目的言語の各単語と原言語のブロックとの対応付けイメージを示す図。
【図１０】単語関連度データベース２２０への単語関連度モデルの格納イメージを示す図。
【図１１】単語連接度データベース２３０への単語連接度モデルの格納イメージを示す図。
【発明を実施するための形態】
【００１６】
以下、本発明の実施の形態について、詳細に説明する。
【実施例１】
【００１７】
図１に本発明の機械翻訳装置１００の構成例を示すブロック図を、図２に機械翻訳装置１００の処理フロー例をそれぞれ示す。機械翻訳装置１００は、ブロック対訳文データベース１１０と翻訳訓練部１２０とブロック翻訳モデルデータベース１３０とブロック分割部１４０と翻訳部１５０と結合部１６０とを備える。
【００１８】
ブロック分割対訳文データベース１１０は、公知の一般的な構文解析手法に基づき複数のブロックに分割された原言語の非終端記号を含む学習文と、当該分割されたブロックごとの目的言語による非終端記号を含む理想翻訳文と、からなるブロック分割対訳文が蓄積されたものである。本発明におけるブロックとは、１以上の連続する単語と下位のブロックによって構成される単位をいう。このように定義することで、原言語の文全体を最上位のブロックと考え、下位において単語とブロックの列の形式で再帰的・階層的に文を表現することができる。ブロックの単位は構文解析結果（構造木）上の任意の部分木に設定することが可能であるが、本発明では節を単位とすることが望ましいため、以下では節がブロックの単位であるとして説明する。
【００１９】
図３は、英文 "John bought a toy that was popular in Japan" について構文解析を行った結果の例である。構文解析には公知の英語構文解析器Enjuを用いた。Ｓは関係詞節以外の節を指す記号であり、Ｓ−ＲＥＬは関係詞節を指す記号である。図３の例では、まず文全体を節と考えることができ、その中に関係詞節が埋め込まれていることがわかる。節をブロックの単位として、図３の構造の上位から順にＳまたはＳ−ＲＥＬで表現される英文中の部分列を切り出すと、上記の英文は、
Ｂ０：John bought a toy [Ｂ１]
Ｂ１：that was popular in Japan
という２つのブロックに分割される。ここで、ブロックＢ０に含まれる [Ｂ１] は、ブロックＢ０内でのブロックＢ１の位置を表す非終端記号である。そして、これらのブロックとその目的言語による非終端記号を含む理想翻訳文とが対となったものがブロック分割対訳文である。日本語が目的言語である場合、非終端記号を含む理想翻訳文は例えば、
Ｂ０：ジョンは [Ｂ１] おもちゃを買った。
【００２０】
Ｂ１：日本で人気があった
となり、これらのそれぞれが上記の各英文と対とされたものがブロック分割対訳文である。ブロック分割対訳文データベース１１０へのブロック分割対訳文の格納イメージを図４に示す。図４は英語と日本語との対訳であり、(a)が英語側、(b)が日本語側である。図４においては、__s0、__s1が非終端記号であり、１つのブロックに複数のブロックが挿入される場合は、非終端記号を例えばこのように区別して表現する。
【００２１】
実施例１は、このようなブロック分割対訳文が事前に用意されていることを前提とする構成である。用意されていない場合の構成については実施例２で説明する。
【００２２】
翻訳訓練部１２０は、ブロック分割対訳文データベース１１０から読み出した非終端記号を含むブロック分割対訳文を用いて、ブロック翻訳モデルを学習し、ブロック翻訳モデルデータベース１３０に書き込む（Ｓ１）。ブロック翻訳モデルの学習は、公知の技術を用いることができ、例えば、機械翻訳プログラムMosesと合わせて用いられる翻訳モデル学習プログラムや単語翻訳確率推定プログラムＧＩＺＡ＋＋や単語Ｎグラム確率推定プログラムＳＲＩＬＭなどを用いることができる。また、モデルごとの重みの最適化のために、例えば、誤り率最小化学習 (Minimum Error Rate Training: MERT) と呼ばれる公知の技術を用いてもよい。なお、学習に際しては、より精度を高めるためブロック分割対訳文でない通常の文単位の対訳文を併用してもよい。この場合の学習方法についても、既存の方法（特許文献１、２等の統計的モデルに基づく方法、参考文献１等の辞書・規則に基づく方法、参考文献２等の用例に基づく方法）が利用できる。
【００２３】
〔参考文献１〕特許第３３５８０９６号公報
〔参考文献２〕特許第４２３９５０５号公報
非終端記号を含むブロック分割対訳文を用いてブロック翻訳モデルを学習することで、原言語と目的言語との対訳関係だけでなく、原言語における非終端記号の位置と目的言語における非終端記号の位置との位置関係も学習される。そのため、このブロック翻訳モデルを翻訳部１５０での翻訳処理に用いることで、ブロック分割部１４０でブロック分割された原言語の入力文に含まれる非終端記号を、ブロックの翻訳文において目的言語における適切な位置に配置することができる。
【００２４】
ブロック分割部１４０は、目的言語への翻訳対象である原言語の入力文を、公知の一般的な構文解析手法に基づき非終端記号を含む複数のブロックに分割する（Ｓ２）。なお、ブロック分割は単語列に対して行うため、入力文全体が単語列の場合(例えば英語のように空白文字を用いて分かち書きされた文)はそのまま入力できるが、入力文が文字列である場合(例えば日本語)又は単語分割されていない部分を含む文である場合には、図１に示すようにブロック分割部１４０の前段に文字列を単語列に分割する原言語単語分割部１４５を設ける必要がある。原言語単語分割部１４５における文字列から単語列への分割は、公知の一般的な形態素解析手法を用いて行うことができる。日本語の形態素解析プログラムとしては例えばMecabなどが挙げられる。
【００２５】
翻訳部１５０は、ブロック翻訳モデルデータベース１３０から読み出したブロック翻訳モデルを用いて、ブロック分割部１４０で分割された原言語の入力文の各ブロックを、それぞれ目的言語による非終端記号を含む翻訳文に翻訳する（Ｓ３）。翻訳は公知の機械翻訳技術（特許文献１〜３、参考文献１、２等）を用いて行うことができる。
【００２６】
結合部１６０は、翻訳部１５０で翻訳された各ブロックの翻訳文を、前記非終端記号で表されるブロック挿入位置に基づき結合することにより、原言語による入力文に対する翻訳文を生成する（Ｓ４）。
【００２７】
以上のように構成された機械翻訳装置１００を用いて、以下に示す英語による入力文を日本語による翻訳文に翻訳する例を説明する。なお、ブロック翻訳モデルは予め学習されているものとする。
【００２８】
入力文：we examined whether idiopathic pancreatitis is associated with CFTR mutations in persons who do not have lung disease of cystic fibrosis .
まず、ブロック分割部１４０において、構文解析を行い、図５に示すような構文木を得る。図５は公知の英語構文解析器Enjuによる構文解析例である。ブロック分割部１４０はこの解析結果に基づき、節をブロックの単位として入力文を、非終端記号を含む形でブロック分割する。図５の構造木において節はＳおよびＳ−ＲＥＬであるため、ＳまたはＳ−ＲＥＬの節点以下の部分をブロックとして分割すると、以下のようになる。
【００２９】
1. We examined whether __s0 .
2. idiopathic pacreatitis is associated with CFTR mutation in person __s0
3. who do not have lung disease of cystic fibrosis
この分割結果において、__s0はリストの次のブロックが挿入される位置を表す非終端記号である。
【００３０】
続いて翻訳部１５０において、ブロック分割部１４０の出力として得られた３つのブロックを、ブロック翻訳モデルデータベース１３０に蓄積されたブロック翻訳モデルを用いて、それぞれ非終端記号を含む日本語に翻訳する。公知の機械翻訳プログラムMosesを用いた場合の翻訳結果は以下のようになる。
【００３１】
1. __s0 かどうかを検討した。
2. __s0 人では、特発性膵炎がＣＦＴＲ変異と関係がある
3. 嚢胞性線維症の肺疾患を発症していない
【００３２】
そして、結合部１６０において、翻訳部１５０の出力として得られた３つのブロック翻訳結果を非終端記号をもとに結合することにより、以下のような翻訳文が得られる。
【００３３】
翻訳文：嚢胞性線維症の肺疾患を発症していない人では、特発性膵炎がＣＦＴＲ変異と関係があるかどうかを検討した。
【００３４】
この翻訳文からわかるように、入力文の末尾の関係代名詞節の係り受け関係が適切に維持され、異和感のない日本語文となっている。これに対し、上記の入力文をブロック分割を行わない従来の機械翻訳装置により翻訳すると、例えば以下のように入力文の末尾の関係代名詞節の係り受け関係が失われる場合がある。
【００３５】
従来技術による翻訳文：われわれは、特発性膵炎ＣＦＴＲ変異と関連しているか否かを検討した嚢胞性線維症の肺疾患を有しない人々であった。
【００３６】
以上のように、本発明の機械翻訳装置１００によれば、非終端記号を含むブロック対訳文によりブロック翻訳モデルを学習し、これを用いて非終端記号を含む形でブロック分割された入力文の各ブロックを翻訳する。そのため、各ブロックの翻訳文において、非終端記号が目的言語における適切な位置に配されるため、非終端記号に基づいて各ブロックを結合するだけで、予め規則を作成することなく適切な語順の翻訳文を得ることができる。また、長い修飾節についても適切な順序に並べ替えることができ、翻訳の品質を向上することができる。
【実施例２】
【００３７】
実施例１は、ブロック分割対訳文が事前に用意されていることを前提とする構成であるが、用意されていない場合には作成する必要がある。実施例２の機械翻訳装置２００は、実施例１の構成にブロック分割対訳文を作成するための構成を加えたものである。
【００３８】
図６に機械翻訳装置２００の構成例を示すブロック図を、図７に機械翻訳装置２００の処理フロー例をそれぞれ示す。機械翻訳装置２００は、機械翻訳装置１００の各構成要素に加え、ブロック分割対訳部作成部２１０と単語関連度モデルデータベース２２０と単語連接度モデルデータベース２３０とを備える。
【００３９】
ブロック分割対訳文は、文単位で原言語と目的言語とで訳の対応がとられた学習用の対訳文から作成する。この対訳文（原言語の学習文とそれに対応する目的言語による理想翻訳文との組）は、通常、対訳文データベース２４０に予め蓄積しておく。対訳文データベース２４０への対訳文の格納イメージを図８に示す。図８は英語と日本語との対訳であり、(a)が英語側、(b)が日本語側である。
【００４０】
ブロック分割対訳文作成部２１０においては、ブロック単位に分割された原言語の学習文と、当該学習文の目的言語による理想翻訳文の単語列とを入力として処理を行う。そのため、原言語の学習文が文字列の場合又は単語分割されていない部分を含む文である場合には、原言語単語分割部１４５にて単語列に分割した上で、得られた単語列をブロック分割部１４０にてブロック単位に分割して（Ｓ１１）、ブロック分割対訳文作成部２１０に入力する。また、目的言語による理想翻訳文が文字列の場合又は単語分割されていない部分を含む文である場合には、目的言語単語分割部２４５にて単語列に分割して、ブロック分割対訳文作成部２１０に入力する。目的言語単語分割部２４５での文字列の単語列への分割は、原言語単語分割部１４５と同様、公知の一般的な形態素解析手法を用いて行うことができる。
【００４１】
ブロック分割対訳文作成部２１０は、入力された目的言語の各単語を原言語の各ブロックに対応付ける処理を行うことにより、目的言語の単語列をブロック化するとともに、原言語のブロックにおける非終端記号を、対応する目的言語のブロックにおいて適切な位置に配置する（Ｓ１２）。目的言語の各単語を原言語の各ブロックに対応付ける処理は、原言語の単語列がＦ＝ｆ_１,ｆ_２,・・・,ｆ_Ｍ、ブロック数がＫ、Block(ｋ)(１≦ｋ≦Ｋ)がｋ番目のブロックに含まれる原言語の単語を表し、目的言語の単語列がＥ＝ｅ_１,ｅ_２,・・・,ｅ_Ｎなる翻訳文において、各ｅ_１,ｅ_２,・・・,ｅ_Ｎがどのブロックに対応するかを求めることと等価である。
【００４２】
本発明では、この問題を図９で表されるようなグラフの分割問題と定義し、参考文献３と同様な方法により解決する。
【００４３】
〔参考文献３〕X. Zhu, Z. Ghahramani, and J. Lafferty,"Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions", Proceedings of the 20th International Conference on Machine Learning, 2003, p.912-919
具体的には、図９において、原言語のブロックBlock(ｋ)(１≦ｋ≦Ｋ)と目的言語の各単語ｅ_ｎ(１≦ｎ≦Ｎ)がそれぞれ節点を構成し、ブロックの節点と目的言語の単語の節点とを結ぶ枝（細実線で表記）と目的言語の隣り合う単語の節点同士（太実線で表記）が存在している。図９のグラフを、それぞれが１つのブロックの節点を持つＫ個のグラフに分割すれば、各単語ｅ_ｎがどのブロックと対応するかが求められる。これは次式のＬの最適化問題として解決される。
【００４４】
【数１】

【００４５】
ここで、ｗ_ijは節点ｉと節点ｊとを結ぶ枝の重み、ｖ_i、ｖ_jはそれぞれ節点ｉと節点ｊのブロックＩＤであるｋ(１≦ｋ≦Ｋ)である。節点ｉがブロック節点である場合、ｖ_iはそのブロックのＩＤであり、未知数は目的言語の単語のＮ個の節点が属するブロックのＩＤである（つまり、Ｋ＋Ｎ次元のベクトルｖの要素のうち、Ｋ個は既知でＮ個が未知である）。ｗ_ijは、ブロックの節点と単語の節点とを結ぶ枝については、ブロック内の原言語の単語と単語節点である目的言語の単語との関連度、単語節点同士を結ぶ枝については、目的言語の単語の連接度となるように設計する。機械翻訳装置２００においては、単語の関連度が単語関連度モデルとして単語関連度モデルデータベース２２０に、単語の連接度が単語連接度モデルとして単語連接度モデルデータベース２３０にそれぞれ蓄積されているものとする。単語関連度モデルと単語連接度モデルは対訳文データベース２４０やその他の対訳文データベースから別途学習されたものを予め蓄積しておく。単語関連度モデルとしては、統計的な機械翻訳システムで利用される単語翻訳確率モデルなどの公知技術によるものが利用できる。単語翻訳確率モデルは、例えば対訳文データベースと公知の単語翻訳確率推定プログラムＧＩＺＡ＋＋によって得られた図１０に示すような単語翻訳確率のリストとして構成することができる。図１０において各行は、それぞれ「英単語」「日本語単語」「日本語単語から英単語への条件付き翻訳確率」である。また、単語連接度モデルとしては、統計的な機械翻訳システムで利用される単語バイグラムモデルなどの公知技術によるものが利用できる。単語バイグラムモデルは、例えば対訳文データベースの日本語側と公知の単語Ｎグラム確率推定プログラムＳＲＩＬＭによって得られた図１１に示すような単語バイグラム確率のリストとして構成することができる。図１１において各行は、それぞれ「１番目の単語の次に２番目の単語が現れる条件付き確率の対数」「１番目の単語」「２番目の単語」「バックオフ確率」である。式(1)の最適化により、目的言語の単語はより強く関連するブロックに属するようになり、また、連接度の大きい目的言語の単語群は同じブロックに属するようになるため、目的言語側のブロック分割および原言語側への対応付けという問題に適したグラフ分割結果の獲得が期待できる。
【００４６】
以上の定義に基づき、ブロック分割対訳文作成部２３０は式(1)を最適化するベクトルｖを求める。節点番号が、ブロック節点、単語節点の順に割り当てられているとすると、ｖは式(2)のようにブロック節点に関するＫ次元ベクトルｖ_bと単語節点に関するＮ次元ベクトルｖ_wとを連結したベクトルとして表現することができる。
【００４７】
【数２】

【００４８】
また、枝の重みｗ_ijによって構成される対称な重み行列Ｗも同様にブロック節点と単語節点に関わる部分を分けて考えることができる（式(3))。
【００４９】
【数３】

【００５０】
式(3)において、Ｗ_bbはブロック節点同士を結ぶ枝の重み（本発明においてはブロック節点同士の枝が存在しないため値はすべて０）、Ｗ_bwとＷ_wbはブロック節点と単語節点とを結ぶ枝の重み、Ｗ_wwは単語節点同士を結ぶ枝の重みを表す行列である。
【００５１】
式(2),(3)のもとで、式(1)を最適化するｖの未知部分ｖ_wは、参考文献３に従い次の等式で表される行列の演算により求めることができる。
【００５２】
【数４】

【００５３】
式(4)において、Ｄ_wwは(Ｋ＋Ｎ)×(Ｋ＋Ｎ)次元の対角行列Ｄの単語節点同士を結ぶ枝に関する部分（式(3)のＷとＷ_wwの関係と同様）であり、各要素ｄ_iが、
【００５４】
【数５】

【００５５】
なる行列である。
【００５６】
以上の処理内容に基づき、ブロック分割対訳文作成部２３０において英語の学習文の各ブロックに対訳の日本語の単語の割り付けを行うことによりブロック分割対訳文を生成する例を示す。
【００５７】
対訳文データベース２４０から読み出した学習用の対訳文が以下のような単語列であるとする。
【００５８】
英文：Although epidural corticosteroid injection are commonly used for sciatica , their efficacy has not been established .
日本語文：コルチコステロイドの硬膜外注射は、坐骨神経痛に対して一般的に用いられているが、その有効性は確立されていない。
【００５９】
まず、原言語である英文の単語列について、ブロック分割部１４０において次のように非終端記号を含む形でブロック分割される。
【００６０】
1. Although __s0 , __s1 .
2. epidural corticosteroid injection are commonly used for sciatica
3. their efficacy has not been established
そして、ブロック分割対訳文作成部２３０おいて、上記のようにブロック分割された英文に、対訳文データベース２４０から読み出した対訳の日本語文の各単語を割り付けることにより、各ブロックの英文に対応するブロック分割された日本語文が以下のように得られる。
【００６１】
1. __s0 られているが、__s1 。
2. コルチコステロイドの硬膜外注射は、坐骨神経痛に対して一般的に用い
3. その有効性は確立されていない
【００６２】
以上のように、機械翻訳装置２００によれば、ブロック分割対訳文が事前に用意されていなくても、既存の技術における用例や統計モデルの学習に利用される文単位で訳の対応がとられた対訳文からブロック分割対訳文を生成することができ、これを用いて実施例１で示した機械翻訳装置１００による処理内容を実行できる。
【００６３】
なお、本発明の機械翻訳装置１００、２００の各構成要素の機能分担は、上記の実施例に示す機能分担に限定されるものではなく、本発明を逸脱しない範囲で適宜変更が可能である。また、本発明の機械翻訳方法における各ステップの処理は上記で説明した時系列において実行されるのみならず、処理を実行する各構成要素の処理能力あるいは必要に応じて並列的にあるいは個別に実行することとしてもよい。

【特許請求の範囲】
【請求項１】
構文解析に基づき各ブロックが１以上の単語と下位のブロックの挿入位置を表す非終端記号とからなる複数のブロックに分割された原言語の学習文と、当該分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文と、からなるブロック分割対訳文が蓄積されたブロック分割対訳文データベースと、
前記ブロック対訳文データベースから読み出したブロック分割対訳文を用いてブロック翻訳モデルを学習し、ブロック翻訳モデルデータベースに書き込む翻訳訓練部と、
前記ブロック翻訳モデルが蓄積されるブロック翻訳モデルデータベースと、
目的言語への翻訳対象である原言語の入力文を、構文解析に基づき、複数の前記ブロックに分割するブロック分割部と、
前記ブロック翻訳モデルデータベースから読み出したブロック翻訳モデルを用いて、前記ブロック分割部で分割された前記入力文の各ブロックを、それぞれ目的言語による前記非終端記号を含む翻訳文に翻訳する翻訳部と、
各ブロックの前記翻訳文を前記非終端記号で表されるブロック挿入位置に基づき結合することにより、前記入力文に対する翻訳文を生成する結合部と、
を備える機械翻訳装置。
【請求項２】
請求項１に記載の機械翻訳装置であって、
前記ブロック分割部は更に、原言語の学習文を構文解析に基づき複数の前記ブロックに分割し、
原言語の学習文に含まれる単語と原言語の学習文の目的言語による理想翻訳文に含まれる単語との関連度を示す単語関連度モデルが蓄積された単語関連度モデルデータベースと、
原言語の学習文の目的言語による理想翻訳文に含まれる単語間の連接度を示す単語連接度モデルが蓄積された単語連接度モデルデータベースと、
前記ブロック単位に分割された原言語の学習文と、当該学習文の目的言語による理想翻訳文とが入力され、前記単語関連度モデルデータベースから読み出した単語関連度モデルと前記単語連接度モデルデータベースから読み出した単語連接度モデルとを用いて、目的言語による理想翻訳文に含まれる各単語がそれぞれ原言語の学習文のいずれのブロックに対応するかを特定することにより、原言語の学習文の分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文を生成し、得られたブロック分割対訳文を前記ブロック分割対訳文データベースに書き込むブロック分割対訳文作成部と、
を更に備える機械翻訳装置。
【請求項３】
請求項１又は２に記載の機械翻訳装置であって、前記ブロックは節単位であることを特徴とする機械翻訳装置。
【請求項４】
翻訳訓練部が、構文解析に基づき各ブロックが１以上の単語と下位のブロックの挿入位置を表す非終端記号とからなる複数のブロックに分割された原言語の学習文と、当該分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文と、からなるブロック分割対訳文をブロック分割対訳文データベースから読み出し、これを用いてブロック翻訳モデルを学習し、ブロック翻訳モデルデータベースに書き込む翻訳訓練ステップと、
ブロック分割部が、目的言語への翻訳対象である原言語の入力文を、構文解析に基づき、複数の前記ブロックに分割するブロック分割ステップと、
翻訳部が、前記ブロック翻訳モデルデータベースから読み出したブロック翻訳モデルを用いて、前記ブロック分割ステップで分割された前記入力文の各ブロックを、それぞれ目的言語による前記非終端記号を含む翻訳文に翻訳する翻訳ステップと、
結合部が、各ブロックの前記翻訳文を前記非終端記号で表されるブロック挿入位置に基づき結合することにより、前記入力文に対する翻訳文を生成する結合ステップと、
を実行する機械翻訳方法。
【請求項５】
請求項４に記載の機械翻訳方法であって、
原言語の学習文を構文解析に基づき複数の前記ブロックに分割する学習文ブロック分割ステップと、
前記ブロック単位に分割された原言語の学習文と、当該学習文の目的言語による理想翻訳文とから、単語関連度モデルデータベースから読み出した原言語の学習文に含まれる単語と原言語の学習文の目的言語による理想翻訳文に含まれる単語との関連度を示す単語関連度モデルと、単語連接度モデルデータベースから読みだした原言語の学習文の目的言語による理想翻訳文に含まれる単語間の連接度を示す単語連接度モデルとを用いて、目的言語による理想翻訳文に含まれる各単語がそれぞれ原言語の学習文のいずれのブロックに対応するかを特定することにより、原言語の学習文の分割されたブロックごとの目的言語による前記非終端記号を含む理想翻訳文を生成し、得られたブロック分割対訳文を前記ブロック分割対訳文データベースに書き込むブロック分割対訳文作成ステップ
を更に実行する機械翻訳方法。
【請求項６】
請求項４又は５に記載の機械翻訳方法であって、前記ブロックは節単位であることを特徴とする機械翻訳方法。
【請求項７】
請求項１乃至３のいずれかに記載の機械翻訳装置としてコンピュータを機能させるためのプログラム。

【図１】