説明

フレーズベースの統計的機械翻訳方法及びシステム

【課題】翻訳品質を効果的に高めるフレーズベースの統計的機械翻訳方法及びシステムを提供する。
【解決手段】統計的機械翻訳方法は、以下のステップから構成される。まずステップ305において翻訳すべき入力文を取得する。ステップ310において、予め構築されたフレーズテーブルからフレーズファジーマッチング手法を用いて入力文における各句について同一または最も類似した対訳句対を検索する。そして、最も類似した対訳句対について修正を行うことにより、各句の正確な翻訳文を得る。ステップ315において、ステップ310において得られた対訳句対と予め構築された言語モデルに基づいて、入力文についての目的言語の全ての翻訳文を検出する。そして、統計モデルを用いて最も高いスコアの翻訳文を入力文の正しい目的言語翻訳文として選択する。ステップ320において、生成された目的言語翻訳文を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理技術、特にフレーズベースの統計的機械翻訳方法及びシステムに関する。
【背景技術】
【0002】
機械翻訳技術は、主として規則ベースの機械翻訳技術とコーパスベースの機械翻訳技術に分類される。
【0003】
コーパスベースの機械翻訳技術においては、主な翻訳リソースはコーパスレポジトリによってもたらされる。コーパスベースの機械翻訳技術は、さらに用例ベースの機械翻訳技術と統計ベースの機械翻訳技術に分類される。統計ベースの機械翻訳技術において、フレーズベースの統計的機械翻訳(SMT)方法は主な自動機械翻訳方法の一つである。
【0004】
フレーズベースの統計的機械翻訳方法において、基本翻訳単位は句(フレーズ)であり、使用される翻訳知識はコーパスレポジトリの並列対訳コーパスから得られるフレーズテーブルと言語モデルとからなる。フレーズテーブルは、並列対訳コーパスにおける対訳句対からなる。ここに、句はいくつかの連続した語(ワード)として定義される。
【0005】
従来のフレーズベースの統計的機械翻訳プロセス(非特許文献1参照)は、主に以下のステップを含む。最初に、厳密なマッチング法(exactly matching method)を用いてフレーズテーブルを検索し、入力文に対応する、完全に一致した対訳句対を全て検出する。次に、対訳句対と言語モデルに基づいて、目的言語における翻訳フラグメントの全ての組合せを入力文について検出する。そして、統計的手法を用いることにより、全ての組合せの中から最もスコアの高い翻訳フラグメントを入力文の正しい目的言語翻訳文として選択する
図1は、上記のプロセスを実装した従来のフレーズベースの統計的機械翻訳システムのブロック図を示している。図1に示すように、システム10は主として入力部11、検索部12、翻訳文生成部13、出力部14、フレーズテーブル記憶部15及び言語モデル記憶部16その他を含む。
【0006】
入力部11は、システム10と外部とのインタフェースであり、システム10は外部から入力部11を介して翻訳すべき入力文を取得する。
【0007】
検索部12は、厳密なフレーズマッチング(phrase exactly matching:フレーズイグザクトリマッチング)を行う。具体的には、検索部12は厳密なフレーズマッチングを用いてフレーズテーブル記憶部15に記憶されているフレーズテーブルから入力文に対応する完全に一致した全ての対訳句対を検索する。
【0008】
さらに、翻訳文生成部13は入力文の正しい目的言語翻訳文を生成する。具体的には、翻訳文生成部13は検索部12によって検索された対訳句対と言語モデル記憶部16に記憶された言語モデルに基づいて入力文についての全ての目的言語翻訳文を検出し、統計モデルを用いて可能な全ての翻訳文から最もスコアの高い一つを入力文の正しい目的言語翻訳文として選択する。
【0009】
翻訳文生成部13によって生成された目的言語翻訳文は、出力部14を介して出力される。
【0010】
図2は、図1のシステムによって行われる機械翻訳例を示している。この例では、
【数1】

【0011】
という入力文について、図1のシステムは厳密なフレーズマッチング技術によって入力文に対応する以下の完全に一致した4つの対訳句対(中国語−英語句対)をフレーズテーブルから検出する。
【数2】

【0012】
さらに、システムは当該4つの対訳句対に基づき、統計モデルを用いて“I found the end of her story very exciting”という最終的な翻訳文を得る。
【先行技術文献】
【非特許文献】
【0013】
【非特許文献1】Philipp Koehn, Franz Josef Och, Daniel Marcu: "Statistical Phrase-Based Translation", Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology (HLT-NAACL 2003), (1), page 48-54, 2003.
【発明の概要】
【発明が解決しようとする課題】
【0014】
上記のように従来のフレーズベースの統計的機械翻訳システムでは、厳密なマッチング手法を用いて、翻訳すべき入力文に関して、完全に一致した対訳句対をフレーズテーブルから検索して入力文の翻訳文を得る。厳密なフレーズマッチング手法の条件は、対応する2つの句が完全に同じでなければならないということである。しかしながら、予め構築されたコーパスレポジトリ内の並列対訳コーパスのサイズは一般に制限されており、長い句をカバーすることができない。このため、翻訳すべき入力文における長い句については、厳密なマッチング手法の使用によってフレーズテーブルの中に完全に一致した対訳句対を見つけ出すことは非常に難しい。従って、翻訳の過程では長い句をいくつかの短い句へ分割して一つずつマッチングをとればよい。しかしながら、長い句が短い句より多くの文脈情報を含んでいることから、入力文について短い句のマッチングに基づいて生成される目的言語の翻訳文の質は、長い句のマッチングに基づいて生成されるそれより通常低い。
【課題を解決するための手段】
【0015】
本発明の一態様によれば、入力文中の句について予め構築されたフレーズテーブルにおいてファジーマッチングを行うステップを具備するフレーズベースの統計的機械翻訳方法を提供する。
【0016】
本発明の別の態様によれば、入力文中の句について予め構築されたフレーズテーブルにおいてファジーマッチングを行うように構成されたフレーズファジーマッチング部を具備するフレーズベースの統計的機械翻訳システムを提供する。
【図面の簡単な説明】
【0017】
【図1】従来のフレーズベースの統計的機械翻訳システムのブロック図;
【図2】図1のシステムの機械翻訳例を示す図;
【図3】本発明の一実施形態に係るフレーズベースの統計的機械翻訳方法のフローチャート;
【図4】本発明の一実施形態に係る図3の方法のフレーズファジーマッチングプロセスの詳細を示すフローチャート;
【図5】図3及び図4の方法を用いた機械翻訳例を示す図;
【図6】本発明の一実施形態に係るフレーズベースの統計的機械翻訳システムのブロック図;
【図7】本発明の一実施形態に係る図6のシステムにおけるフレーズファジーマッチング部のブロック図。
【発明を実施するための形態】
【0018】
以下、図面を参照して本発明の好ましい実施形態を詳細に説明する。
【0019】
図3は、本発明の一実施形態に係るフレーズベースの統計的機械翻訳方法のフローチャートである。
【0020】
図3に示すように、まずステップ306において翻訳すべき入力文を取得する。
【0021】
ステップ310において、フレーズファジーマッチングを行う。
【0022】
具体的には、ステップ310では予め構築されたフレーズテーブルからフレーズファジーマッチング手法を用いて入力文における各句について同一または最も類似した対訳句対を検索する。そして、最も類似した対訳句対について修正を行うことにより、各句の正確な翻訳文を得る。
【0023】
ステップ315において、入力文についての目的言語翻訳文を生成する。具体的には、ステップ310において得られた対訳句対と予め構築された言語モデルに基づいて、入力文についての目的言語の全ての翻訳文を検出する。そして、統計モデルを用いて最も高いスコアの翻訳文を入力文の正しい目的言語翻訳文として選択する。
【0024】
ステップ320において、生成された目的言語翻訳文を出力する。
【0025】
以下、ステップ310の処理について詳細に説明する。図4は、本発明の一実施形態に係る図3の方法におけるステップ310のフレーズファジーマッチングプロセスの詳細なフローチャートである。図5は、図3及び図4の方法を用いた機械翻訳例を示している。
【0026】
本実施形態では、用例ベースの機械翻訳(EBMT)の考え方に従ってフレーズファジーマッチングを実行する。EBMT法の主なプロセスは、以下の通りである。最初に、例文レポジトリから入力文に類似した例文を検索する。次に、類似した例文と入力文との差分を認識する。最後に、類似した例文における前記の差分を翻訳モデルに基づいて除去し、それにより入力文の翻訳文を生成する。EBMT法については、Harold Somers, “Review Article: Example-based Machine Translation”, 1999, Machine Translation, 14(2): 113-157.で詳しく述べられている。
【0027】
図4中に示したように、本実施形態のフレーズファジーマッチングプロセスでは、まずステップ401において句の検索を行い、予め構築されたフレーズテーブル内の同一または最も類似した対訳句対を検索する。
【0028】
例えば、図5を参照すると、フレーズテーブルから長い句:
【数3】

【0029】
に対して同一または最も類似した対訳句対を検索するプロセスにおいては、句:
【数4】

【0030】
について完全に一致した対訳句対:
【数5】

【0031】
が見つかり、句:
【数6】

【0032】
について最も類似した対訳句対:
【数7】

【0033】
が見つかり、また句:
【数8】

【0034】
について完全に一致した対訳句対:
【数9】

【0035】
が見つかる。
【数10】

【0036】
のような、フレーズテーブル内で完全に一致した対訳句対を持たない句について、最も類似した対訳句対を検索するプロセスは、以下の通りである。まず、長い句の中にほとんど同一の語を含む複数の類似した候補対訳句対をフレーズテーブルから検出する。そして、次に複数の類似した候補対訳句対の各々について、長い句との間の編集距離を計算する。ここで、編集距離は、類似した候補対訳句対中の原言語句から長い句への変換に必要な挿入、削除及び置換の操作の回数である。そして、最後に長い句から最も編集距離の短い類似した候補対訳句対をほとんど同一の候補対訳句対として選択する。
【0037】
例えば、図5を参照すると、長い句:
【数11】

【0038】
に対して、複数の類似した候補対訳句対:
【数12】

【0039】
がフレーズテーブルから検出される。
【0040】
この場合、候補対訳句対(S1),(S2)及び(S3)について、長い句:
【数13】

【0041】
【数14】

【0042】
【数15】

【0043】
という2つの操作を実行する必要がある。(S2)と長い句との間の編集距離も2であり、すなわち(S2)の原言語句においては
【数16】

【0044】
【数17】

【0045】
という2つの操作を実行する必要がある。(S3)と長い句との間の編集距離は1、すなわち(S3)の原言語句においては
【数18】

【0046】
という一つの操作のみを実行すればよい。
【0047】
従って、長い句:
【数19】

【0048】
からの編集距離が最も短い対訳句対:
【数20】

【0049】
を長い句について最も類似した対訳句対として得ることができる。
【0050】
ステップ415においては、完全に一致した対訳句対は見つからないが、最も類似した対訳句対が見つかる、入力文中の長い句の各々について、見つけられた最も類似した対訳句対と長い句との差分を認識する。すなわち、最も類似した対訳句対中の原言語句と長い句との間で異なる語を認識する。
【0051】
具体的には、ステップ415において最も類似した対訳句対における原言語句の中の語が、長い句の中の語と同一かどうかを判断するために、下記の方法のうちの1つを特定の状況によって使用すればよい。
【0052】
1)最も類似した対訳句対中の原言語句と長い句とを語単位で互いに直接比較して、語が一致しているかどうかを確認する。
【0053】
2)もし長い句が英語であれば、最も類似した対訳句対中の原言語句と長い句との語の基底形を互いに比較して、語の基底形が一致しているかどうかを確認する。
【0054】
3)類義語辞書を使用することによって、最も類似した対訳句対中の原言語句と長い句との間の異なる語が同じ意味を示すかどうかを調べる。
【0055】
例として、例えば図5の例の長い句:
【数21】

【0056】
について見つかる最も類似した対訳句対が
【数22】

【0057】
であれば、そこに長い句の中の
【数23】

【0058】
と異なる語
【数24】

【0059】
が文字通り存在する。もし、それが同義語辞書で定義されるなら、
【数25】

【0060】
は同義語に属する。その結果、
【数26】

【0061】
は同じ意味を表し、異なる部分とは見なされない。
【0062】
4)翻訳辞書を使用することによって、最も類似した対訳句対中の原言語句と長い句との間で異なる語が同じ意味を示すかどうかを調べる。
【0063】
同様に、例えば図5の例の長い句:
【数27】

【0064】
において見つかる最も類似した対訳句対が
【数28】

【0065】
であり、さらに翻訳辞書中に“story”または “novel”と翻訳される
【数29】

【0066】
及び“novel”と翻訳される
【数30】

【0067】
が見つかれば、
【数31】

【0068】
は同じ意味を持つと見なされ、異なる部分とは見なされない。
【0069】
ステップ420においては、完全に一致した対訳句対は見つからないが、最も類似した対訳句対が見つかる、入力文中の長い句の各々について、見つけられた最も類似した対訳句対と長い句との差分を修正し、長い句の目的言語翻訳文を得る。
【0070】
すなわち、長い句の語に対して最も類似した対訳句対中の異なる語を修正する。具体的には、最も類似した対訳句対中の原言語句において長い句の語に対して異なる意味を持っている語をまず修正する。その結果、修正後の原言語句は長い句と一致する。次に、最も類似した対訳句対中の目的言語句の中の対応する語を修正する。これにより、長い句の目的言語翻訳文を得る。
【0071】
例えば、図5の例では最も類似した対訳句対:
【数32】

【0072】
が長い句:
【数33】

【0073】
に対して見つかり、最も類似した対訳句対と長い句との差分は、最も類似した対訳句対に無い語:
【数34】

【0074】
であるため、まず
【数35】

【0075】
を(S3)の原言語句中の語:
【数36】

【0076】
の前に挿入する。この結果、修正後の原言語句は長い句に一致する。次に、辞書を調べて
【数37】

【0077】
を取得し、これに基づいて(S3)の目的言語句中の対応する語を修正後の原言語句に従って修正する。例えば、目的言語句中の2番目の“the”を“her”に置き換え、これにより長い句の正しい目的言語翻訳文 “the end of her story”が得られる。
【0078】
その結果、図5を参照すると、入力文:
【数38】

【0079】
について、フレーズファジーマッチングを介して得られる以下の対訳句対:
【数39】

【0080】
に基づき、統計モデルを用いて入力文に関して最もスコアの高い最終的な目的言語翻訳文 “I found the end of her story very exciting” (“I found the end of her story very exciting.”の意味)が得られる。
【0081】
本実施形態のフレーズベースの統計的機械翻訳方法の詳細は、上記の通りである。本実施形態では、句についてファジーマッチングを行うことによって、入力文中の長い句についての高品質の翻訳文を生成し、それにより長い句に基づく入力文の翻訳を実行することができ、もって厳密なフレーズマッチングに基づいた翻訳システムにおける翻訳の質を効果的に高めることができる。さらに、この効果は図2の例における厳密なフレーズマッチングに基づいて得られる翻訳文と、図5の本実施形態に従うフレーズファジーマッチングに基づいて得られる翻訳文との比較に見ることができ、フレーズファジーマッチングに基づいて得られる翻訳文は、厳密なフレーズマッチングに基づいて得られる翻訳文より明らかに優れている。
【0082】
さらに、図4のプロセスにおいては図3のステップ310のフレーズファジーマッチング過程を実行するために、用例ベースの機械翻訳方法が使用されているが、これに限定されないことに注意すべきである。また、他の実施形態ではフレーズファジーマッチングを現在知られているか、または将来知り得る翻訳手法の使用により実行することができる。
【0083】
本発明は、同じ発明概念の下でフレーズベースの統計的機械翻訳システムを提供する。以下、図面を参照して説明する。
【0084】
図6は、本発明の一実施形態に係るフレーズベースの統計的機械翻訳システムのブロック図である。図6に示されるように、本実施形態のフレーズベースの統計的機械翻訳システム60は、入力部61、フレーズファジーマッチング部62、翻訳文生成部63、出力部64、フレーズテーブル記憶部65及び言語モデル記憶部66を含む。
【0085】
入力部61は、システム60と外部とのインタフェースであり、システム60は外部から入力部61を介して翻訳すべき入力文を取得する。
【0086】
フレーズファジーマッチング部62は、フレーズテーブル記憶部65に記憶された予め構築されたフレーズテーブル中の入力文の句についてファジーマッチングを行い、句についての目的言語翻訳文を検出する。
【0087】
翻訳文生成部63は、フレーズファジーマッチング部62のマッチング結果と言語モデル記憶部66に格納された、予め構築された言語モデルに基づいて、入力文についての目的言語の可能な全ての翻訳文を検出し、統計モデルを使用してそれらのうち最もスコアの高い一つを入力文の正しい目的言語翻訳文として選択する。
【0088】
さらに、翻訳文生成部63によって生成された目的言語翻訳文は、出力部64を介して出力される。
【0089】
以下、フレーズファジーマッチング部62の詳細について説明する。図7は、本発明の一実施形態に係るフレーズファジーマッチング部のブロック図である。フレーズファジーマッチング部62は、用例ベースの機械翻訳方法に基づいて実装される。
【0090】
具体的には、本実施形態のフレーズファジーマッチング部62は、図7に示されるように対訳句検索部622、差分認識部623及び修正部624を含む。
【0091】
対訳句検索部622は、フレーズテーブル記憶部65に記憶されたフレーズテーブルから、入力文従って同一または最も類似した対訳句対を検索する。
【0092】
特に、同一でない対訳句対が見つかる長い句の各々において、対訳句対検索部622はほとんど同一の語を長い句に含む複数の最も類似した候補対訳句対を検出し、また複数の類似した候補対訳句対の各々について長い句との間の編集距離を計算する。ここで、編集距離は類似した候補対訳句対中の原言語句から長い句への変換に必要な挿入、削除及び置換の操作の回数である。そして、最も編集距離の短い類似した候補対訳句対をほとんど同一の候補対訳句対として長い句から選択する。
【0093】
差分認識部623は、複数の長い句のうち最も類似した対訳句対が見つかる長い句の各々について、最も類似した対訳句対と長い句との差分を認識する。すなわち、最も類似した対訳句対中の原言語句と長い句との間の異なる意味を持つ語を認識する。
【0094】
具体的には、差分認識部623は複数の長い句のうち最も類似した対訳句対が見つかる長い句の各々について、最も類似した対訳句対中の原言語句と長い句との間で異なる意味を持つ語を直接あるいは類義語辞書/翻訳辞書の使用によって認識する。
【0095】
修正部624は、複数の長い句のうち最も類似した対訳句対が見つかる長い句の各々について、長い句に対する最も類似した対訳句対の差分を修正して、長い句の目的言語翻訳文を得る。
【0096】
具体的には、修正部624は複数の長い句のうち最も類似した対訳句対が見つかる長い句の各々について、最も類似した対訳句対中の原言語句のうち長い句の語に対して異なる意味を持っている語を修正して修正後の原言語句が長い句と一致するようにし、次いで修正後の原言語句に従って、最も類似した対訳句対における目的言語句の中の対応する語を修正する。
【0097】
さらに、フレーズファジーマッチング部62は本実施形態における用例ベースの機械翻訳方法に基づいて実装されているが、これに限定されていないことに注意すべきである。また、他の実施形態ではフレーズファジーマッチング部は現在知られているか、または将来知り得る翻訳手法の使用により実装することができる。
【0098】
本実施形態に係るフレーズベースの統計的機械翻訳システムの詳細は、上記の通りである。フレーズベースの統計的機械翻訳システム60及びその構成要素については、特別に設計された回路あるいはチップに実装するか、あるいは対応するプログラムを実行するコンピュータ(プロセッサ)によって実現することができる。
【0099】
本発明のフレーズベースの統計的機械翻訳方法及びシステムについて、いくつかの典型的な実施形態に従って詳細に説明したが、これらの実施形態は網羅的でなく、当業者は本発明の精神及び範囲内で様々な変形及び修正を行ってもよい。従って、本発明はこれらの実施形態に限定されるものでなく、本発明の範囲は専ら特許請求の範囲によって定義される。

【特許請求の範囲】
【請求項1】
入力文中の句に対して予め構築されたフレーズテーブルによりファジーマッチングを行うステップを具備することを特徴とするフレーズベースの統計的機械翻訳方法。
【請求項2】
前記ファジーマッチングを行うステップは、用例ベースの機械翻訳方法を用いて前記入力文中の句に対して前記予め構築されたフレーズテーブルによりファジーマッチングを行うステップを更に具備することを特徴とする請求項1に記載の方法。
【請求項3】
前記ファジーマッチングを行うステップは、
前記入力文に従って同一または最も類似した対訳句対を前記フレーズテーブルから検索するステップと、
前記複数の長い句のうち前記最も類似した対訳句対が見つかる長い句の各々に対して前記最も類似した対訳句対と前記長い句との差分を認識するステップと、
前記複数の長い句のうち最も前記類似した対訳句対が見つかる長い句の各々に対して前記最も類似した対訳句対に対する前記長い句の前記差分を修正して前記長い句の目的言語翻訳文を得るステップと、
を更に具備することを特徴とする請求項1または2のいずれか1項に記載の方法。
【請求項4】
前記長い句の各々に対して同一または最も類似した対訳句対を前記フレーズテーブルから検索するステップは、
前記複数の長い句のうち同一でない対訳句対が見つかる長い句の各々に対して前記フレーズテーブルから複数の類似した候補対訳句対を検出するステップと、
前記複数の類似した候補対訳句対の各々に対して、前記類似した候補対訳句対中の原言語句から前記長い句への変換に必要な挿入、削除及び置換の操作の回数である、前記長い句との間の編集距離を計算するステップと、
前記複数の類似した候補対訳句対中の長い句から、最も編集距離の短い類似した候補対訳句対を前記長い句の最も類似した対訳句対として選択するステップと、を更に具備することを特徴とする請求項3に記載の方法。
【請求項5】
前記最も類似した対訳句対と前記長い句との差分を認識するステップは、
前記最も類似した対訳句対における原言語句と前記長い句との間の意味の異なる語を直接または類義語辞書/翻訳辞書を用いて認識するステップを更に具備することを特徴とする請求項3に記載の方法。
【請求項6】
前記最も類似した対訳句対に対する前記長い句の前記差分を修正するステップは、
前記最も類似した対訳句対における原言語句と前記長い句との間の意味の異なる語を修正後の原言語句が前記長い句と一致するように修正するステップと、
前記修正後の原言語句に従って前記最も類似した対訳句対における目的言語句中の対応する語を修正するステップと、を更に具備することを特徴とする請求項5に記載の方法。
【請求項7】
前記入力文中の句についての前記ファジーマッチングの結果と予め構築された言語モデルとに基づき、統計モデルを用いて前記入力文について最も高いスコアを持つ目的言語翻訳文を生成するステップを更に具備することを特徴とする請求項1に記載の方法。
【請求項8】
入力文中の句について予め構築されたフレーズテーブルによりファジーマッチングを行うように構成されたフレーズファジーマッチング部を具備することを特徴とするフレーズベースの統計的機械翻訳システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2010−61645(P2010−61645A)
【公開日】平成22年3月18日(2010.3.18)
【国際特許分類】
【出願番号】特願2009−174617(P2009−174617)
【出願日】平成21年7月27日(2009.7.27)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】