説明

機械翻訳システム

【課題】訳文の一部として翻訳メモリが適用された場合にも、文全体の整合性が保たれるようにして翻訳精度を向上させることである。
【解決手段】制御部6は訳文される第二の言語の一部に対し、第一言語の原文と第二の言語の訳文とを文単位で対にしたデータを記録する翻訳メモリ4に記録されたデータを適用できるか否かを判断し、適用できる場合は、翻訳メモリ適用部5により翻訳メモリ4のデータが訳文の文全体として整合するように翻訳メモリのデータの一部を変化させて翻訳する。一方、適用できないときは、翻訳部3により第一言語の構文を解析して第二言語に翻訳する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、第一言語の原文と第二の言語の訳文とを文単位で対にしたデータを使用して高精度な翻訳を実現する機械翻訳システムに関する。
【背景技術】
【0002】
社会のグローバル化により、母国語以外で記載された文書の流通量が増えており、母国語以外の言語を母国語に翻訳するための機械翻訳システムが実用化されている。機械翻訳システムでは、翻訳対象となる各種言語による文の多様性により、ルールベースの知識によって機械翻訳処理を行うことは限界があると言われている。
【0003】
そこで、事例ベースの翻訳処理が提案され、翻訳メモリとして近年実用化が進んでいる。翻訳メモリでは、原文と訳文とを文の単位でデータベース(DB)に記録し、新たに翻訳する際に、その文をデータベース(DB)中から検索し、同一の文が有った場合、新たに翻訳する文の翻訳結果として、検索された文と対になったデータベース(DB)に記録されていた翻訳結果を使用する。
【0004】
この際、記録されている原文と訳文とは、必ずしも言語処理を通じて対応づけられているものとは限らず、たとえば、意訳された結果である場合もある。このため、原文と訳文との単語単位の対応はとれず、記録された結果がそのまま翻訳結果として使用されている。
【0005】
ここで、機械翻訳装置として、定型文の僅かな敬体、常体の揺れや助動詞等の変化を吸収することにより、厳密な入力文でなくても定型文を利用可能にし、精度の高い翻訳結果文を得て後編集の負荷を軽減することを可能としたものがある(例えば、特許文献1参照)。
【特許文献1】特開平11−282845号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
ところが、翻訳メモリを用いて翻訳を行う場合に、翻訳メモリに記録された文が節の形で新規に翻訳される文中に出現した場合には、翻訳メモリに記録されたデータをそのまま適用すると、その他の部分と不整合が生じることがある。
【0007】
例えば、「おなかと背中がくっつきそうだ」という原文に対し「I am hungry」という訳文が翻訳メモリに登録されており、「あいつは、おなかと背中がくっつきそうだと言った。」という文A1を翻訳する場合を考える。
【0008】
通常の翻訳メモリでは、文A1を翻訳する際には、文全体と翻訳メモリに登録された内容とが一致しないため、従属節の部分と全体とを分けて翻訳処理を行う。すなわち、主節と従属節とに分け、それぞれを翻訳メモリで検索する。主節については従属節の名詞句をNPとして「あいつは、NPと言った。」とし、従属節として「おなかと背中がくっつきそうだ」とする。そして、前者は翻訳メモリのデータに一致しないので「He said NP.」と訳出される。そして後者は翻訳メモリのデータにヒットするので「I am hungry」が得られ、それぞれを合成し、「He said I am hungry.」という結果が得られる。しかし、これでは人称、時制、文末に問題がある。
【0009】
また、「これは、彼の本ですか」という原文に対し、「Is this his book」という訳文が翻訳メモリに登録されており、「あなたは、これは、彼の本ですかと言った」という文B1を翻訳する場合、この場合も同様に、「You said Is this his book.」という誤った翻訳結果が得られてしまう。
【0010】
本発明の目的は、訳文の一部として翻訳メモリが適用された場合にも、文全体の整合性が保たれるようにして翻訳精度を向上できる機械翻訳システムを得ることである。
【課題を解決するための手段】
【0011】
請求項1の発明に係わる機械翻訳システムは、第一言語の構文を解析して第二言語に翻訳する翻訳部と、第一言語の原文と第二の言語の訳文とを文単位で対にしたデータを記録する翻訳メモリと、訳文される第二の言語の一部に対し前記翻訳メモリに記録されたデータを適用できるか否かを判断する制御部と、前記制御部で前記翻訳メモリに記録されたデータを適用すると判断された場合に前記翻訳メモリのデータが訳文の文全体として整合するように前記翻訳メモリデータの一部を変化させて翻訳する翻訳メモリ適用部とを備えたことを特徴とする。
【0012】
請求項2の発明に係わる機械翻訳システムは、請求項1の発明において、前記翻訳メモリ適用部は、少なくとも前記翻訳メモリデータの人称と時制とを訳文の文全体として整合するように変化させることを特徴とする。
【0013】
請求項3の発明に係わる機械翻訳システムは、請求項2の発明において、前記翻訳メモリ適用部は、前記翻訳メモリデータの人称と時制に加え、語尾活用や文体も訳文の文全体として整合するように変化させることを特徴とする。
【発明の効果】
【0014】
本発明によれば、訳文の一部として第一の言語と第二の言語との文を対にして記録する翻訳メモリが適用された場合にも、翻訳メモリのデータが訳文の文全体として整合するように翻訳メモリデータの一部を変化させるので、文全体の整合性を保つことができ翻訳精度を向上することができる。
【発明を実施するための最良の形態】
【0015】
以下、本発明の実施の形態を説明する。図1は本発明の実施の形態に係わる機械翻訳システムの構成図である。図1において、入力部1は翻訳する原文や各種コマンドなどを入力するためのものであり、通常、キーボード、マウス、タッチパネルなどで実現される。表示部2は、入力部1からの入力や制御部6からの出力などを表示するものであって、CRT表示装置や液晶モニタ、壁面やゴーグルなどへの投影の形で実現される。
【0016】
翻訳部3は、入力部1から入力された第一言語の原文を構文解析し、ルールベースの知識によって翻訳するものである。翻訳メモリ4は翻訳メモリデータとして使用される文の対を記録するものであり、第一言語の原文と第二の言語の訳文とを文単位で対にしたデータを記録する。
【0017】
翻訳メモリ適用部5は、従来の機械翻訳システムの翻訳メモリ適用処理と同様に、翻訳部3から与えられた原文を翻訳メモリ4から検索し、発見された原文に対応する訳文を適用するという機能に加え、翻訳文全体としての整合性を図るべく、適用する訳文の必要箇所を変化させてから適用するという機能を有するものである。そして、制御部6はこれら全体の制御を司る部分である。
【0018】
図2は、本発明の実施の形態に係わる機械翻訳システムの動作の一例を示すフローチャートである。まず、入力部1から翻訳する第一言語の原文が入力されると、制御部6は一文毎にインデックスIを付与し(S1)、入力された文を読み込みSiとする(S2)。そして、入力した文Siは翻訳メモリ4のデータベースDBにデータが格納されているかどうかを判断し(S3)、格納されていない場合は、翻訳部3によりそのまま通常の翻訳処理を行う(S4)。そして、翻訳処理した文が最後の文であるか否かを判定し(S5)、最後の文であるときは処理を終了する。ステップS5の判定で最後の文でないと判断されたときは、インデックスIをインクリメントしてステップS2に戻る(S6)。
【0019】
次に、ステップS3の判定で、入力した文Siのデータが翻訳メモリ4のデータベースDBに格納されていると判断されたときは、翻訳する原文Siを翻訳メモリ適用部5に転送し(S7)、翻訳対象の原文につき丸ごと適用できる文があるかどうかを確かめる(S8)。丸ごと適用できる文のデータが翻訳メモリ4のデータベースDBにあるときは、適用結果を翻訳結果とする(S9)。そして、翻訳処理した文が最後の文であるか否かを判定し(S5)、最後の文であるときは処理を終了し、最後の文でないときはインデックスIをインクリメントしてステップS2に戻る(S6)。
【0020】
次に、ステップS8の判定で、翻訳対象の原文につき丸ごと適用できる文がないときは、原文Siを解析し、節構造を持つかどうか判断する(S10)。
【0021】
節構造を持たない場合には翻訳メモリ4のデータベースDBの適用はできないため、通常の翻訳処理を行う(S4)。一方、節構造を持つ場合は、節部分を翻訳メモリ4のデータベースDBが適用できるか否かを判断し(S11)、適用できない場合には通常の翻訳処理を行う(S4)。一方、翻訳メモリ4のデータベースDBを適用できる場合は、適用可能と判断された節以外の部分の解析結果から情報を取り出し、翻訳メモリ4のデータベースDBからの訳文に反映させた後に適用する(S12)。そして、翻訳処理した文が最後の文であるか否かを判定し(S5)、最後の文であるときは処理を終了し、最後の文でないときはインデックスIをインクリメントしてステップS2に戻り(S6)、ステップS2以下の動作を翻訳終了まで繰り返し行う。
【0022】
ここで、ステップS12の処理内容を事例に基づいて説明する。前述したように、「おなかと背中がくっつきそうだ」という原文に対し「I am hungry」という訳文が翻訳メモリに登録されており、「あいつは、おなかと背中がくっつきそうだと言った。」という文A1を翻訳する場合、従来であると「He said I am hungry.」という誤った翻訳になってしまう。
【0023】
これに対し、本発明の実施の形態では、翻訳メモリ適用部5により、「あいつは、NPと言った。」と「おなかと背中がくっつきそうだ」とに分け、「あいつは、NPと言った。」を解析し、時制が過去であること、動作の主体が「あいつ」であることを得る。
【0024】
一方、翻訳メモリ4のデータベースDBの「おなかと背中がくっつきそうだ」と対となる「I am hungry.」を解析し、動作主体が「I」であること、時制が現在であることを得る。
【0025】
これらの情報より、従節の主語「I」は主節の人称と一致させて「He」と変更する必要があり、また、述語「am」は、主節の間接話法における従節の時制は主節の時制に一致させることから「was」に変更する必要があることが分かる。翻訳メモリ適用部5は、これらを変化させた訳文とする。これにより、「あいつは、おなかと背中がくっつきそうだと言った。」の訳文は「He said he was hungry.」となり、正しい訳文を得られる。
【0026】
また、「これは、彼の本ですか」という原文に対し、「Is this his book」という訳文が翻訳メモリDBに登録されており、「あなたは、これは、彼の本ですかと言った」という文B1を翻訳する場合、従来であると、「You said Is this his book.」という誤った翻訳となってしまう。
【0027】
これに対し、本発明の実施の形態では、翻訳メモリ4のデータベースDBの適用が節の内部であること、主節の時制が過去であることから、翻訳メモリ適用部5は、「適用部の先頭は小文字にする」、「間接疑問文は直接疑問文と語順が異なる」という知識を使用し、「You said if this was his book.」という翻訳結果を得る。
【0028】
このように、翻訳メモリのデータが訳文の文全体として整合するように翻訳メモリデータの一部を変化させるので、翻訳精度を向上させることができる。なお、以上の説明では、日英翻訳の場合を例にとり説明したが、それ以外の言語の対でも同様に適用できる。
【0029】
例えば、英日翻訳の場合には、人称、時制、文末に加え、語尾活用や文体も変化させる。たとえば、「It rains cats and dots」という原文に対し、「土砂降りの雨が降ります。」という訳文が翻訳メモリDBに登録されており、「If it rains cats and dogs, we will stay home.」という文を翻訳する場合、従来であると「土砂降りの雨が降ります。ならば、私たちは家にいます。」などと訳されてしまうが、翻訳メモリDBに登録されているデータが丁寧体(連用形)であること、句点を含んでいることから、翻訳メモリ適用部は、「語尾を活用させる」、「文中の句点は削除する」という知識を使用して、「土砂降りの雨が降れば、私たちは家にいます。」と適切な翻訳結果を得ることができる。
【図面の簡単な説明】
【0030】
【図1】本発明の実施の形態に係わる機械翻訳システムの構成図
【図2】本発明の実施の形態に係わる機械翻訳システムの動作の一例を示すフローチャート。
【符号の説明】
【0031】
1…入力部、2…表示部、3…翻訳部、4…翻訳メモリ、5…翻訳メモリ適用部、6…制御部

【特許請求の範囲】
【請求項1】
第一言語の構文を解析して第二言語に翻訳する翻訳部と、第一言語の原文と第二の言語の訳文とを文単位で対にしたデータを記録する翻訳メモリと、訳文される第二の言語の一部に対し前記翻訳メモリに記録されたデータを適用できるか否かを判断する制御部と、前記制御部で前記翻訳メモリに記録されたデータを適用すると判断された場合に前記翻訳メモリのデータが訳文の文全体として整合するように前記翻訳メモリのデータの一部を変化させて翻訳する翻訳メモリ適用部とを備えたことを特徴とする機械翻訳システム。
【請求項2】
前記翻訳メモリ適用部は、少なくとも前記翻訳メモリデータの人称と時制とを訳文の文全体として整合するように変化させることを特徴とする請求項1記載の機械翻訳システム。
【請求項3】
前記翻訳メモリ適用部は、前記翻訳メモリデータの人称と時制とに加え、語尾活用や文体も訳文の文全体として整合するように変化させることを特徴とする請求項2記載の機械翻訳システム。

【図1】
image rotate

【図2】
image rotate


【公開番号】特開2007−316701(P2007−316701A)
【公開日】平成19年12月6日(2007.12.6)
【国際特許分類】
【出願番号】特願2006−142448(P2006−142448)
【出願日】平成18年5月23日(2006.5.23)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】