説明

翻訳メモリ翻訳装置および翻訳プログラム

【課題】 従来の翻訳メモリ翻訳装置を改良し、翻訳カバー率を向上させた翻訳メモリ翻訳装置を提供する。
【解決手段】 翻訳メモリ翻訳装置100は、例文対訳辞書128を参照し、入力文と完全に一致する第1言語の例文を検索する検索手段と、検索手段により一致する例文が検索されないとき、入力文と第1言語の例文との差分に基づき入力文に類似する第1言語の例文候補を選択する例文選択部142と、例文候補の対訳となる第2言語の例文の中から差分に対応する文字列を識別し、入力文と第2言語の例文の対応関係を求める単語アライメント部144と、識別された文字列を差分に基づき変換することで入力文の第2言語の訳文を生成する訳文生成部148とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例文対訳辞書を利用した翻訳メモリ翻訳装置および翻訳プログラムに関する。
【背景技術】
【0002】
機械翻訳は、計算機を利用してある言語から別の言語に変換することであり、こうした研究開発は半世紀をかけて世界中で行われている。機械翻訳方式は、1)解析ベース機械翻訳方式、2)統計ベース機械翻訳方式、3)例文ベース機械翻訳方式に大別することができる。
【0003】
解析ベース機械翻訳方式は、第1言語の解析(形態素解析、構文・意味解析など)を行い、解析の結果を第2言語に変換し、さらに第2言語の訳文を生成する技術である。自然言語の解析技術は、まだ未熟な技術であるため、解析ベース機械翻訳方式の実用化に限界がある。さらに、学習することができないため、翻訳エンジンの改善・改良が困難になるという短所を有している。
【0004】
統計ベース機械翻訳方式は、言語モデルと統計モデルを用いて翻訳モデルを構築する技術である。この方式は、各モデルの構成に必要な学習データ(コーパス)が限られているので実用化が限定的である。
【0005】
例文ベース機械翻訳方式は、人間が外国語を勉強するメカニズムを真似して、既に学習した翻訳例文を参考にして新しい文書を翻訳することである。1980年代にこの翻訳方式が提案され、その後、盛んに研究開発が行われている。例文ベース機械翻訳技術には、参照される対訳例文パターンの定義及び類似例文の参照方法により、翻訳メモリ翻訳技術、単語アライメント付きの対訳例文を用いた翻訳技術、文のパターンを用いた翻訳技術などがある。
【0006】
図1は、例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。機械翻訳システム10は、より簡単な翻訳からより複雑な翻訳へ移行するように構成され、翻訳の高速化を図っている。また、機械翻訳システム10は、翻訳することができない部分を自動的に回収し、正確な対訳を付与する学習機能を備えている。
【0007】
機械翻訳システム10は、原言語テキスト文入力部12から入力された文単位の文を翻訳する翻訳メモリ翻訳装置14、翻訳メモリ翻訳装置14において照合できなかった入力文、つまり不適切とされた入力文を入力し,これの形態素解析された単語列を翻訳する例文パターンベース翻訳装置16と、例文パターンベース翻訳装置16で翻訳できなかった入力文を不適切な文としてその形態素解析の結果単語列を入力し、この単語列を翻訳する単語直訳翻訳装置18と、上記の翻訳装置によって適切に翻訳された結果に基づき目的言語のテキスト文を作成しこれを出力する目的言語テキスト出力部20とを有している。
【0008】
さらに機械翻訳システム10は、例文パターンベース翻訳装置16によって翻訳することができなかった文を回収し、回収された文に適切な翻訳を作成する翻訳不適切文自動回収部22と、翻訳不適切文自動回収部22により作成された翻訳のチェックや修正を行う学習装置24と、翻訳辞書26とを備えている。翻訳辞書26は、第1の言語の単語とその対訳である第2の言語の単語を格納する単語対訳辞書26a、第1の言語の例文とその対訳である第2の言語の例文を格納する例文対訳辞書26b、第1の言語の例文パターンとその対訳である第2の言語の例文パターンを格納する例文パターン対訳辞書26cを含んでいる。翻訳辞書26は、翻訳メモリ翻訳装置14、例文パターンベース翻訳装置16、単語直訳翻訳装置18において利用される。なお、図1の機械翻訳システムは、一つの構成例であって、さらに他の翻訳エンジンを含むものもある。
【0009】
図2は、図1に示す翻訳メモリ翻訳装置の概略を説明する図である。例文対訳辞書26bには、第1言語の例文と当該第1の例文の対訳となる第2言語の例文が記憶されている。図の例では、日本語の例文と中国語の例文のペアを示している。例えば、図2に示すような中国語の文CNが入力されると、例文検索部14aは、例文対訳辞書26bを参照し、例文CNに完全に一致する中国語の例文が存在するか否かを検索する。完全に一致する中国語の例文が検索されれば、そのペアである日本語の例文の対訳JPを出力する。例文の検索は、文字インデックス法やハッシュ値による検索に加えて、N-gram法による検索を用いることができる。
【0010】
図3は、図1に示す例文パターンベース翻訳装置16を説明する図であり、ここでは、単語アライメント例文対訳辞書を用いた例文ベース翻訳装置を示している。この例文ベース翻訳装置は、単語アライメント例文対訳辞書を用いて翻訳を行うものであり、入力文とよく似ている例文を高精度に翻訳することを特徴とする。同図に示すように、中国語の入力文が形態素解析され、単語アライメント例文対訳辞書から類似な例文を検索する。そして、類似例文の情報を抽出する。入力文と例文の違い、対応関係を算出し、単語対訳辞書を用いて日本語の訳文を生成する。
【0011】
このような翻訳に関連する文献が幾つか報告されている。特許文献1は、原文とそれに対応する訳文の組から構成される翻訳テーブルを用意し、新規文書の文を翻訳テーブルを構成する原文と比較して一致する原文、または類似する原文に対応する訳文を開示している。特許文献2は、旧原文と旧訳文とを用意して対応付けをし、旧原文と新原文を比較して差分が少ない場合には対応する旧訳文を提示することを開示している。特許文献3は、単語と訳語間の対応関係、句とその訳文関の対応関係が付与された例文対訳辞書を用いて翻訳を行うことを開示している。特許文献4は、原文を構文単位に分割してからマッチングを行う方法を開示し、特許文献5は、単語アライメント例文対訳辞書を使用する技術を開示している。非特許文献1は、編集距離を用いて、入力文と例文対訳辞書の例文とマンチングし、例文とその例文の訳文間の対応関係(単語アライメント)は従来の自動単語アライメント技術を採用する方法を開示している。
【0012】
【特許文献1】特開平7−160720号公報
【特許文献2】特開平8−297675号公報
【特許文献3】特開平10−116286号公報
【特許文献4】特開平10−21243号公報
【特許文献5】特開2006−12168号公報
【非特許文献1】土居著、「編集距離をもちいた用例翻訳の高速検索方式と翻訳性能評価」、情報処理学会誌論文、Vol 45, No.6, P1681-1695, June. 2004
【発明の開示】
【発明が解決しようとする課題】
【0013】
図2に示すように、従来の翻訳メモリ翻訳装置では、例文対訳辞書に、入力文と完全にマッチングした例文が存在しないと、正確な訳文を得ることができず、そのとき、類似な訳文情報しか得ることができないので、類似訳文情報を参考して人工で訳文を作成しなければならない。つまり、翻訳メモリ翻訳装置の翻訳カバー率は、大きく例文対訳辞書の規模に依存してしまうという欠点がある。
【0014】
また、図3に示すように、単語アライメント例文対訳辞書を用いた例文ベース翻訳装置の場合には、翻訳メモリ翻訳装置が翻訳できない例文を翻訳することが可能であるが、そのためには、単語アライメント例文対訳辞書を構築しなければならず、その構築には莫大の時間とコストがかかるため、大規模な辞書を作成するのは難しいという課題がある。
【0015】
さらに翻訳支援システムを使用する翻訳業務において、翻訳メモリ翻訳装置による自動翻訳範囲は狭いため、翻訳業務の作業時間の短縮を十分に図ることができず、翻訳業務のコストを削減することができない。
【0016】
本発明は、このような従来の課題を解決するものであり、従来の翻訳メモリ翻訳装置を改良し、翻訳カバー率を向上させた翻訳メモリ翻訳装置および翻訳プログラムを提供することを目的とする。
さらに本発明は、例文対訳辞書を利用して完全に照合しない入力文であっても精度良く翻訳することができる翻訳メモリ翻訳装置および翻訳プログラムを提供することを目的とする。
【課題を解決するための手段】
【0017】
本発明に係る翻訳メモリ翻訳装置は、第1言語の入力文を入力する入力手段と、第1言語の例文と当該第1の例文の対訳となる第2言語の例文を記憶する例文対訳辞書と、前記例文対訳辞書を参照し、前記入力文と完全に一致する第1言語の例文を検索する検索手段と、前記検索手段により一致する例文が検索されないとき、前記入力文と第1言語の例文との差分に基づき前記入力文に類似する第1言語の例文候補を選択する例文候補選択手段と、前記例文候補の対訳となる第2言語の例文の中から前記差分に対応する文字列を識別し、前記入力文と第2言語の例文の対応関係を求める手段と、前記識別された文字列を前記差分に基づき変換することで前記入力文の第2言語の訳文を生成する生成手段とを有する
【0018】
好ましくは前記例文候補選択手段は、前記入力文の文字列と第1言語の例文の文字列間の編集距離が最小となる変換写像を行うことにより前記差分を求める。好ましくは前記差分は、前記入力文の文字列と第1言語の例文の文字列の置換および第1言語の例文の文字列の挿入の少なくとも一方を含む。好ましくは前記例文候補選択手段は、前記置換、および前記挿入の数が予め決められた条件を満足する例文を例文候補として選択する。好ましくは前記生成手段は、前記差分が置換であるとき、前記識別された文字列を対応する第2言語の文字列に変換し、前記差分が挿入であるとき、前記識別された文字列を削除する変換を行う。好ましくは前記入力手段は、入力文を複数の文字列に形態素解析する解析手段を含む。
【0019】
本発明に係る翻訳プログラムは、第1言語の例文と当該第1の例文の対訳となる第2の言語の例文を記憶する例文対訳辞書を参照して訳文を生成する翻訳メモリ翻訳装置が実行するものであって、第1言語の入力文と一致する第1言語の例文が前記例文対訳辞書に含まれているか否かを検索し、一致する例文が含まれていないとき、前記入力文と第1言語の例文との差分に基づき前記入力文に類似する第1言語の例文候補を選択するステップと、前記例文候補の対訳となる第2言語の例文の中から前記差分に対応する文字列を識別し、前記入力文と第2言語の例文の対応関係を求めるステップと、前記識別された文字列を前記差分に基づき変換することで前記入力文の第2言語の訳文を生成するステップとを有する。
【発明の効果】
【0020】
本発明によれば、例文対訳辞書から入力文に類似する例文候補を選択し、入力文と例文候補との対応関係から例文候補の対訳を変換して訳文を生成するようにしたので、例文に完全一致しない入力文であっても翻訳を行うことができ、翻訳メモリ翻訳装置の翻訳カバー率を向上させることができる。さらに、単語アライメント例文対訳辞書を利用しないため、その構築が不要である。
【発明を実施するための最良の形態】
【0021】
本発明を実施するための最良の形態を図に示す実施例を参照して説明する。
【実施例】
【0022】
本発明の実施例は、図1に示した機械翻訳システム10に用いられる翻訳メモリ翻訳装置14を改良するものであり、従来の翻訳メモリ翻訳装置が自動的に翻訳できない文に対して、翻訳を可能にすることにより、翻訳メモリ翻訳装置の翻訳カバー率を向上させる。
【0023】
図4は、本実施例の翻訳メモリ翻訳装置の概要を示す図である。本実施例の翻訳メモリ翻訳装置100では、原言語テキスト文(入力文)102を従来の翻訳メモリ翻訳部102が翻訳可能なら、目的言語テキスト文(訳文)112を出力して終了する。他方、入力文が完全一致せずに翻訳することができない場合は、形態素解析部16が入力文を形態素解析し、例文ベース翻訳部108は、入力文と例文間のわずかな差異の場合は、入力文を高精度に翻訳する。入力文と例文間の差異が大きい場合は、従来の翻訳メモリ翻訳装置で得られた参考訳文情報110を出力する。
【0024】
次に、図4に示す例文ベース翻訳部の原理を図5に示す。例文ベース翻訳部108は、入力文Sを入力し、2つの写像変換F1、F2を行う翻訳モデル部120と、単語/チャンク対訳辞書124を用いて訳文Gを生成する生成モデル部122とを含んでいる。
【0025】
翻訳モデル部: T(S,G)。ここで、S=s1s2…snは、原言語の入力文であり、G=g1g2…gmは、Sの目的言語の訳文であり、si(1<=i<=n)とgj(1=<j<=m)は単語である。特例として、n=1、 m=1の場合は、T(S,G)=T(s1,g1)であり、これは、単語間の翻訳である。
【0026】
変換写像F1: 同じ言語において、文Sから文Aに変換する写像。つまり、最小なコストで文Sから文Aに変換する(或いは,文Aから文Sまでに変換する)モデルである。ここで、文Sと文A間の単語文字列間の編集距離で変換を実現する。これを、F1(S,A)で表す。好ましくは、文Sの単語文字列から文Aの単語文字列間の写像変換を行うが、このとき、文Sの単語文字列から文Aの単語文字列へ置換され、或いは、文Sの単語文字列の写像できない文字列(単語)が脱落し、或いは、文Aの写像できない文字列(単語)の挿入が生じる。
【0027】
変換写像F2: 原言語の文Aから、目的言語の文Bへの変換モデルであり、F2(A,B)で表す。ここでの変換は、単語(フェース/Chunk)単位で変換する。変換モデルF2は、事前に準備され、例文対訳辞書に格納しているケースもあるし、単語アライメント技術を用いて、動的にF2を生成するケースもある。本実施例の好ましい例では、変換写像F1には、ただ一つの重みが非ゼロの置換操作、或いは、ただ一つの挿入操作がある場合は、原言語の文Aに重み非ゼロの置換操作の単語、或いは挿入した単語Wを注目して,Wから目的言語の文Bへの対応関係を求める変換を行い、ここでの変換は、単語単位で変換する。
【0028】
このような変換モデルF1とF2を用いて、原言語の文Sから目的言語の文Bへの変換F(S,G)を求め、生成モデル部122は、F(S,G)及び対訳辞書124や翻訳メモリ翻訳エンジンを用いて訳文Gを求める。
【0029】
図6は、本実施例の翻訳メモリ翻訳装置の構成の一例を示すブロック図である。翻訳メモリ翻訳装置100は、原言語形態素解析部106、例文ベース翻訳部108、単語対訳辞書124、例文対訳辞書128、類似例文候補記憶部130を含む。なお、破線で示したブロック132は、従来の翻訳メモリ翻訳部を示しており、従来の翻訳メモリ翻訳部132は、完全にマッチングする例文が検索できなかった場合には、入力文に類似する例文の参考訳文を出力するが、本実施例の例文ベース翻訳部108は、入力文に類似する例文が一定の条件を満足するとき、その訳文を高精度に翻訳して出力する機能を有する。
【0030】
翻訳メモリ翻訳部132は、例えば図19に示すように、ハッシュ(Hash)インデックス検索部132aは、第1言語の入力文が入力されたとき、入力文のハッシュ値を生成し、入力文のハッシュ値と完全にマッチングする第1言語の例文のハッシュ値を、例文対訳辞書26bから検索し、対訳例文を抽出する。ハッシュインデックス検索部132aにより入力文と完全にマッチングする例文を検索することができない場合、N-gramインデックス検索部132bは、入力文からN-gramを生成し、生成されたN-Gram文字列を用いて、例文対訳辞書26bから類似する第1言語の例文候補を検索し、その対訳例文を抽出する。このN-gramを利用した翻訳メモリ翻訳装置は、本発明者により特開2008−65395号公報に開示されている。また、類似する例文の検索方法は、これ以外の公知の方法を用いることも可能である。
【0031】
原言語形態素解析部106は、入力された原言語文を構成する単語を切り分け、単語の品詞を付与する。形態素解析の技術は、広く知られているが、例えば、日本語の形態素解析技術であればChasen、中国語形態素解析技術であれば、清華大学のSeg and POSツールや中国東北大学のCiPosSDKツールを用いることができる。図7は、中国語の形態素解析の例と、日本語の形態素解析の例を示している。
【0032】
類似例文候補記憶部130は、例文対訳辞書128において、入力文と類似する例文の候補を記憶する。
【0033】
例文ベース翻訳部108は、第1のマッチング変換部140、例文選択部142、単語アライメント部144、第2のマッチング変換部146、訳文生成部148を含んでいる。
【0034】
第1のマッチング変換部140は、入力文と従来の翻訳メモリ翻訳部132が抽出した類似例文候補間の編集距離を求め、最小な距離値を決める入力文と例文候補間の変換写像F1を求める。ここで、最小な距離値を与える例文候補が複数の場合があるし、最小な距離値を決める入力文と例文候補間の変換写像が複数の場合もある。
【0035】
例文選択部142は、入力文と例文候補間の変換写像を用いて例文を選択する。本実施例の好ましい選択ルールは、入力文と例文候補間の変換写像には、ただ一つの重みが非ゼロの文字列(または単語)の置換操作、或いは、ただ一つの文字列(または単語)の挿入操作の場合は、該例文候補を選択する。ない場合は、選択を終了する。
【0036】
例文選択部142で選択された例文に対して、第1のマッチング変換部140で求められた入力文と選択された例文間の変換写像F1には、ただ一つの重みが非ゼロの置換操作、或いは、ただ一つの挿入操作がある。単語アライメント部144は、置換重みが非ゼロ(すなわち、入力文と例文間に差分が生じる置換)の選択した例文の単語W、或いは、挿入された単語Wに対して、選択した例文の訳文の中からWの訳文を求め、単語Wと単語Wの訳文間の関係を、単語Wから例文の訳文間の変換写像と呼ぶ。
【0037】
第2のマッチング変換部146は、第1のマッチング変換部140で求められた入力文と例文間の変換写像と、単語アライメント部144で得られた単語から例文の訳文間の変換写像を用いて、入力文と例文の訳文の間の変換写像F2を求める。
【0038】
訳文生成部148は、入力文と例文の訳文の間の変換写像、単語/Chunk対訳辞書124を用いて、入力文の訳文を生成し、これを出力する。
【0039】
図8に、第1のマッチング変換部140と例文選択部142の処理動作を示す。第1のマッチング変換部140は、類似例文候補130から類似例文候補Aを読み出し(ステップS101)、次に、入力文と例文候補Aとの間の編集距離を計算する(ステップS102)。
【0040】
次に、第1のマッチング変換部140は、入力文と例文候補間の非ゼロの置換操作の数が1よりも大きいか否かを判定し(ステップS103)、大きければ、次の類似例文候補記憶部130に他の例文候補があるか否かを判定し、ある場合には、他の例文候補を読出し、編集距離を計算する。他の例文候補がなければ、処理は終了される。
【0041】
第1のマッチング変換部140による変換写像F1は、同じ言語において、文A=a1a2…anからB=b1b2…bmへの変換写像である。つまり、最小なコストで、文Aから文Bに変換する(或いは、文Bから文Aまでに変換する)モデルである。ここでは、文Aと文B間の単語文字列間の編集距離で変換を実現し、これをF1(A,B)で表し、ai(1<=i<=n)とbj(1=<j<=m)は単語である。また、重みweiの計算は次式で行われる。
【0042】
【数1】

【0043】
入力文と例文候補間の「非ゼロの置換操作の数が1よりも大きくない場合には、例文選択部142は、重みが非ゼロの置換操作の数が=0、かつ挿入操作の数が1よりも大きくない、あるいは重みが非ゼロの置換操作の数が=1、かつ挿入操作の数が=0を判定する(ステップS105)。この判定を満足する場合には、他の例文候補の読込が行われ(ステップS104)、満足しないとき、例文選択部142は、入力文と例文候補A間の写像を求める(ステップS106)。
【0044】
図9は、第1のマッチング変換部と例文選択部の具体的な処理例を示している。同図において、Sは入力文であり、入力文Sと類似する3組の例文候補(A1,B1((A2,B2)(A3,B3)が類似例文候補記憶部130に記憶されている。図9には、入力文Sと例文候補A1の変換写像が示されており、入力文Sと例文候補A1の編集距離は3Pであり、マッチングF1(S,A1)={(1,1)、(2,2)、(3,3)、(4,4)、(5,5)、(6,6)、(7,7)、(8,8)、(9,9)}となる。文字列(または単語)の置換操作が9個あり、そのうち、重みが非ゼロの置換が(1,1)、(3,3)、(7,7)であり、すなわち、貴社<->貴方、本社<->会社、国名<->地名である。重みが非ゼロの置換の数は3つがあるので、この例文は、選択使用されない。
【0045】
図10には、入力文Sと例文候補A2の変換写像の例が示されており、入力文Sと例文候補A2間の編集距離はPであり、マッチングF1(S,A2)={(1,1)、(2,2)、(3,3)、(4,4)、(5,5)、(6,6)、(7,7)、(8,8)、(9,9)}となる。置換操作が9個あり、そのうち、重みが非ゼロの置換が(3,3)であり、すなわち、本社<->事業所である、重みが非ゼロの置換の数が1つしかないので、この例文が選択される。選択ルールを満足する例文候補が見つかった場合には、他の候補の編集距離を計算しなくてもよい。
【0046】
次に、単語アライメント部の処理動作を図11のフローに示す。先ず、ステップS201に示すように、例文選択部142で選択された対訳例文を(A,B)とすし、第1のマッチング変換部140で求められた入力文Sと例文候補Aの間の変換写像F1(S,A)に対して、例文Aに置換重みが非ゼロの単語、或いは挿入した単語をwとする。また、訳文Bの単語列をB=b1 b2 … bkとする。
【0047】
次に、単語アライメント部144は、確信度Sim(w,bj)j=1,2,…kを計算する(ステップS202)。そして、最大の確信度Sim(w,bm)を与えるBの文字列bm,bm+1, …,bm+sを求め,wがBの文字列bm bm+1 … bm+sに対応していることを求める(ステップS203)。確信度は、例えば次式によって計算することができる。
【0048】
【数2】

【0049】
上記式の辞書類似度SimDにおいて、例文CSの任意の単語c、単語対訳辞書の中に、cの訳語の集合をDTcとする。訳文JSの任意の単語jに対して、もし、j∈DTcならば、SimD(c,j)=1であり、訳文JSの任意の連続しているn個の単語j、単語j+1,...単語j+n-1に対して、もし、文字列 ”単語j 単語j+1...単語j+n-1”∈DTcならば、SimD(c,j)=1である。
【0050】
上記式の形状類似度SimMにおいて、例文CSのSim(c,j)≠1の各単語cについて、訳文JSのSim(w,j)≠1の任意の単語に対して、次の公式で信用度を計算する。ここで、例文は中国語、訳文は日本語の場合(或いは、例文は日本語、訳文は中国語の場合)、訳文JSに日本語の漢字を含む、かつ、対応してうる中国語の簡体字があれば、その漢字を中国語の簡体字に変換してから、SimM(c,j)を計算する。勿論、中国語の漢字を日本語の漢字に変換してからSimM(c,j)を計算してもよい。また、繁体字の中国語に対して、同じ方法で処理することもできる。
【0051】
上記式の意味類似度SimSにおいて、例文CSのSim(c,j)≠1の各単語cについて、単語対訳辞書の中に、cの訳語の集合をDTcとする。訳文JSのSim(w,j)≠1の任意の単語に対して、次の公式で信用度を計算する。品詞類似度SimPは、品詞間の類似度SimP(c,j)を計算する方法であり、品詞集合を言語知識によって幾つかのグルーブに分類する。cの品詞が属している品詞類とjの品詞が属している品詞類が同じであれば、POS(c,j)=1,その他の場合にはPOS(c,j)=0とする。勿論、以下の数3に示すような公開された任意の方法でPOS(c,j)を求めることもできる。
【0052】
【数3】

【0053】
Distance(e,j)或いはSimilarity(e,j)の計算方法、すなわち、公開された単語間の距離或いは類似度を求める任意の方法を使用してもよい。例えば,シソーラスを用いた方法、統計技術を用いた方法である。この計算方法を、以下の数4および数5に示す。
【0054】
【数4】

【0055】
【数5】

【0056】
さらに上記数2の式でs示した相関度Ass(w.b)は、次のようにして求められる。
例文CSのSim(c,j)≠1の各単語cについて、訳文JSのSim(w,j)≠1の任意の単語jに対して、単語と訳語間の相関度Assを計算する。
【0057】
相関度の計算において、パラメーターa,b,c,dを次のように定義する。例文対訳辞書からすべでの単語と訳語間のパラメーターa,b,c,dを求めることが可能である。まず、すべての例文にある単語とすべての訳文にある訳語の出現頻度frep(c), freq(j)を求める。続いて、各例文にある単語cと各訳文にある訳語j間の共起出現頻度freq(c,j)を求める。最後に、次に示す数6の公式でパラメーターa,b,c,dを求める。
【0058】
【数6】

【0059】
また、相関度Assは、他の方法を用いても良い。例えば、数7に示すように、X2相関度、Dice係数相関度、相互情報量、T-scoreなどを使用してもよいし、勿論、他の公開された任意の相関度を使用してもよい。
【0060】
【数7】

【0061】
図12は、単語アライメント部の具体的な処理例を示している。図10に示したように、例文選択部142によって例文候補A2が選択された場合、F1(S,A2)に置換重みが非ゼロのA2の単語は“事業所”である。例文候補A2の訳文B2の単語列が図示されている。ここで、例文候補A2の単語“事業所”と訳文B2を構成する各単語間の対応確信度Sim(w,b)を求める。Sim(w,b) = 1、一番大きいので、A2の単語“事業所”がB2の単語b5に対応していることが判明した。つまり、F2(A2,B2)= {(3,5)}である。
【0062】
図13は、第2のマッチング変換部の処理フローを示す図である。第2のマッチング変換部146は、F1(S,A)とF2(A,B)を用いて、原言語の入力文Sから例文の訳文Bへの変換F(S,B)を求める。先ず、ステップS301に示すように、入力文から例文選択部142で選択した対訳例文A間の変換写像をF1(S,A)={…(i,j)…}とする。ここで、siがajに置換しており、かつ置換重みが非ゼロである。或いは、F1(S,A)={…(0,j)…}とすし、ここで、ajが写像できなく、挿入された。
【0063】
次に、第2のマッチング変換部146は、確信度Sim(aj,bs) s=1,2,…kを計算し(ステップS302)、最大の確信度Sim(aj,bm)を与えるBの文字列bm bm+1 … bm+tを求め、F2(A,B)={(j:m,m+1,…,m+t)}を得る(ステップS303)。そして、F(S,B)={…(i,j)…}のとき,F(S,B)={ (i,m,m+1,…,m+t) }、F(S,B)={…(0,j)…}のとき,F(S,B)={ (0,m,m+1,…,m+t) }の変換を行う(ステップS304)
【0064】
図14は、入力文と例文候補の訳文間の写像変換の例を示している。入力文Sの文字列s1、s2、s3、s4、s5は、同じ言語の例文候補Aの文字列a1、a2、a3、a4、a5に写像変換される。変換写像は、F1(S,A)={ (1:1)、(2:0)、(3:3)、(4:4)、(5:5) }となる。ここで、s3とa3は、非ゼロの置換である。アライメント部により、例文候補Aの文字列a3とその訳文Bの文字列b4,b5の対応関係が求められる。変換写像は、F2(A,B)= { (3:4,5) }となる。そして、第2のマッチング変換部により、入力文Sと訳文Bの写像変換が行われ、F(S,B)= { (3:4,5) }となる。
【0065】
図15は、図10において、例文候補A2が選択されたときの写像変換の具体例を示している。つまり、F1(S,A2)={(1,1)、(2,2)、(3,3)、(4,4)、(5,5)、(6,6)、(7,7)、(8,8)、(9,9)}であり、F2(A2,B2)= {(3,5)}であり、最終的にF(S,A2)={(3,5)}となる。
【0066】
訳文生成部148は、変換写像F(S,B)、単語対訳辞書124を用いて、原言語入力文Sから目的言語の訳文Gを求める。ステップS401に示すように、F(S,B)={…(i,j)…}のとき、F(S,B)={ (i,m,m+1,…,m+t) }のとき、単語対訳辞書124を用いてsiの訳語vを求め、Bの単語列にbm,bm+1,…,bm+t部分文字列をvで切り替え、入力文Sの訳文Gとする。
【0067】
F(S,B)={…(0,j)…}のとき、F(S,B)={ (0,m,m+1,…,m+t) }のとき、Bの単語列からbm,bm+1,…,bm+t部分文字列を削除して、入力文Sの訳文Gとする(ステップS402)。
【0068】
訳語の選択方法は、単語と品詞を用いて、単語対訳辞書を調べる。一つしかない場合は、それを採用する。複数がある場合は,統計言語モデルを用いて選択する。あるいは語彙体系情報を用いて選択する。
【0069】
図16は、図15において入力文Sから訳文Bへの変換写像から訳文を生成した例を示している。
【0070】
図17は、入力文Sと類似する例文候補において文字列(または単語)が挿入する具体例を示している。ここでは、変換写像F1(S,A2)={(1,1)、(2,2)、(3,3)、(4,4)、(5,5)、(6,6)、(7,7)、(8,8)、(9,9)}、変換写像F2(A2,B2) = {(3,5)} により、変換写像F(S,A2)={(3,5)}を得ている。先ず、変換写像F1(S,A2)において、例文A2にある単語「日本」が挿入する。次の変換写像F2(A2,B2)において、訳文B2の中に、例文A2の単語「日本」に対応している単語「日本」を求める。そして、変換写像F(S,A2)={(3,5)}において、訳文B2の中に,例文A2の単語「日本」に対応している単語「日本」を削除して、訳文を生成する。
【0071】
図18は、翻訳メモリ翻訳装置の一ハードウエア構成を示すブロック図である。翻訳メモリ翻訳装置は、好ましくは、入力装置700、表示装置702、主記憶装置704、記憶装置706、中央処理装置(CPU)708、これらを接続するバス710を含んで構成される。
【0072】
入力装置700は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取るスキャナ、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。表示装置702は、ユーザの入力および翻訳結果等を表示するディスプレイ等を含む。主記憶装置704は、ROMまたはRAMを含み、図4に示す各部の動作を制御するプログラムや演算処理されたデータ等を記憶する。記憶装置706は、例えばハードディスク等の大容量記憶装置を含み、例文対訳辞書などの各種辞書26、124等のデータを格納する。中央処理装置708は、主記憶装置704に記憶されたプログラムに従い各部を制御する。
【0073】
以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【0074】
例えば、上記実施例では、重みが非ゼロの置換が1つとなる例文候補を選択して訳文を生成する例を示したが、必ずしもこれに限らず、重みが非ゼロ置換は2つ、または3つ、あるいはそれ以上であってもよい。また、挿入の数も1つよりも大きくてもよい。置換や挿入の数が増えれば、それに応じて、翻訳の精度が低下する可能性はあるが、それを十分に考慮して翻訳システムに用いることができる。
【産業上の利用可能性】
【0075】
本発明に係る翻訳メモリ翻訳装置は、機械翻訳システムや翻訳支援システムにおいて利用される。
【図面の簡単な説明】
【0076】
【図1】例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。
【図2】図1に示す翻訳メモリ翻訳装置を説明する図である。
【図3】図1に示す例文パターンベース翻訳装置を説明する図である。
【図4】本発明の実施例に係る翻訳メモリ翻訳装置の概要を示す図である。
【図5】図4に示す例文ベース翻訳部の原理を説明する図である。
【図6】本実施例の翻訳メモリ翻訳装置の構成の一例を示すブロック図である。
【図7】中国語および日本語の形態素解析の例を示す図である。
【図8】図6の第1のマッチング変換部と例文選択部の処理動作ーを示す図である。
【図9】第1のマッチング変換部と例文選択部の具体的な処理例を示している
【図10】入力文Sと例文候補A2の変換写像の例を示す図である
【図11】単語アライメント部の処理フローを示す図である。
【図12】単語アライメント部の具体的な処理例を示す図である。
【図13】第2のマッチング変換部の処理フローを示す図である。
【図14】入力文と例文候補の訳文間の写像変換の例を示す図である。
【図15】図10において、例文候補A2が選択されたときの写像変換の具体的な処理例を示す図である。
【図16】図15において入力文Sから訳文Bへの変換写像から訳文を生成した例を示す図である。
【図17】入力文Sと類似する例文候補において文字列(または単語)が挿入する具体例を示す図である。
【図18】翻訳メモリ翻訳装置の一ハードウエア構成を示すブロック図である。
【図19】翻訳メモリ翻訳部の例を示す図である。
【符号の説明】
【0077】
10:機械翻訳システム 12:原言語テキスト文入力部
14:翻訳メモリ装置 16:例文パターンベース翻訳装置
18:単語直訳翻訳装置 20:目的言語テキスト出力部
22:翻訳不適切文自動回収部 24:学習装置
26c:例文パターン対訳辞書 26a:単語対訳辞書
26b:例文対訳辞書 26:形態素解析部
26:翻訳辞書 100:翻訳メモリ翻訳装置
106:形態素解析部 108:例文ベース翻訳部
120:翻訳モデル部 122:生成モデル部
124:単語/チャンク対訳辞書 140:第1のマッチング変換部
142:例文選択部 144:単語アライメント部
146:第2のマッチング変換部 148:訳文生成部
700:入力装置 702:表示装置
704:主記憶装置 706:記憶装置
708:中央処理装置(CPU) 710:バス

【特許請求の範囲】
【請求項1】
第1言語の入力文を入力する入力手段と、
第1言語の例文と当該第1の例文の対訳となる第2言語の例文を記憶する例文対訳辞書と、
前記例文対訳辞書を参照し、前記入力文と完全に一致する第1言語の例文を検索する検索手段と、
前記検索手段により一致する例文が検索されないとき、前記入力文と第1言語の例文との差分に基づき前記入力文に類似する第1言語の例文候補を選択する例文候補選択手段と、
前記例文候補の対訳となる第2言語の例文の中から前記差分に対応する文字列を識別し、前記入力文と第2言語の例文の対応関係を求める手段と、
前記識別された文字列を前記差分に基づき変換することで前記入力文の第2言語の訳文を生成する生成手段と、
を有する翻訳メモリ翻訳装置
【請求項2】
前記例文候補選択手段は、前記入力文の文字列と第1言語の例文の文字列間の編集距離が最小となる変換写像を行うことにより前記差分を求める、請求項1に記載の翻訳メモリ翻訳装置。
【請求項3】
前記差分は、前記入力文の文字列と第1言語の例文の文字列の重みが非ゼロの置換および第1言語の例文の文字列の挿入の少なくとも一方を含む、請求項2に記載の翻訳メモリ翻訳装置。
【請求項4】
前記例文候補選択手段は、前記置換、および前記挿入の数が予め決められた条件を満足する例文を例文候補として選択する、請求項3に記載の翻訳メモリ翻訳装置。
【請求項5】
前記生成手段は、前記差分が置換であるとき、前記識別された文字列を対応する第2言語の文字列に変換し、前記差分が挿入であるとき、前記識別された文字列を削除する変換を行う、請求項3に記載の翻訳メモリ翻訳装置。
【請求項6】
前記入力手段は、入力文を複数の文字列に形態素解析する解析手段を含む、請求項1に記載の翻訳メモリ翻訳装置。
【請求項7】
第1言語の例文と当該第1の例文の対訳となる第2の言語の例文を記憶する例文対訳辞書を参照して訳文を生成する翻訳メモリ翻訳装置が実行する翻訳プログラムであって、
第1言語の入力文と一致する第1言語の例文が前記例文対訳辞書に含まれているか否かを検索し、一致する例文が含まれていないとき、前記入力文と第1言語の例文との差分に基づき前記入力文に類似する第1言語の例文候補を選択するステップと、
前記例文候補の対訳となる第2言語の例文の中から前記差分に対応する文字列を識別し、前記入力文と第2言語の例文の対応関係を求めるステップと、
前記識別された文字列を前記差分に基づき変換することで前記入力文の第2言語の訳文を生成するステップと、
を有する翻訳プログラム。
【請求項8】
前記選択するステップは、前記入力文の文字列と第1言語の例文の文字列間の編集距離が最小となる変換写像を行うことにより前記差分を求める、請求項7に記載の翻訳プログラム。
【請求項9】
前記差分は、前記入力文の文字列と第1言語の例文の文字列の重みが非ゼロの置換および第1言語の例文の文字列の挿入の少なくとも一方を含む、請求項8に記載の翻訳プログラム。
【請求項10】
前記選択するステップは、前記置換および前記挿入の数が予め決められた条件を満足する例文を例文候補として選択する、請求項9に記載の翻訳プログラム。
【請求項11】
前記生成するステップは、前記差分が置換であるとき、前記識別された文字列を対応する第2言語の文字列に変換し、前記差分が挿入であるとき、前記識別された文字列を削除する変換を行う、請求項8に記載の翻訳プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2009−289219(P2009−289219A)
【公開日】平成21年12月10日(2009.12.10)
【国際特許分類】
【出願番号】特願2008−143939(P2008−143939)
【出願日】平成20年5月30日(2008.5.30)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】