翻訳メモリ翻訳装置および翻訳プログラム

【課題】従来の翻訳メモリ翻訳装置を改良し、翻訳カバー率を向上させた翻訳メモリ翻訳装置を提供する。
【解決手段】翻訳メモリ翻訳装置１００は、例文対訳辞書１２８を参照し、入力文と完全に一致する第１言語の例文を検索する検索手段と、検索手段により一致する例文が検索されないとき、入力文と第１言語の例文との差分に基づき入力文に類似する第１言語の例文候補を選択する例文選択部１４２と、例文候補の対訳となる第２言語の例文の中から差分に対応する文字列を識別し、入力文と第２言語の例文の対応関係を求める単語アライメント部１４４と、識別された文字列を差分に基づき変換することで入力文の第２言語の訳文を生成する訳文生成部１４８とを有する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、例文対訳辞書を利用した翻訳メモリ翻訳装置および翻訳プログラムに関する。
【背景技術】
【０００２】
機械翻訳は、計算機を利用してある言語から別の言語に変換することであり、こうした研究開発は半世紀をかけて世界中で行われている。機械翻訳方式は、１）解析ベース機械翻訳方式、２）統計ベース機械翻訳方式、３）例文ベース機械翻訳方式に大別することができる。
【０００３】
解析ベース機械翻訳方式は、第１言語の解析（形態素解析、構文・意味解析など）を行い、解析の結果を第２言語に変換し、さらに第２言語の訳文を生成する技術である。自然言語の解析技術は、まだ未熟な技術であるため、解析ベース機械翻訳方式の実用化に限界がある。さらに、学習することができないため、翻訳エンジンの改善・改良が困難になるという短所を有している。
【０００４】
統計ベース機械翻訳方式は、言語モデルと統計モデルを用いて翻訳モデルを構築する技術である。この方式は、各モデルの構成に必要な学習データ（コーパス）が限られているので実用化が限定的である。
【０００５】
例文ベース機械翻訳方式は、人間が外国語を勉強するメカニズムを真似して、既に学習した翻訳例文を参考にして新しい文書を翻訳することである。１９８０年代にこの翻訳方式が提案され、その後、盛んに研究開発が行われている。例文ベース機械翻訳技術には、参照される対訳例文パターンの定義及び類似例文の参照方法により、翻訳メモリ翻訳技術、単語アライメント付きの対訳例文を用いた翻訳技術、文のパターンを用いた翻訳技術などがある。
【０００６】
図１は、例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。機械翻訳システム１０は、より簡単な翻訳からより複雑な翻訳へ移行するように構成され、翻訳の高速化を図っている。また、機械翻訳システム１０は、翻訳することができない部分を自動的に回収し、正確な対訳を付与する学習機能を備えている。
【０００７】
機械翻訳システム１０は、原言語テキスト文入力部１２から入力された文単位の文を翻訳する翻訳メモリ翻訳装置１４、翻訳メモリ翻訳装置１４において照合できなかった入力文、つまり不適切とされた入力文を入力し，これの形態素解析された単語列を翻訳する例文パターンベース翻訳装置１６と、例文パターンベース翻訳装置１６で翻訳できなかった入力文を不適切な文としてその形態素解析の結果単語列を入力し、この単語列を翻訳する単語直訳翻訳装置１８と、上記の翻訳装置によって適切に翻訳された結果に基づき目的言語のテキスト文を作成しこれを出力する目的言語テキスト出力部２０とを有している。
【０００８】
さらに機械翻訳システム１０は、例文パターンベース翻訳装置１６によって翻訳することができなかった文を回収し、回収された文に適切な翻訳を作成する翻訳不適切文自動回収部２２と、翻訳不適切文自動回収部２２により作成された翻訳のチェックや修正を行う学習装置２４と、翻訳辞書２６とを備えている。翻訳辞書２６は、第１の言語の単語とその対訳である第２の言語の単語を格納する単語対訳辞書２６ａ、第１の言語の例文とその対訳である第２の言語の例文を格納する例文対訳辞書２６ｂ、第１の言語の例文パターンとその対訳である第２の言語の例文パターンを格納する例文パターン対訳辞書２６ｃを含んでいる。翻訳辞書２６は、翻訳メモリ翻訳装置１４、例文パターンベース翻訳装置１６、単語直訳翻訳装置１８において利用される。なお、図１の機械翻訳システムは、一つの構成例であって、さらに他の翻訳エンジンを含むものもある。
【０００９】
図２は、図１に示す翻訳メモリ翻訳装置の概略を説明する図である。例文対訳辞書２６ｂには、第１言語の例文と当該第１の例文の対訳となる第２言語の例文が記憶されている。図の例では、日本語の例文と中国語の例文のペアを示している。例えば、図２に示すような中国語の文ＣＮが入力されると、例文検索部１４ａは、例文対訳辞書２６ｂを参照し、例文ＣＮに完全に一致する中国語の例文が存在するか否かを検索する。完全に一致する中国語の例文が検索されれば、そのペアである日本語の例文の対訳ＪＰを出力する。例文の検索は、文字インデックス法やハッシュ値による検索に加えて、N-gram法による検索を用いることができる。
【００１０】
図３は、図１に示す例文パターンベース翻訳装置１６を説明する図であり、ここでは、単語アライメント例文対訳辞書を用いた例文ベース翻訳装置を示している。この例文ベース翻訳装置は、単語アライメント例文対訳辞書を用いて翻訳を行うものであり、入力文とよく似ている例文を高精度に翻訳することを特徴とする。同図に示すように、中国語の入力文が形態素解析され、単語アライメント例文対訳辞書から類似な例文を検索する。そして、類似例文の情報を抽出する。入力文と例文の違い、対応関係を算出し、単語対訳辞書を用いて日本語の訳文を生成する。
【００１１】
このような翻訳に関連する文献が幾つか報告されている。特許文献１は、原文とそれに対応する訳文の組から構成される翻訳テーブルを用意し、新規文書の文を翻訳テーブルを構成する原文と比較して一致する原文、または類似する原文に対応する訳文を開示している。特許文献２は、旧原文と旧訳文とを用意して対応付けをし、旧原文と新原文を比較して差分が少ない場合には対応する旧訳文を提示することを開示している。特許文献３は、単語と訳語間の対応関係、句とその訳文関の対応関係が付与された例文対訳辞書を用いて翻訳を行うことを開示している。特許文献４は、原文を構文単位に分割してからマッチングを行う方法を開示し、特許文献５は、単語アライメント例文対訳辞書を使用する技術を開示している。非特許文献１は、編集距離を用いて、入力文と例文対訳辞書の例文とマンチングし、例文とその例文の訳文間の対応関係（単語アライメント）は従来の自動単語アライメント技術を採用する方法を開示している。
【００１２】
【特許文献１】特開平７−１６０７２０号公報
【特許文献２】特開平８−２９７６７５号公報
【特許文献３】特開平１０−１１６２８６号公報
【特許文献４】特開平１０−２１２４３号公報
【特許文献５】特開２００６−１２１６８号公報
【非特許文献１】土居著、「編集距離をもちいた用例翻訳の高速検索方式と翻訳性能評価」、情報処理学会誌論文、Vol 45, No.6, P1681-1695, June. 2004
【発明の開示】
【発明が解決しようとする課題】
【００１３】
図２に示すように、従来の翻訳メモリ翻訳装置では、例文対訳辞書に、入力文と完全にマッチングした例文が存在しないと、正確な訳文を得ることができず、そのとき、類似な訳文情報しか得ることができないので、類似訳文情報を参考して人工で訳文を作成しなければならない。つまり、翻訳メモリ翻訳装置の翻訳カバー率は、大きく例文対訳辞書の規模に依存してしまうという欠点がある。
【００１４】
また、図３に示すように、単語アライメント例文対訳辞書を用いた例文ベース翻訳装置の場合には、翻訳メモリ翻訳装置が翻訳できない例文を翻訳することが可能であるが、そのためには、単語アライメント例文対訳辞書を構築しなければならず、その構築には莫大の時間とコストがかかるため、大規模な辞書を作成するのは難しいという課題がある。
【００１５】
さらに翻訳支援システムを使用する翻訳業務において、翻訳メモリ翻訳装置による自動翻訳範囲は狭いため、翻訳業務の作業時間の短縮を十分に図ることができず、翻訳業務のコストを削減することができない。
【００１６】
本発明は、このような従来の課題を解決するものであり、従来の翻訳メモリ翻訳装置を改良し、翻訳カバー率を向上させた翻訳メモリ翻訳装置および翻訳プログラムを提供することを目的とする。
さらに本発明は、例文対訳辞書を利用して完全に照合しない入力文であっても精度良く翻訳することができる翻訳メモリ翻訳装置および翻訳プログラムを提供することを目的とする。
【課題を解決するための手段】
【００１７】
本発明に係る翻訳メモリ翻訳装置は、第１言語の入力文を入力する入力手段と、第１言語の例文と当該第１の例文の対訳となる第２言語の例文を記憶する例文対訳辞書と、前記例文対訳辞書を参照し、前記入力文と完全に一致する第１言語の例文を検索する検索手段と、前記検索手段により一致する例文が検索されないとき、前記入力文と第１言語の例文との差分に基づき前記入力文に類似する第１言語の例文候補を選択する例文候補選択手段と、前記例文候補の対訳となる第２言語の例文の中から前記差分に対応する文字列を識別し、前記入力文と第２言語の例文の対応関係を求める手段と、前記識別された文字列を前記差分に基づき変換することで前記入力文の第２言語の訳文を生成する生成手段とを有する
【００１８】
好ましくは前記例文候補選択手段は、前記入力文の文字列と第１言語の例文の文字列間の編集距離が最小となる変換写像を行うことにより前記差分を求める。好ましくは前記差分は、前記入力文の文字列と第１言語の例文の文字列の置換および第１言語の例文の文字列の挿入の少なくとも一方を含む。好ましくは前記例文候補選択手段は、前記置換、および前記挿入の数が予め決められた条件を満足する例文を例文候補として選択する。好ましくは前記生成手段は、前記差分が置換であるとき、前記識別された文字列を対応する第２言語の文字列に変換し、前記差分が挿入であるとき、前記識別された文字列を削除する変換を行う。好ましくは前記入力手段は、入力文を複数の文字列に形態素解析する解析手段を含む。
【００１９】
本発明に係る翻訳プログラムは、第１言語の例文と当該第１の例文の対訳となる第２の言語の例文を記憶する例文対訳辞書を参照して訳文を生成する翻訳メモリ翻訳装置が実行するものであって、第１言語の入力文と一致する第１言語の例文が前記例文対訳辞書に含まれているか否かを検索し、一致する例文が含まれていないとき、前記入力文と第１言語の例文との差分に基づき前記入力文に類似する第１言語の例文候補を選択するステップと、前記例文候補の対訳となる第２言語の例文の中から前記差分に対応する文字列を識別し、前記入力文と第２言語の例文の対応関係を求めるステップと、前記識別された文字列を前記差分に基づき変換することで前記入力文の第２言語の訳文を生成するステップとを有する。
【発明の効果】
【００２０】
本発明によれば、例文対訳辞書から入力文に類似する例文候補を選択し、入力文と例文候補との対応関係から例文候補の対訳を変換して訳文を生成するようにしたので、例文に完全一致しない入力文であっても翻訳を行うことができ、翻訳メモリ翻訳装置の翻訳カバー率を向上させることができる。さらに、単語アライメント例文対訳辞書を利用しないため、その構築が不要である。
【発明を実施するための最良の形態】
【００２１】
本発明を実施するための最良の形態を図に示す実施例を参照して説明する。
【実施例】
【００２２】
本発明の実施例は、図１に示した機械翻訳システム１０に用いられる翻訳メモリ翻訳装置１４を改良するものであり、従来の翻訳メモリ翻訳装置が自動的に翻訳できない文に対して、翻訳を可能にすることにより、翻訳メモリ翻訳装置の翻訳カバー率を向上させる。
【００２３】
図４は、本実施例の翻訳メモリ翻訳装置の概要を示す図である。本実施例の翻訳メモリ翻訳装置１００では、原言語テキスト文（入力文）１０２を従来の翻訳メモリ翻訳部１０２が翻訳可能なら、目的言語テキスト文（訳文）１１２を出力して終了する。他方、入力文が完全一致せずに翻訳することができない場合は、形態素解析部１６が入力文を形態素解析し、例文ベース翻訳部１０８は、入力文と例文間のわずかな差異の場合は、入力文を高精度に翻訳する。入力文と例文間の差異が大きい場合は、従来の翻訳メモリ翻訳装置で得られた参考訳文情報１１０を出力する。
【００２４】
次に、図４に示す例文ベース翻訳部の原理を図５に示す。例文ベース翻訳部１０８は、入力文Ｓを入力し、２つの写像変換F1、F2を行う翻訳モデル部１２０と、単語／チャンク対訳辞書１２４を用いて訳文Ｇを生成する生成モデル部１２２とを含んでいる。
【００２５】
翻訳モデル部： T（S,G）。ここで、S=s1s2…snは、原言語の入力文であり、G=g1g2…gmは、Sの目的言語の訳文であり、si(1<=i<=n)とgj(1=<j<=m)は単語である。特例として、n=1、 m=1の場合は、T(S,G)=T(s1,g1)であり、これは、単語間の翻訳である。
【００２６】
変換写像F1：同じ言語において、文Sから文Aに変換する写像。つまり、最小なコストで文Sから文Aに変換する(或いは，文Aから文Sまでに変換する)モデルである。ここで、文Sと文A間の単語文字列間の編集距離で変換を実現する。これを、F1(S,A)で表す。好ましくは、文Sの単語文字列から文Aの単語文字列間の写像変換を行うが、このとき、文Sの単語文字列から文Aの単語文字列へ置換され、或いは、文Sの単語文字列の写像できない文字列（単語）が脱落し、或いは、文Aの写像できない文字列（単語）の挿入が生じる。
【００２７】
変換写像F2：原言語の文Aから、目的言語の文Bへの変換モデルであり、F2(A,B)で表す。ここでの変換は、単語(フェース/Chunk)単位で変換する。変換モデルF2は、事前に準備され、例文対訳辞書に格納しているケースもあるし、単語アライメント技術を用いて、動的にF2を生成するケースもある。本実施例の好ましい例では、変換写像F１には、ただ一つの重みが非ゼロの置換操作、或いは、ただ一つの挿入操作がある場合は、原言語の文Aに重み非ゼロの置換操作の単語、或いは挿入した単語Wを注目して，Wから目的言語の文Bへの対応関係を求める変換を行い、ここでの変換は、単語単位で変換する。
【００２８】
このような変換モデルF1とF2を用いて、原言語の文Sから目的言語の文Bへの変換F(S,G)を求め、生成モデル部１２２は、F(S,G)及び対訳辞書１２４や翻訳メモリ翻訳エンジンを用いて訳文Gを求める。
【００２９】
図６は、本実施例の翻訳メモリ翻訳装置の構成の一例を示すブロック図である。翻訳メモリ翻訳装置１００は、原言語形態素解析部１０６、例文ベース翻訳部１０８、単語対訳辞書１２４、例文対訳辞書１２８、類似例文候補記憶部１３０を含む。なお、破線で示したブロック１３２は、従来の翻訳メモリ翻訳部を示しており、従来の翻訳メモリ翻訳部１３２は、完全にマッチングする例文が検索できなかった場合には、入力文に類似する例文の参考訳文を出力するが、本実施例の例文ベース翻訳部１０８は、入力文に類似する例文が一定の条件を満足するとき、その訳文を高精度に翻訳して出力する機能を有する。
【００３０】
翻訳メモリ翻訳部１３２は、例えば図１９に示すように、ハッシュ（Hash）インデックス検索部１３２ａは、第１言語の入力文が入力されたとき、入力文のハッシュ値を生成し、入力文のハッシュ値と完全にマッチングする第１言語の例文のハッシュ値を、例文対訳辞書２６ｂから検索し、対訳例文を抽出する。ハッシュインデックス検索部１３２ａにより入力文と完全にマッチングする例文を検索することができない場合、N-gramインデックス検索部１３２ｂは、入力文からN-gramを生成し、生成されたN-Gram文字列を用いて、例文対訳辞書２６ｂから類似する第１言語の例文候補を検索し、その対訳例文を抽出する。このN-gramを利用した翻訳メモリ翻訳装置は、本発明者により特開２００８−６５３９５号公報に開示されている。また、類似する例文の検索方法は、これ以外の公知の方法を用いることも可能である。
【００３１】
原言語形態素解析部１０６は、入力された原言語文を構成する単語を切り分け、単語の品詞を付与する。形態素解析の技術は、広く知られているが、例えば、日本語の形態素解析技術であればChasen、中国語形態素解析技術であれば、清華大学のSeg and POSツールや中国東北大学のCiPosSDKツールを用いることができる。図７は、中国語の形態素解析の例と、日本語の形態素解析の例を示している。
【００３２】
類似例文候補記憶部１３０は、例文対訳辞書１２８において、入力文と類似する例文の候補を記憶する。
【００３３】
例文ベース翻訳部１０８は、第１のマッチング変換部１４０、例文選択部１４２、単語アライメント部１４４、第２のマッチング変換部１４６、訳文生成部１４８を含んでいる。
【００３４】
第１のマッチング変換部１４０は、入力文と従来の翻訳メモリ翻訳部１３２が抽出した類似例文候補間の編集距離を求め、最小な距離値を決める入力文と例文候補間の変換写像F1を求める。ここで、最小な距離値を与える例文候補が複数の場合があるし、最小な距離値を決める入力文と例文候補間の変換写像が複数の場合もある。
【００３５】
例文選択部１４２は、入力文と例文候補間の変換写像を用いて例文を選択する。本実施例の好ましい選択ルールは、入力文と例文候補間の変換写像には、ただ一つの重みが非ゼロの文字列（または単語）の置換操作、或いは、ただ一つの文字列（または単語）の挿入操作の場合は、該例文候補を選択する。ない場合は、選択を終了する。
【００３６】
例文選択部１４２で選択された例文に対して、第１のマッチング変換部１４０で求められた入力文と選択された例文間の変換写像F１には、ただ一つの重みが非ゼロの置換操作、或いは、ただ一つの挿入操作がある。単語アライメント部１４４は、置換重みが非ゼロ（すなわち、入力文と例文間に差分が生じる置換）の選択した例文の単語W、或いは、挿入された単語Wに対して、選択した例文の訳文の中からWの訳文を求め、単語Wと単語Wの訳文間の関係を、単語Wから例文の訳文間の変換写像と呼ぶ。
【００３７】
第２のマッチング変換部１４６は、第１のマッチング変換部１４０で求められた入力文と例文間の変換写像と、単語アライメント部１４４で得られた単語から例文の訳文間の変換写像を用いて、入力文と例文の訳文の間の変換写像F2を求める。
【００３８】
訳文生成部１４８は、入力文と例文の訳文の間の変換写像、単語／Chunk対訳辞書１２４を用いて、入力文の訳文を生成し、これを出力する。
【００３９】
図８に、第１のマッチング変換部１４０と例文選択部１４２の処理動作を示す。第１のマッチング変換部１４０は、類似例文候補１３０から類似例文候補Ａを読み出し（ステップＳ１０１）、次に、入力文と例文候補Ａとの間の編集距離を計算する（ステップＳ１０２）。
【００４０】
次に、第１のマッチング変換部１４０は、入力文と例文候補間の非ゼロの置換操作の数が１よりも大きいか否かを判定し（ステップS１０３）、大きければ、次の類似例文候補記憶部１３０に他の例文候補があるか否かを判定し、ある場合には、他の例文候補を読出し、編集距離を計算する。他の例文候補がなければ、処理は終了される。
【００４１】
第１のマッチング変換部１４０による変換写像F1は、同じ言語において、文A=a1a2…anからB=b1b2…bmへの変換写像である。つまり、最小なコストで、文Aから文Bに変換する(或いは、文Bから文Aまでに変換する)モデルである。ここでは、文Aと文B間の単語文字列間の編集距離で変換を実現し、これをF1(A,B)で表し、ai(1<=i<=n)とbj(1=<j<=m)は単語である。また、重みweiの計算は次式で行われる。
【００４２】
【数１】

【００４３】
入力文と例文候補間の「非ゼロの置換操作の数が１よりも大きくない場合には、例文選択部１４２は、重みが非ゼロの置換操作の数が＝0、かつ挿入操作の数が１よりも大きくない、あるいは重みが非ゼロの置換操作の数が＝1、かつ挿入操作の数が＝0を判定する（ステップS１０５）。この判定を満足する場合には、他の例文候補の読込が行われ（ステップS１０４）、満足しないとき、例文選択部１４２は、入力文と例文候補A間の写像を求める（ステップS１０６）。
【００４４】
図９は、第１のマッチング変換部と例文選択部の具体的な処理例を示している。同図において、Sは入力文であり、入力文Sと類似する３組の例文候補（A1,B1（（A2,B2）(A3,B3)が類似例文候補記憶部１３０に記憶されている。図９には、入力文Sと例文候補A1の変換写像が示されており、入力文Sと例文候補A1の編集距離は３Pであり、マッチングF1(S,A1)={(1,1)、(2,2)、(3,3)、(4,4)、(5,5)、(6,6)、(7,7)、(8,8)、(9,9)}となる。文字列（または単語）の置換操作が9個あり、そのうち、重みが非ゼロの置換が(1,1)、(3,3)、(7,7)であり、すなわち、貴社<->貴方、本社<->会社、国名<->地名である。重みが非ゼロの置換の数は３つがあるので、この例文は、選択使用されない。
【００４５】
図１０には、入力文Sと例文候補A2の変換写像の例が示されており、入力文Sと例文候補A2間の編集距離はPであり、マッチングF1(S,A2)={(1,1)、(2,2)、(3,3)、(4,4)、(5,5)、(6,6)、(7,7)、(8,8)、(9,9)}となる。置換操作が9個あり、そのうち、重みが非ゼロの置換が(3,3)であり、すなわち、本社<->事業所である、重みが非ゼロの置換の数が１つしかないので、この例文が選択される。選択ルールを満足する例文候補が見つかった場合には、他の候補の編集距離を計算しなくてもよい。
【００４６】
次に、単語アライメント部の処理動作を図１１のフローに示す。先ず、ステップS２０１に示すように、例文選択部１４２で選択された対訳例文を(A,B)とすし、第１のマッチング変換部１４０で求められた入力文Sと例文候補Aの間の変換写像F1(S,A)に対して、例文Aに置換重みが非ゼロの単語、或いは挿入した単語をwとする。また、訳文Bの単語列をB=b1 b2 … bkとする。
【００４７】
次に、単語アライメント部１４４は、確信度Sim(w,bj)j=1,2,…kを計算する（ステップS２０２）。そして、最大の確信度Sim(w,bm)を与えるBの文字列bm,bm+1, …,bm+sを求め，wがBの文字列bm bm+1 … bm+sに対応していることを求める（ステップS２０３）。確信度は、例えば次式によって計算することができる。
【００４８】
【数２】

【００４９】
上記式の辞書類似度SimDにおいて、例文CSの任意の単語c、単語対訳辞書の中に、cの訳語の集合をDTcとする。訳文JSの任意の単語jに対して、もし、j∈DTcならば、SimD(c,j)=1であり、訳文JSの任意の連続しているn個の単語j、単語j+1，．．．単語j+n-1に対して、もし、文字列 ”単語j 単語j+1．．．単語j+n-1”∈DTcならば、SimD(c,j)=1である。
【００５０】
上記式の形状類似度SimMにおいて、例文CSのSim(c,j)≠1の各単語cについて、訳文JSのSim(w,j)≠1の任意の単語に対して、次の公式で信用度を計算する。ここで、例文は中国語、訳文は日本語の場合(或いは、例文は日本語、訳文は中国語の場合)、訳文JSに日本語の漢字を含む、かつ、対応してうる中国語の簡体字があれば、その漢字を中国語の簡体字に変換してから、SimM(c,j)を計算する。勿論、中国語の漢字を日本語の漢字に変換してからSimM(c,j)を計算してもよい。また、繁体字の中国語に対して、同じ方法で処理することもできる。
【００５１】
上記式の意味類似度SimSにおいて、例文CSのSim(c,j)≠1の各単語cについて、単語対訳辞書の中に、cの訳語の集合をDTcとする。訳文JSのSim(w,j)≠1の任意の単語に対して、次の公式で信用度を計算する。品詞類似度SimPは、品詞間の類似度SimP(c,j)を計算する方法であり、品詞集合を言語知識によって幾つかのグルーブに分類する。cの品詞が属している品詞類とjの品詞が属している品詞類が同じであれば、POS(c,j)=1，その他の場合にはPOS(c,j)=0とする。勿論、以下の数３に示すような公開された任意の方法でPOS(c,j)を求めることもできる。
【００５２】
【数３】

【００５３】
Distance(e,j)或いはSimilarity(e,j)の計算方法、すなわち、公開された単語間の距離或いは類似度を求める任意の方法を使用してもよい。例えば，シソーラスを用いた方法、統計技術を用いた方法である。この計算方法を、以下の数４および数５に示す。
【００５４】
【数４】

【００５５】
【数５】

【００５６】
さらに上記数２の式でｓ示した相関度Ass(w.b)は、次のようにして求められる。
例文CSのSim(c,j)≠1の各単語cについて、訳文JSのSim(w,j)≠1の任意の単語jに対して、単語と訳語間の相関度Assを計算する。
【００５７】
相関度の計算において、パラメーターa,b,c,dを次のように定義する。例文対訳辞書からすべでの単語と訳語間のパラメーターa,b,c,dを求めることが可能である。まず、すべての例文にある単語とすべての訳文にある訳語の出現頻度frep(c), freq(j)を求める。続いて、各例文にある単語cと各訳文にある訳語j間の共起出現頻度freq(c,j)を求める。最後に、次に示す数６の公式でパラメーターa,b,c,dを求める。
【００５８】
【数６】

【００５９】
また、相関度Assは、他の方法を用いても良い。例えば、数７に示すように、X2相関度、Dice係数相関度、相互情報量、T-scoreなどを使用してもよいし、勿論、他の公開された任意の相関度を使用してもよい。
【００６０】
【数７】

【００６１】
図１２は、単語アライメント部の具体的な処理例を示している。図１０に示したように、例文選択部１４２によって例文候補A2が選択された場合、F1(S,A2)に置換重みが非ゼロのA2の単語は“事業所”である。例文候補A2の訳文B2の単語列が図示されている。ここで、例文候補A2の単語“事業所”と訳文B2を構成する各単語間の対応確信度Sim(w,b)を求める。Sim(w,b) = 1、一番大きいので、A2の単語“事業所”がB2の単語ｂ５に対応していることが判明した。つまり、F2(A2,B2)= {(3,5)}である。
【００６２】
図１３は、第２のマッチング変換部の処理フローを示す図である。第２のマッチング変換部１４６は、F1(S,A)とF2(A,B)を用いて、原言語の入力文Sから例文の訳文Bへの変換F(S,B)を求める。先ず、ステップS３０１に示すように、入力文から例文選択部１４２で選択した対訳例文A間の変換写像をF1(S,A)={…(i,j)…}とする。ここで、siがajに置換しており、かつ置換重みが非ゼロである。或いは、F1(S,A)={…(0,j)…}とすし、ここで、ajが写像できなく、挿入された。
【００６３】
次に、第２のマッチング変換部１４６は、確信度Sim(aj,bs) s=1,2,…kを計算し（ステップS３０２）、最大の確信度Sim(aj,bm)を与えるBの文字列bm bm+1 … bm+tを求め、F2(A,B)={(j:m,m+1,…,m+t)}を得る（ステップS３０３）。そして、F(S,B)={…(i,j)…}のとき，F(S,B)={ (i,m,m+1,…,m+t) }、F(S,B)={…(0,j)…}のとき，F(S,B)={ (0,m,m+1,…,m+t) }の変換を行う（ステップS３０４）
【００６４】
図１４は、入力文と例文候補の訳文間の写像変換の例を示している。入力文Sの文字列ｓ1、ｓ2、ｓ3、ｓ4、ｓ５は、同じ言語の例文候補Aの文字列ａ1、a2、a3、a4、a5に写像変換される。変換写像は、F1(S,A)={ (1:1)、(2:0)、(3:3)、(4:4)、(5:5) }となる。ここで、s3とa3は、非ゼロの置換である。アライメント部により、例文候補Aの文字列a3とその訳文Bの文字列b4,b5の対応関係が求められる。変換写像は、F2(A,B)= { (3:4,5) }となる。そして、第2のマッチング変換部により、入力文Sと訳文Bの写像変換が行われ、F(S,B)= { (3:4,5) }となる。
【００６５】
図１５は、図１０において、例文候補A2が選択されたときの写像変換の具体例を示している。つまり、F1(S,A2)={(1,1)、(2,2)、(3,3)、(4,4)、(5,5)、(6,6)、(7,7)、(8,8)、(9,9)}であり、F2(A2,B2)= {(3,5)}であり、最終的にF(S,A2)={(3,5)}となる。
【００６６】
訳文生成部１４８は、変換写像F(S,B)、単語対訳辞書１２４を用いて、原言語入力文Sから目的言語の訳文Gを求める。ステップS４０１に示すように、F(S,B)={…(i,j)…}のとき、F(S,B)={ (i,m,m+1,…,m+t) }のとき、単語対訳辞書１２４を用いてsiの訳語vを求め、Bの単語列にbm,bm+1,…,bm+t部分文字列をvで切り替え、入力文Sの訳文Gとする。
【００６７】
F(S,B)={…(0,j)…}のとき、F(S,B)={ (0,m,m+1,…,m+t) }のとき、Bの単語列からbm,bm+1,…,bm+t部分文字列を削除して、入力文Sの訳文Gとする（ステップＳ４０２）。
【００６８】
訳語の選択方法は、単語と品詞を用いて、単語対訳辞書を調べる。一つしかない場合は、それを採用する。複数がある場合は，統計言語モデルを用いて選択する。あるいは語彙体系情報を用いて選択する。
【００６９】
図１６は、図１５において入力文Sから訳文Bへの変換写像から訳文を生成した例を示している。
【００７０】
図１７は、入力文Sと類似する例文候補において文字列（または単語）が挿入する具体例を示している。ここでは、変換写像F1(S,A2)={(1,1)、(2,2)、(3,3)、(4,4)、(5,5)、(6,6)、(7,7)、(8,8)、(9,9)}、変換写像F2(A2,B2) = {(3,5)} により、変換写像F(S,A2)={(3,5)}を得ている。先ず、変換写像F1(S,A2)において、例文A2にある単語「日本」が挿入する。次の変換写像F2(A2,B2)において、訳文B2の中に、例文A2の単語「日本」に対応している単語「日本」を求める。そして、変換写像F(S,A2)={(3,5)}において、訳文B2の中に，例文A2の単語「日本」に対応している単語「日本」を削除して、訳文を生成する。
【００７１】
図１８は、翻訳メモリ翻訳装置の一ハードウエア構成を示すブロック図である。翻訳メモリ翻訳装置は、好ましくは、入力装置７００、表示装置７０２、主記憶装置７０４、記憶装置７０６、中央処理装置（ＣＰＵ）７０８、これらを接続するバス７１０を含んで構成される。
【００７２】
入力装置７００は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取るスキャナ、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。表示装置７０２は、ユーザの入力および翻訳結果等を表示するディスプレイ等を含む。主記憶装置７０４は、ＲＯＭまたはＲＡＭを含み、図４に示す各部の動作を制御するプログラムや演算処理されたデータ等を記憶する。記憶装置７０６は、例えばハードディスク等の大容量記憶装置を含み、例文対訳辞書などの各種辞書２６、１２４等のデータを格納する。中央処理装置７０８は、主記憶装置７０４に記憶されたプログラムに従い各部を制御する。
【００７３】
以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【００７４】
例えば、上記実施例では、重みが非ゼロの置換が１つとなる例文候補を選択して訳文を生成する例を示したが、必ずしもこれに限らず、重みが非ゼロ置換は２つ、または３つ、あるいはそれ以上であってもよい。また、挿入の数も１つよりも大きくてもよい。置換や挿入の数が増えれば、それに応じて、翻訳の精度が低下する可能性はあるが、それを十分に考慮して翻訳システムに用いることができる。
【産業上の利用可能性】
【００７５】
本発明に係る翻訳メモリ翻訳装置は、機械翻訳システムや翻訳支援システムにおいて利用される。
【図面の簡単な説明】
【００７６】
【図１】例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。
【図２】図１に示す翻訳メモリ翻訳装置を説明する図である。
【図３】図１に示す例文パターンベース翻訳装置を説明する図である。
【図４】本発明の実施例に係る翻訳メモリ翻訳装置の概要を示す図である。
【図５】図４に示す例文ベース翻訳部の原理を説明する図である。
【図６】本実施例の翻訳メモリ翻訳装置の構成の一例を示すブロック図である。
【図７】中国語および日本語の形態素解析の例を示す図である。
【図８】図６の第１のマッチング変換部と例文選択部の処理動作ーを示す図である。
【図９】第１のマッチング変換部と例文選択部の具体的な処理例を示している
【図１０】入力文Sと例文候補A2の変換写像の例を示す図である
【図１１】単語アライメント部の処理フローを示す図である。
【図１２】単語アライメント部の具体的な処理例を示す図である。
【図１３】第２のマッチング変換部の処理フローを示す図である。
【図１４】入力文と例文候補の訳文間の写像変換の例を示す図である。
【図１５】図１０において、例文候補A2が選択されたときの写像変換の具体的な処理例を示す図である。
【図１６】図１５において入力文Sから訳文Bへの変換写像から訳文を生成した例を示す図である。
【図１７】入力文Sと類似する例文候補において文字列（または単語）が挿入する具体例を示す図である。
【図１８】翻訳メモリ翻訳装置の一ハードウエア構成を示すブロック図である。
【図１９】翻訳メモリ翻訳部の例を示す図である。
【符号の説明】
【００７７】
１０：機械翻訳システム１２：原言語テキスト文入力部
１４：翻訳メモリ装置１６：例文パターンベース翻訳装置
１８：単語直訳翻訳装置２０：目的言語テキスト出力部
２２：翻訳不適切文自動回収部２４：学習装置
２６ｃ：例文パターン対訳辞書２６ａ：単語対訳辞書
２６ｂ：例文対訳辞書２６：形態素解析部
２６：翻訳辞書１００：翻訳メモリ翻訳装置
１０６：形態素解析部１０８：例文ベース翻訳部
１２０：翻訳モデル部１２２：生成モデル部
１２４：単語／チャンク対訳辞書１４０：第１のマッチング変換部
１４２：例文選択部１４４：単語アライメント部
１４６：第２のマッチング変換部１４８：訳文生成部
７００：入力装置７０２：表示装置
７０４：主記憶装置７０６：記憶装置
７０８：中央処理装置（ＣＰＵ）７１０：バス

【特許請求の範囲】
【請求項１】
第１言語の入力文を入力する入力手段と、
第１言語の例文と当該第１の例文の対訳となる第２言語の例文を記憶する例文対訳辞書と、
前記例文対訳辞書を参照し、前記入力文と完全に一致する第１言語の例文を検索する検索手段と、
前記検索手段により一致する例文が検索されないとき、前記入力文と第１言語の例文との差分に基づき前記入力文に類似する第１言語の例文候補を選択する例文候補選択手段と、
前記例文候補の対訳となる第２言語の例文の中から前記差分に対応する文字列を識別し、前記入力文と第２言語の例文の対応関係を求める手段と、
前記識別された文字列を前記差分に基づき変換することで前記入力文の第２言語の訳文を生成する生成手段と、
を有する翻訳メモリ翻訳装置
【請求項２】
前記例文候補選択手段は、前記入力文の文字列と第１言語の例文の文字列間の編集距離が最小となる変換写像を行うことにより前記差分を求める、請求項１に記載の翻訳メモリ翻訳装置。
【請求項３】
前記差分は、前記入力文の文字列と第１言語の例文の文字列の重みが非ゼロの置換および第１言語の例文の文字列の挿入の少なくとも一方を含む、請求項２に記載の翻訳メモリ翻訳装置。
【請求項４】
前記例文候補選択手段は、前記置換、および前記挿入の数が予め決められた条件を満足する例文を例文候補として選択する、請求項３に記載の翻訳メモリ翻訳装置。
【請求項５】
前記生成手段は、前記差分が置換であるとき、前記識別された文字列を対応する第２言語の文字列に変換し、前記差分が挿入であるとき、前記識別された文字列を削除する変換を行う、請求項３に記載の翻訳メモリ翻訳装置。
【請求項６】
前記入力手段は、入力文を複数の文字列に形態素解析する解析手段を含む、請求項１に記載の翻訳メモリ翻訳装置。
【請求項７】
第１言語の例文と当該第１の例文の対訳となる第２の言語の例文を記憶する例文対訳辞書を参照して訳文を生成する翻訳メモリ翻訳装置が実行する翻訳プログラムであって、
第１言語の入力文と一致する第１言語の例文が前記例文対訳辞書に含まれているか否かを検索し、一致する例文が含まれていないとき、前記入力文と第１言語の例文との差分に基づき前記入力文に類似する第１言語の例文候補を選択するステップと、
前記例文候補の対訳となる第２言語の例文の中から前記差分に対応する文字列を識別し、前記入力文と第２言語の例文の対応関係を求めるステップと、
前記識別された文字列を前記差分に基づき変換することで前記入力文の第２言語の訳文を生成するステップと、
を有する翻訳プログラム。
【請求項８】
前記選択するステップは、前記入力文の文字列と第１言語の例文の文字列間の編集距離が最小となる変換写像を行うことにより前記差分を求める、請求項７に記載の翻訳プログラム。
【請求項９】
前記差分は、前記入力文の文字列と第１言語の例文の文字列の重みが非ゼロの置換および第１言語の例文の文字列の挿入の少なくとも一方を含む、請求項８に記載の翻訳プログラム。
【請求項１０】
前記選択するステップは、前記置換および前記挿入の数が予め決められた条件を満足する例文を例文候補として選択する、請求項９に記載の翻訳プログラム。
【請求項１１】
前記生成するステップは、前記差分が置換であるとき、前記識別された文字列を対応する第２言語の文字列に変換し、前記差分が挿入であるとき、前記識別された文字列を削除する変換を行う、請求項８に記載の翻訳プログラム。

【図１】