説明

訳文生成方法及び装置並びに機械翻訳

【課題】本発明は訳文並びに機械翻訳生成方法及び装置を提供する。
【解決手段】翻訳対象第1言語の文が複数に分離され、整列二ヶ国語用例コーパスが第1言語と第2言語の複数の例文対並びに各文対間の配列情報を含み、第1言語の各断片に対応する第2言語の訳文断片により構成される、方法であって、訳文断片の組み合わせに関する複数の特徴関数から得られる積算得点に基づいて第1言語の文に対応する第2言語の複数の可能訳文断片の組み合わせから第2言語の最適訳文断片の組み合わせを選択し、最適訳文組み合わせに基づいて第2言語の訳文を生成することを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理の技術、特に訳文生成技術及び二カ国語整列技術に基づく機械翻訳技術に関する。
【背景技術】
【0002】
用例に基づく機械翻訳(EBMT)システムは自動翻訳システムであり、翻訳システムは整列二カ国語例文を翻訳知識として直接使用する。翻訳対象の入力文について、翻訳システムは整合技術を用いて整列二カ国語用例コーパスにおいて整合二カ国語例文を検索し、それから二カ国語例文の整列情報を用いて二カ国語例文から整合断片に対応する訳文断片を抽出する。最後に、翻訳システムはこれら訳文断片を入力文の訳文に組み合わせる。
【0003】
現在のEBMTシステムでは、訳文生成の2つの主要な方法がある。
【0004】
(1)意味的方法
この方法はシソーラスを使用して入力文の各部分に対して適切な目的言語断片を取得する。このとき、訳文は所定の順序で目的言語断片の再組み合わせによって生成される。
【0005】
(2)統計的方法
この方法は統計言語モデルで目的言語断片を再組み合わせすることのよって訳文を生成する。
【0006】
第1方法は目的言語断片間の訳文を考慮していない。故に、この種の訳文の流暢さが欠ける。
【0007】
第2方法はnグラム同時発生統計(n-gram co-occurrence statistics)を用いて流暢問題を解決できる。しかしながら、この方法は例文と入力文との意味的関係を考慮していない。その結果、この種の翻訳の精度はよくない。
【0008】
故に、上述した要因を同時に考慮して訳文形成方法及び機械翻訳を提供する必要がある。
【非特許文献1】“Noun Phrase Translation, University of Southern California”, Philipp Koehn, 2003.
【非特許文献2】“Discriminative training and maximum entropy models for statistical machine translation”, Franz Josef Och and Hermann Ney, in Proceedings of the 40th Annual Meeting of the ACL, pages 295-302, 2002.
【非特許文献3】“SRILM - an extensible language modeling toolkit”, Andreas Stolcke, in Proceedings of the International Conference on Spoken Language Processing, volume 2, pages 901-904,2002.
【非特許文献4】“Example-based machine translation based on TSC and statistical generation”, Liu Zhanyi, Wang Haifeng and Wu Hua, MT Summit X, Phuket, Thailand, September 13-15, 2005
【非特許文献5】“Minimum error rate training in statistical machine translation”, Franz Josef Och., in proceedings of the 41st Annual Meeting of the ACL, pages 160-167, 2003.
【非特許文献6】“a beam search decoder for phrase-based statistical machine translation models”, Philipp Koehn and Pharaoh, in Proceedings of the Sixth Conference of the Association for Machine Translation in the Americas, pages 115-124, 2004.
【非特許文献7】“Statistical Methods for Speech Recognition”, Jelinek F., The MIT Press, 1998.
【発明の開示】
【発明が解決しようとする課題】
【0009】
従来技術の上記問題を解決するために、本発明は訳文生成方法及び装置並びに機械翻訳を提供する。
【課題を解決するための手段】
【0010】
本発明の一態様によると、翻訳対象の第1言語の文に基づいて第2言語の訳文を生成する訳文生成方法であって、複数の断片に分割される前記第1言語と第2言語の複数の文例対と各文例対の間の配列情報とにより構成され、かつ前記第1言語の前記複数の断片の各々に対応する前記第2言語の少なくとも1つの訳文断片により構成される整列二カ国語用例コーパスから、前記複数の断片に分割された前記第1言語の前記文に対応する前記第2言語の複数の可能訳文断片の組み合わせから翻訳断片の組み合わせに関する複数の特徴関数から得られる積算得点に基づいて前記第2言語の最適訳文断片の組み合わせを選択するステップと、前記最適訳文断片の組み合わせに基づいて前記第2言語の訳文を生成するステップと、を含む、訳文生成方法が提供される。
【0011】
本発明の他の態様によると、整列2言語用例コーパスは第1言語と第2言語の複数の例文対と各文対の間の配列情報とにより構成され、翻訳対象の前記第1言語の文は前記整列二ヶ国語用例コーパスに関して整合され、前記第1言語の前記文の各断片に対応する前記第2言語の少なくとも1つの訳文断片が得られる、訳文生成方法であって、検索アルゴリズムを用いて前記第2言語の最適訳文断片の組み合わせを選択するステップと、積算得点は積算得点を可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から前記検索アルゴリズムのコストとして得るステップと、前記最適訳文断片の組み合わせに基づいて前記第2言語の訳文を生成するステップと、を含む訳文生成方法が提供される。
【0012】
本発明の他の態様によると、整列二カ国語用例コーパスは第1言語と第2言語の複数の例文対及び各文対間の配列情報を含む、機械翻訳方法であって、翻訳対象の前記第1言語の文を複数の断片に分離するステップと、上記訳文生成方法によって前記第2言語の訳文を生成するステップと、を含む機械翻訳方法が提供される。
【0013】
本発明の他の態様によると、整列二ヶ国語用例コーパスは第1言語と第2言語の複数の例文対及び各文対間の配列情報を含む、機械翻訳方法であって、前記第1言語の前記文の各可能断片に対応する前記第2言語の少なくとも1つの訳文断片を得るため前記整列二ヶ国語用例コーパスに関して翻訳対象の前記第1言語の文を整合するステップと、前記訳文生成方法によって前記第2言語の訳文を生成するステップと、を含む機械翻訳方法が提供される。
【0014】
本発明の他の態様によると、翻訳対象の第1言語の文は複数の断片に分割され、整列二カ国語用例コーパスは前記第1言語と第2言語の複数の文例対と各文例対の間の配列情報とにより構成され、かつ前記第1言語の前記複数の断片の各々に対応する前記第2言語の少なくとも1つの訳文断片により構成される、訳文生成装置であって、前記第1言語の前記文に対応する前記第2言語の複数の可能訳文断片の組み合わせから訳文断片の組み合わせに関する複数の特徴関数から得られる積算得点に基づいて前記第2言語の最適訳文断片の組み合わせを選択する選択部と、前記最適訳文断片の組み合わせに基づいて前記第2言語の訳文を生成する訳文生成部と、を含む訳文生成装置が提供される。
【0015】
本発明の他の態様によると、整列二カ国語用例コーパスは第1言語と第2言語の複数の例文対と各文対の間の配列情報とにより構成され、翻訳対象の前記第1言語の文は前記整列二ヶ国語用例コーパスに関して整合され、前記第1言語の前記文の各断片に対応する前記第2言語の少なくとも1つの訳文断片が得られる、訳文生成装置であって、積算得点が可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から前記検索アルゴリズムのコストとして得られ、検索アルゴリズムを用いて前記第2言語の最適訳文断片の組み合わせを選択するよう構成される選択部と、前記最適訳文断片の組み合わせに基づいて前記第2言語の訳文を生成するように構成される訳文生成部と、を具備する訳文生成装置が提供される。
【0016】
本発明の他の態様によると、整列二ヶ国語用例コーパスは第1言語と第2言語の複数の例文対及び各文対間の配列情報を含む、機械翻訳装置であって、翻訳対象の前記第1言語の文を複数の断片に分離する分離部と、前記第2言語の訳文を生成するように構成された前記訳文生成装置と、を具備する機械翻訳装置が提供される。
【0017】
本発明の他の態様によると、整列二ヶ国語用例コーパスは第1言語と第2言語の複数の例文対及び各文対間の配列情報を含む、機械翻訳装置であって、前記第1言語の前記文の各可能断片に対応する前記第2言語の少なくとも1つの訳文断片を得るため前記整列二ヶ国語用例コーパスに関して翻訳対象の前記第1言語の文を整合する整合部と、前記第2言語の訳文を生成するよう構成される前記訳文生成装置と、を具備する機械翻訳装置が提供される。
【発明を実施するための最良の形態】
【0018】
図面と関連して本発明の実施形態の詳細な説明を通じて上述した特徴、利点及び目的はよりよく理解できる。
【0019】
次に、図面を参照して本発明の各実施形態を詳細に説明する。
【0020】
図1は本発明の実施形態に従った訳文生成方法を示すフローチャートである。図1に示されるように、先ずステップ101で、翻訳対象の第1言語の断片文に対して、第2言語の最適訳文断片組み合わせが訳文断片の組み合わせに関する複数の特徴関数から得られる積算得点に基づいて選択される。
【0021】
特に、本実施形態では、翻訳対照の第1言語の文は手動的又は自動的に複数の断片に分割され、翻訳対象の第1言語の複数の断片の各々に対応する第2言語の1つ又は複数の訳文断片は整合(マッチング)によって整列二カ国語のコーパスにおいて検索される。整列二カ国語用例コーパスは手動的に専門家(例えば、翻訳者)によってまたはコンピュータによって自動的に整列される二カ国語用例コーパスである。それは第1言語と第2言語の複数の例文対及び各文対間の配列情報で構成される。本発明は翻訳対象の第1言語の文を分離する方法に特に限定されなく、翻訳対象文だけがその訳文断片が整列二カ国語用例コーパスに見つけることができる有効な断片に分離できれば、従来から知られている任意の方法を使用できる。
【0022】
次に、複数の特徴関数及び訳文断片の組み合わせに関する複数の特徴関数から得られる積算得点の計算処理の詳細な説明をする。
【0023】
この実施形態では、上述の特徴関数は二カ国語例文に基づく機械翻訳の訳文生成モデルに含まれる複数種類の訳文知識(このモデルでは、翻訳知識は特徴関数と称する)、例えば、二カ国語例文と入力文との類似性、二カ国語例文の信頼性及び生成訳文の流暢さを示す。
【0024】
実施形態の特徴関数はこれらに限定されないが次の種類を含む。
【0025】
A:ソース言語から目的言語への語の翻訳確率
【数7】

【0026】
B:目的言語からソース言語への語の翻訳確率
【数8】

【0027】
C:ソース言語から目的言語への句の翻訳確率
【数9】

【0028】
D:目的言語からソース言語への句の翻訳確率
【数10】

【0029】
E:長さに基づく目的言語の選択確率
【数11】

【0030】
翻訳対象文に関して、この関数はより短い又はより長い訳文に対して小さな値を与えることになる。
【0031】
F:目的言語モデル
【数12】

【0032】
この関数の値が大きくなるほど生成される訳文の流暢さが良くなる。
【0033】
G:意味的類似性
【数13】

【0034】
この特徴関数の値が大きくなるほど、二カ国語例文と入力文の対応する断片間の意味が近くなる。
【0035】
上記の複数の特徴関数において
hは特徴を示す。
【0036】
fは翻訳対象文を示す。
【0037】
eは生成された訳文を示す。
【0038】
eiは訳文の語を示す。
【0039】
e’iは訳文の句を示す。
【0040】
fiは入力文の句を示す。
【0041】
aiはi番目の単位で整列する単位番号を示す。
【0042】
Iはeの長さを示す。
【0043】
Jはfの長さを示す。
【0044】
M(z,f)は二カ国語例文と入力文の対応する断片間の意味的類似性を示す。
【0045】
特に、特徴関数A,B及びEは参考文献1,即ち2003年に公開された博士論文「“Noun Phrase Translation, University of Southern California”, Philipp Koehn」において説明されている。この論文は本願に引用して援用される。
【0046】
特徴関数C及びDは引用文献2,即ち2002年に公開された論文「“Discriminative training and maximum entropy models for statistical machine translation”, Franz Josef Och and Hermann Ney, in Proceedings of the 40th Annual Meeting of the ACL, pages 295-302」に説明されている。この論文は本願に引用して援用される。
【0047】
特徴関数Fは引用文献3,即ち2002年に公開された論文「“SRILM - an extensible language modeling toolkit”, Andreas Stolcke, in Proceedings of the International Conference on Spoken Language Processing, volume 2, pages 901-904」に説明されている。この論文は本願に引用して援用される。
【0048】
特徴関数Gは引用文献4,即ち公開論文「“Example-based machine translation based on TSC and statistical generation”, Liu Zhanyi, Wang Haifeng and Wu Hua, MT Summit X, Phuket, Thailand, September 13-15, 2005」に説明されている。この論文は本願に引用して援用される。
【0049】
この実施形態では、上記特徴関数A−Gが示されているが、本発明はこれに特に限定されなく、訳文を生成するために寄与する任意の特徴関数が構成できることは理解されるべきである。
【0050】
次に、訳文断片の組み合わせに関する上記複数の特徴関数から得られる積算得点の計算処理の詳細な説明を図2と関連して行う。
【0051】
図2は本発明の実施形態に従った積算得点を計算する例を示す概略である。図2において、先ず、翻訳対象の第1言語の文がN個の断片に分離される。SF[i]は翻訳対象の文のi番目の断片を示す。次に、1つ又は複数の訳文断片は翻訳対象の文の各断片に関して整列二カ国語用例コーパスを示す。TF[i,j]は翻訳対象の文のi番目の断片に対応するj番目の訳文断片を示す。次に、これら選択訳文断片はM個の特徴関数を用いてそれぞれ表される。h[m]は訳文断片に関するm番目の特徴関数を示す。このとき、積算得点は次式(1)に基づいてログ線形モデルを用いて算出される。
【数14】

【0052】
但し、hはm番目の関数を示し、λはm番目の特徴関数の重みを示し、fは翻訳対象の第1言語の文を示し、eは第2言語の訳文断片の組み合わせを示し、Eはeを生成するために必要な訳文断片の集まりを示し、s(e)はeに関する前記複数の特徴関数から得られる前記積算得点を示す。
【0053】
本実施形態では、好ましくは各特徴関数の重みが考慮される。特徴関数の重みのトレーニング方法は引用文献5,即ち2003年に公開された論文「“Minimum error rate training in statistical machine translation”, Franz Josef Och., in proceedings of the 41st Annual Meeting of the ACL, pages 160-167」に説明されている。この論文は本願に引用して援用される。しかしながら、上記積算得点は訳文断片の組み合わせに関する各特徴関数から得られる得点を各特徴関数の重みを考慮しないでログ線形モデルで直接に積算することによって算出できることは理解すべきである。
【0054】
ステップ101で、全ての訳文断片の組み合わせの各々の積算得点は図2に示される上記方法を用いて上記複数の特徴関数によって算出できる。この結果、最高得点を持つ訳文断片の組み合わせが第2言語の最適訳文断片の組み合わせとして選択される。
【0055】
随意的に、この実施形態では、第2言語の最適訳文断片の組み合わせは検索アルゴリズムを用いて第1言語の文に対応する第2言語の複数の訳文断片の組み合わせから選択できる。この実施形態では、検索アルゴリズムは従来から知られているような任意のアルゴリズム、例えば、ビーム検索アルゴリズム(Beam search algorithm)、A検索アルゴリズム及びA*検索アルゴリズム等で構成される。本発明はこれに特に制限されない。検索アルゴリズムの詳細な処理の詳細な説明を図3と関連して図4の実施形態で行う。下記実施形態との差がこの実施形態にあり、翻訳対象の第1言語の文は複数の断片に分離されていたし、翻訳対象の文の全ての可能な断片は検索アルゴリズムで行う必要がない。
【0056】
随意的に、この実施形態では、翻訳対象の第1言語の文は複数の分離体系に分離でき、例えば、翻訳対象文は見つかった全ての文断片に基づいて分離アルゴリズムによって自動的に分離される。例えば、
翻訳対象文=“w1 w2 w3 w4 w5 w6 w7 w8 w9”
有効断片は
F1 = w1 w2 w3
F2 = w4 w5 w6
F3 = w7 w8 w9
F4 = w1 w2 w3 w4
F5 = w5 w6 w7 w8 w9
からなる。
【0057】
上記断片は2つの分離体系“f1 f2 f3”又は“f4 f5”を構成できる。
【0058】
第1分離体系“f1 f2 f3”に対して、第2言語の最適訳文断片の組み合わせはステップ101で説明した上記方法を用いて選択される。ここでは、分離体系“f1 f2 f3”の全ての訳文断片の組み合わせの積算得点は図2に示された上記方法を用いて上記複数の特徴関数によって算出される。その結果、最高得点を持つ訳文断片の組み合わせが第2言語の最適訳文断片の組み合わせとして選択され、又は第2言語の最適訳文断片の組み合わせは検索アルゴリズムを用いて第1言語の文に対応する第2言語の複数の訳文断片の組み合わせから選択できる。
【0059】
第2分離体系“f4 f5”に対しては、第2言語の最適訳文断片の組み合わせがステップ101で説明した上記方法を用いて選択される。ここでは、分離体系“f4 f5”の全ての訳文断片の組み合わせの積算得点が図2に示される上記方法を用いて上記複数の特徴関数で算出される。その結果、最高得点を持つ訳文断片の組み合わせが第2言語の最適訳文断片の組み合わせとして選択され、又は第2言語の最適訳文断片の組み合わせが検索アルゴリズムを用いて第1言語の文に対応する第2言語の複数の訳文断片の組み合わせから選択することができる。
【0060】
それから、2つの分離体系の最適訳文断片の組み合わせの積算得点が比較され、高得点を持つ訳文断片の組み合わせは保持され、低得点を持つ訳文断片の組み合わせは削除される。その結果、第2言語最適訳文断片の組み合わせが翻訳対象第1言語の文に対して得られる。
【0061】
更に、第2言語の最適訳文断片の組み合わせは第1分離体系“f1 f2 f3”及び第2分離体系“f4 f5”に関して検索アルゴリズムを用いて第1言語の文に対応する第2言語の複数の訳文断片の組み合わせから選択できる。
【0062】
ここでは2つの分離体系が示されているが、本発明はこれに限定されなく、2つ以上の分離体系を持つことができることは理解されるべきである。この場合、各分離体系を計算する必要があるだけであり、複数の分離体系が比較され、第2言語の最適訳文断片の組み合わせが最終的に得られる。
【0063】
最後に、ステップ105で、第2言語の訳文が上述した最適訳文断片の組み合わせに基づいて生成される。
【0064】
実施形態の訳文生成方法を用いて、整列二カ国語例文が翻訳知識(即ち特徴関数)として使用され、訳文生成効率は規則に基づいて訳文生成方法に関して効果的に得られる。同時に、この方法は特別のアプリケーションでより良い品質を持った訳文を生成できる。
【0065】
更に、生成訳文は実施形態の訳文生成方法を用いて異なる観点から複数種類の翻訳知識で評価される。故に、高品質の訳文が得られる。例えば、使用された訳文知識は意味的資源及び目的言語モデルで構成されるので、生成された訳文の流暢さは望ましく、その上入力文との意味的類似性が非常に高くなる。
【0066】
更に、実施形態の訳文生成方法は新翻訳知識を追加することによって拡張できる。この結果、翻訳品質は更に改良できる。
【0067】
訳文生成方法
同じ発明概念に基づいて、図4は本発明の他の実施形態に従った訳文生成方法を示すフローチャートである。次に、本実施形態を図4と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。
【0068】
図4に示されるように、ステップ401で、第2言語の最適訳文断片の組み合わせが翻訳対象の第1言語の整合文に対して検索アルゴリズムを用いて選択される。
【0069】
特に、この実施形態では、翻訳対象の第1言語の各可能断片に対応する第2言語の1つ又は複数の訳文断片が整合によって整列二カ国語用例コーパスにおいて検索される。整列二カ国語用例コーパスは専門家(例えば、翻訳者)によって手動的に、又はコンピュータによって自動的に語整列された二カ国語用例コーパスである。これは第1言語と第2言語の複数の例文対及び各文対の間の配列情報で構成される。本発明は翻訳対象の第1言語の文を整合する方法に特に限定されなく、対応する訳文断片が整列二カ国語用例コーパスにおいて翻訳対象の文の可能断片毎に見つけることができれば、従来の任意の方法が使用できる。
【0070】
この実施形態では、検索アルゴリズムは従来知られている任意のアルゴリズム、例えば、ビーム検索アルゴリズム、A検索アルゴリズム及びA検索アルゴリズム等で構成され、本発明はこれに特に限定されない。検索アルゴリズムの詳細なプロセスの詳細な説明は図3を関連して行う。図3は本発明の実施形態に従った検索アルゴリズムの例を示す略図である。ここでは、ビーム検索アルゴリズムは検索アルゴリズムの処理を説明する例として簡単に示されており、詳細な説明は引用文献6,即ち2004年に公開された論文「“a beam search decoder for phrase-based statistical machine translation models”, Philipp Koehn and Pharaoh, in Proceedings of the Sixth Conference of the Association for Machine Translation in the Americas, pages 115-124」に示され、この論文は本願に引用して援用され、かつ引用文献7,即ち1998年に公開された論文「“Statistical Methods for Speech Recognition”, Jelinek F., The MIT Press」に示され、この論文は本願に引用して援用される。
【0071】
図3の実施形態では、翻訳対象文は9つの語を持つと仮定される。各可能断片の訳文は整列二カ国語用例コーパスにおいて検索される。例えば、
【表1】

【0072】
図3において、各状態は
S:印、語が翻訳されれば、語が“*”の印が付けられ、そうでなく、語が翻訳されなければ、語は“-”の印が付けられる。
【0073】
T:“*”の語の訳文
得点:得られた訳文の積算得点
特に、ビーム検索アルゴリズムは次のように行われる。
【0074】
最初に、リスト(語=0...9)が初期化される。
【0075】
次に、s = 0 to 9に対して:
S[s]に各状態を拡張する。
【0076】
新状態は状態印に基づいて対応リストに記憶される。状態に翻訳された語の量がxならば、この状態は語リスト=xに記憶されることになる。
【0077】
リストの新たな状態と同じ状態があると、2つの状態が比較され、高得点を持つ状態が保持される。
【0078】
リストを取り除く。
【0079】
1つのリストの状態の量が所定の閾値より大きければ、小さい得点を持つ状態は取り除かれる。
【0080】
最後に、最高得点を持つ訳文断片の組み合わせが翻訳対象の第1言語の文に対して選択された第2言語の最適訳文断片の組み合わせとしてリストS[9]において検索される。
【0081】
上述の探索アルゴリズムにおいて、各訳文断片又は各断片組み合わせに関する複数の特徴関数から得られる積算得点は図2の上記実施形態の方法に基づいて計算され、その説明は適時省略する。
【0082】
最後に、ステップ405で、第2言語の訳文が上記最適訳文断片の組み合わせに基づいて生成される。
【0083】
実施形態の訳文生成方法を用いて、整列二カ国語例文が翻訳知識(即ち、特徴関数)として使用され、訳文生成効率は規定に基づく訳文生成方法に関連して効率的に得られる。同時に、この方法は特別のアプリケーションにおいてより良い品質で訳文を生成できる。
【0084】
更に、生成された訳文は実施形態の訳文生成方法を用いて異なる観点から複数種類の訳文知識によって評価され、それにより高品質を持つ訳文が得られる。例えば、使用される訳文知識は意味的資源及び目的言語モデルで構成されるので、生成訳文の流暢さが望ましく、更に入力文とのその意味的類似度が非常に高くなる。
【0085】
更に、実施形態の訳文生成方法は新たな翻訳知識を付加することのよって拡張できる。その結果、翻訳品質が更に向上する。
【0086】
更に、実施形態の訳文生成方法は翻訳対象の第1言語の文を予め分離する必要がなく、それは単に検索アルゴリズムを用いて高品質の訳文を生成する必要があるだけである。
【0087】
機械翻訳方法
同じ発明概念に基づいて、図5は本発明の他の実施形態に従った機械翻訳方法を示すフローチャートである。次に、本実施形態を図5と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。
【0088】
図5に示されるように、ステップ501で、翻訳対象の第1言語の文は複数の断片に分離される。
【0089】
特に、この実施形態では、翻訳対象の第1言語の文は手動的又は自動的に複数の断片に分離され、翻訳対象の第1言語の複数の断片の各々に対応する第2言語の1つ又は複数の訳文断片は整合によって整列二カ国語用例コーパスにおいて検索される。整列二カ国語用例コーパスは専門家(例えば、翻訳者)によって手動的に、又はコンピュータによって自動的に整列される二カ国語用例コーパスである。これは第1言語と第2言語の複数の例文対及び各例文対の間の配列情報で構成される。本発明は翻訳対象の第1言語の文を分離する方法に特別に限定されなく、その訳文断片が整列二カ国語用例コーパスにおいて見つけることができる有効な断片に翻訳対象文だけが分離できれば、従来知られている任意の方法が使用できることは理解されるべきである。
【0090】
次に、ステップ505で、第2言語の訳文が図1の実施形態の訳文生成方法によって生成され、詳細な説明は上記実施形態と同じであるのでその説明は省略する。
【0091】
実施形態の機械翻訳方法を用いて、整列二カ国語例文が翻訳知識(即ち特徴関数)として使用され、機械翻訳の効率は規定に基づく機械翻訳方法に関連して効率的に得られる。同時に、この方法は特別なアプリケーションにおいてより良い品質で訳文を生成できる。
【0092】
更に、生成された訳文は実施形態の訳文生成方法を用いて異なる観点から複数種類の訳文知識によって評価され、それにより高品質を持つ訳文が得られる。例えば、使用される訳文知識は意味的資源及び目的言語モデルで構成されるので、生成訳文の流暢さが望ましく、更に入力文とのその意味的類似度が非常に高くなる。
【0093】
更に、実施形態の機械翻訳方法は新たな翻訳知識を加えることによって拡張できる。その結果、翻訳品質が更に向上できる。
【0094】
機械翻訳方法
同じ発明概念に基づいて、図6は本発明の他の実施形態に従った訳文生成方法を示すフローチャートである。次に、本実施形態を図6と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。
【0095】
図6に示されるように、ステップ601で、翻訳対象の第1言語の文は整列二カ国語用例コーパスに関して整合される。
【0096】
特に、この実施形態では、翻訳対象の第1言語の各可能断片に対応する第2言語の1つ又は複数の訳文断片が整合によって整列二カ国語用例コーパスにおいて検索される。整列二カ国語用例コーパスは専門家(例えば、翻訳者)によって手動的に、又はコンピュータによって自動的に語整列された二カ国語用例コーパスである。これは第1言語と第2言語の複数の例文対及び各文対の間の配列情報で構成される。本発明は翻訳対象の第1言語の文を整合する方法に特に限定されなく、対応する訳文断片だけが整列二カ国語用例コーパスにおいて翻訳対象文の可能断片毎に見つけることができれば、従来の任意の方法が使用できる。
【0097】
次に、ステップ605で、第2言語の訳文が図4の実施形態の訳文生成方法によって生成され、詳細な説明は上記実施形態と同じであるのでその説明は省略する。
【0098】
実施形態の機械翻訳方法を用いて、整列二カ国語例文が翻訳知識(即ち特徴関数)として使用され、機械翻訳の効率は規定に基づく機械翻訳方法に関連して効率的に得られる。同時に、この方法は特別なアプリケーションにおいてより良い品質で訳文を生成できる。
【0099】
更に、生成訳文は実施形態の訳文生成方法を用いて異なる観点から複数種類の翻訳知識で評価される。故に、高品質の訳文が得られる。例えば、使用された訳文知識は意味的資源及び目的言語モデルで構成されるので、生成された訳文の流暢さは望ましく、その上入力文との意味的類似性が非常に高くなる。
【0100】
更に、実施形態の訳文生成方法は新翻訳知識を追加することによって拡張できる。この結果、翻訳品質は更に向上できる。
【0101】
更に、実施形態の機械翻訳方法は予め翻訳されるべき第1言語の文を分離する必要がなく、それは探索アルゴリズムを用いて高品質の訳文を生成する必要があるだけである。
【0102】
訳文生成装置
同じ発明概念に基づいて、図7は本発明の他の実施形態に従った訳文生成装置を示すブロック図である。次に、本実施形態は図7と関連して説明する。上記実施形態と同じ部分については、その説明は適宜省略する。
【0103】
図7に示されるように、この実施形態の訳文生成装置700は訳文断片の組み合わせに関する複数の特徴関数から得られる積算得点を計算するように構成される計算部701と、計算部701によって算出された訳文断片の組み合わせに関する複数の特徴関数から得られる積算得点に基づいて第1言語の文に対応する第2言語の複数の可能訳文断片の組み合わせから第2言語の最適訳文断片の組み合わせを選択するように構成される選択部705と、最適訳文断片の組み合わせに基づいて第2言語の訳文を生成するように構成される訳文生成部710によって構成される。翻訳対象の第1言語の文は複数の断片に分離され、配列二カ国語用例コーパスは第1言語と第2言語の複数の例文対及び各文対間の配列情報を含み、第1言語の前述の複数の断片の各々に対応する第2言語の少なくとも1つの訳文断片により構成される。
【0104】
特に、この実施形態では、翻訳対象の第1言語の文は複数の断片に手動的または自動的に分離され、翻訳対象の第1言語の複数の断片の各々に対応する第2言語の1つ又は複数の訳文断片はマッチングによって整列二カ国語用例コーパスにおいて検索される。整列二カ国語用例コーパスは専門家(例えば、翻訳家)によって手動的に又はコンピュータによって自動的に整列された二カ国語用例コーパスであり、これは第1言語および第2言語の複数の例文対及び各文対間の配列情報で構成される。本発明は翻訳対象の第1言語の文を分離する方法に特に限定されず、翻訳対象文だけがその訳文断片が整列二カ国語用例コーパスに見つけることができる有効断片に分離できるならば従来の任意の方法が使用できる。
【0105】
次に、上記複数の特徴関数及び計算部701によって計算される訳文断片の組み合わせに関する複数の特徴関数から得られる積算得点の計算処理の詳細な説明を行う。
【0106】
本実施形態では、上述の特徴関数は二カ国語例文に基づいて機械翻訳システムの訳文生成モデルに含まれる複数種類の翻訳知識(このモデルでは、翻訳知識は特徴関数と呼ぶ)、例えば、二カ国語例文と入力文との類似性計算する特徴関数、二カ国語例文の信頼性及び生成訳文の流暢さを示す。
【0107】
実施形態の特徴関数は限定されないが次の種類により構成される。即ち、
A:ソース言語から目的言語への語の翻訳確率
【数15】

【0108】
B:目的言語からソース言語への語の翻訳確率
【数16】

【0109】
C:ソース言語から目的言語への語の翻訳確率
【数17】

【0110】
D:目的言語からソース言語への句の翻訳確率
【数18】

【0111】
E:長さに基づいた目的言語の選択確率
【数19】

【0112】
翻訳対象文に関して、この関数はより短い又はより長い訳文に対してより小さい値を与えることに成る
F:目的言語モデル
【数20】

【0113】
この関数の値が大きいほど生成される訳文の流暢さがよくなる。
【0114】
G:意味的類似性
【数21】

【0115】
この特徴関数の値が大きいほど、二カ国語例文と入力文との対応断片間の意味は近くなる。
【0116】
上記複数の関数において
hは特徴を示す。
【0117】
fは訳文対象文を示す。
【0118】
eは生成訳文を示す。
【0119】
eiは訳文の語を示す。
【0120】
fiは入力文の語を示す。
【0121】
e’iは訳文の句を示す。
【0122】
f’iは入力文の句を示す。
【0123】
aiはi番目のユニットと整列するユニット番号を示す。
【0124】
Iはeの長さを示す。
【0125】
Jはfの長さを示す。
【0126】
M(z,f)は二カ国語例文及び入力文の対応断片間の意味的類似性を示す。
【0127】
特に、特徴関数A,B及びEは上記文献1に示されている。
【0128】
特徴関数C及びDは上記文献2に示されている。
【0129】
特徴関数Fは上記文献3に示されている。
【0130】
特徴関数Gは上記文献4に示されている。
【0131】
この実施形態では、上記特徴関数A〜Gが示されているが、本発明はこれに特に限定されず、訳文を生成するに寄与する任意の関数で構成できることは理解されるべきである。
【0132】
次に、訳文断片の組み合わせに関する上記複数の特徴関数から得られる積算得点の計算処理の詳細な説明を図2と関連して行う。
【0133】
図2は本発明の実施形態に従った計算部701によって積算得点を計算する例を示す略図である。図2において、先ず、翻訳対象の第1言語の文がN個の断片に分離される。SF[i]は翻訳対象文のi番目の断片を示す。次に、1つ又は複数の訳文断片が翻訳対象文の各断片に関して整列二カ国母用例コーパスにおいて選択される。TF[i,j]は翻訳対象文のi番目の断片に対応するj番目の訳文断片を示す。次に、これら選択された訳文断片はM個の特徴関数を用いてそれぞれ計算される。h[m]は訳文断片に関するm番目の特徴関数を示す。このとき、積算得点は次式(1)に基づいてログ線形モデルを用いて計算される。
【数22】

【0134】
但し、hはm番目の関数を示し、λはm番目の特徴関数の重みを示し、fは翻訳対象の前記第1言語の前記文を示し、eは前記第2言語の前記訳文断片の組み合わせを示し、Eはeを生成するために必要な訳文断片の集まりを示し、s(e)はeに関する前記複数の特徴関数から得られる前記積算得点を示す。
【0135】
この実施形態では、訳文断片の組み合わせに関する複数の特徴関数から得られる積算得点が計算部701によって計算されるとき各特徴関数の重みが考慮するのが望ましい。特徴関数の重みの訓練方法は上記文献5に示されている。しかしながら、上述の積算得点は各特徴関数の重みを考慮しないでログ線形モデルで訳文断片の組み合わせに関する各特徴関数から得られる得点を積算することによって直接に計算できることは理解すべきである。
【0136】
この実施形態では、最高得点を持つ訳文断片の組み合わせは図2に示す上述の方法を用いて計算部701によって計算された全ての訳文断片の組み合わせの各々に関する上述の複数の特徴関数から得られる積算得点を有する第2言語の最適訳文断片の組み合わせとして選択部705によって選択される。
【0137】
随意的に、この実施形態では、第2言語の最適訳文断片の組み合わせは検索部を用いて第1言語の文に対応する第2言語の複数の訳文断片の組み合わせから選択部705によって選択できる。この実施形態では、検索部は従来から知られている任意の装置、例えば、ビーム検索アルゴリズム、A検索アルゴリズム及びA*検索アルゴリズム等の検索装置によって構成される。この発明はこれに特に限定されない。検索アルゴリズムの詳細なプロセスの詳細な説明は図3と関連して図4の実施形態において行う。下記実施形態との違いは、この実施形態では、翻訳対象の第1言語の文は複数の断片に分離されてしまっており、翻訳対象の文の全ての可能な断片は検索アルゴリズムによって行う必要がない。
【0138】
随意的に、本実施形態では、翻訳対象の言語の文が複数の分離体系に分離できる。例えば、翻訳対象文は見つけられた全ての断片に基づいて分離アルゴリズムによって自動的に分離される。例えば、
翻訳対象文=“w1 w2 w3 w4 w5 w6 w7 w8 w9”
有効断片は
F1 = w1 w2 w3
F2 = w4 w5 w6
F3 = w7 w8 w9
F4 = w1 w2 w3 w4
F5 = w5 w6 w7 w8 w9
によって構成される。
【0139】
上記断片は2つの分離体系“f1 f2 f3”又は“f4 f5”で構成できる。
【0140】
第1分離体系“f1 f2 f3”に対しては、第2言語の最適訳文断片の組み合わせが選択部705を用いて選択される。分離体系“f1 f2 f3”の全ての訳文断片の組み合わせに関する上記複数の特徴関数から求められる積算得点は図2に示す上記方法を用いて計算部701によって計算される。最高得点を有する訳文断片の組み合わせは第2言語の最適訳文断片の組み合わせとして選択部705を用いて選択され、又は第2言語の最適訳文断片の組み合わせは検索部を用いて第1言語の文に対応する第2言語の複数の訳文断片の組み合わせから選択部705によって選択できる。
【0141】
第2分離体系“f4 f5”に対しては、第2言語の最適訳文断片の組み合わせが選択部705を用いて選択される。分離体系“f4 f5”の全ての訳文断片の組み合わせに関する上記複数の特徴関数から得られる積算得点は図2に示される上記方法を用いて計算部701によって計算される。最高得点を持つ訳文断片の組み合わせが第2言語の最適訳文断片の組み合わせとして選択部705を用いて選択され、又は第2言語の最適訳文断片の組み合わせが検索部を用いて第1言語の文に対応する第2言語の複数の訳文断片の組み合わせから選択部705によって選択できる。
【0142】
それから、2つの分離体系の最適訳文断片の組み合わせの積算得点が比較され、高い得点を有する訳文断片の組み合わせが保持され、低い得点の訳文断片の組み合わせが削除され、それによって第2言語の最適訳文断片の組み合わせが翻訳対象第1言語の文に対して得られる。
【0143】
更に、第2言語の最適訳文断片の組み合わせが第1分離体系“f1 f2 f3”及び第2分離体系“f4 f5”に関して検索部を用いて第1言語の文に対応する第2言語の複数の訳文断片の組み合わせから選択部705によって選択できる。
【0144】
ここでは2つの分離体系が示されているが、本発明はこれに限定されず、2つ以上の分離体系を持つことができることは理解すべきである。この場合、各分離体系の計算が必要なだけであり、複数の分離体系は比較され、第2言語の最適訳文断片の組み合わせが最終的に得られる。
【0145】
この実施形態における訳文生成装置700及びその各構成部分は特別回路又はCMOSチップによって構成でき、また、関連プログラムを実行するコンピュータ(プロセッサ)によって実現できる。
【0146】
実施形態の訳文生成装置700を用いて、整列二ヶ国語例文が翻訳知識(即ち特徴関数)として使用され、訳文生成効率は規定に基づく訳文生成装置に有効に関連して得られる。同時に、この装置は特別なアプリケーションにおいてより良い品質を持つ訳文を生成できる。
【0147】
更に、生成した訳文は実施形態の訳文生成装置700を用いて異なる観点から複数種類の訳文知識と評価され、それにより高品質を持つ訳文が得られる。例えば、使用される訳文知識は意味的資源及び目的言語モデルにより構成されるので、生成された訳文の流暢さは望ましく、その上入力文との意味的類似性が非常に高い。
【0148】
更に、実施形態の訳文生成装置700は新たな翻訳知識を付加することによって拡張でき、それによって訳文の品質が更に向上できる。
【0149】
訳文生成装置
同じ発明概念に基づいて、図8は本発明の他の実施形態に従った訳文生成装置を示すブロック図である。次に、本実施形態を図8と関連して説明する。先の実施形態と同じ部分に対しては、その説明を適宜省略する。
【0150】
図8に示すように、本実施形態の訳文生成装置800は可能訳文断片又は訳文断片の組み合わせに関する複数の特徴関数から得られる積算得点を計算するように構成される計算部801と、検索部を用いて第2言語の最適訳文断片の組み合わせ選択するように構成され、積算得点が可能訳文断片又は訳文断片の組み合わせに関する複数の特徴関数から計算部801によって検索アルゴリズムのコストとして得られる選択部805と、上記最適訳文断片の組み合わせに基づいて第2言語の訳文を生成するように構成される訳文生成部810とによって構成される。整列二ヶ国語用例コーパスは第1言語と第2言語との複数の例文対及び各分対間の配列情報により構成され、翻訳対象第1言語の文は上記整列二ヶ国語用例コーパスに関して整合され、第1言語の上記文の各可能断片に対応する第2言語の少なくとも1つの訳文断片が得られる。
【0151】
特に、この実施形態では、翻訳対象の第1言語の各可能断片に対応する第2言語の1つ又は複数の訳文断片が整合によって整列二ヶ国語用例コーパスにおいて検索される。整列二ヶ国語用例コーパスは専門家(例えば、翻訳者)によって手動的に又はコンピュータによって自動的に整列される二ヶ国語用例コーパスである。それは第1言語と第2言語の複数の例文対及び各例文対間の配列情報により構成される。本発明は翻訳対処の第1言語の文を整合する方法に特に限定されなく、対応する訳文断片だけが翻訳対象文の可能断片毎に整列二ヶ国語用例コーパスにおいて見つけることができれば、従来から知られている任意の方法が使用できる。
【0152】
この実施形態では、検索部は従来から知られている任意の装置、例えば、ビーム検索アルゴリズム、A検索アルゴリズム及びA*検索アルゴリズム等を実行する検索装置で構成される。本発明はこれに特に限定されない。検索アルゴリズムの詳細なプロセスの詳細な説明を図3と関連して行う。図3は本発明の実施形態に従った検索アルゴリズムの例を示す略図である。ビーム検索アルゴリズムは検索アルゴリズムのプロセスを簡単に説明するための例として与えられ、詳細な説明は上記文献6及び7において分かる。
【0153】
図3の実施形態では、翻訳対象文は9つの語を持つと仮定される。各可能断片の訳文は整列二ヶ国語用例コーパスにおいて検索される。例えば、
【表2】

【0154】
図3において、各状態は
S:印、語が翻訳されれば、語が“*”の印が付けられ、そうでなく、語が翻訳されなければ、語は“−”の印が付けられる。
【0155】
T:“*”の語の訳文
得点:得られた訳文の積算得点
特に、ビーム検索アルゴリズムは次のように行われる。
【0156】
最初に、リスト(語=0...9)が初期化される。
【0157】
次に、s = 0 to 9に対して:
S[s]に各状態を拡張する。
【0158】
新状態は状態印に基づいて対応リストに記憶される。状態に翻訳された語の量がxならば、この状態は語リスト=xに記憶されることになる。
【0159】
リストの新たな状態と同じ状態があると、2つの状態が比較され、高得点を持つ状態が維持される。
【0160】
リストを取り除く。
【0161】
1つのリストの状態の量が所定の閾値より大きければ、小さい得点を持つ状態は取り除かれる。
【0162】
最後に、最高得点を持つ訳文断片の組み合わせ翻訳対象の第1言語の文に対して選択された第2言語の最適訳文断片の組み合わせとしてリストS[9]において検索される。
【0163】
上記検索アルゴリズムにおいて、各訳文断片又は各断片の組み合わせに関する複数の特徴関数から得られる積算得点は図2の上記実施形態の方法に基づいて計算部801によって計算される。その説明は適宜省略する。
【0164】
本実施形態における訳文生成装置800及びその構成部分は特別の回路又はCMOSチップで構成でき、また、関連プログラムを実行するコンピュータ(プロセッサ)によって実現できる。
【0165】
実施形態の訳文生成装置800を用いることによって、整列二ヶ国語例文が翻訳知識(即ち特徴関数)として使用され、訳文生成効率は規定に基づく訳文生成装置に有効に関連して得られる。同時に、この装置は特別なアプリケーションにおいてより良い品質を持つ訳文を生成できる。
【0166】
更に、生成された訳文は実施形態の訳文生成装置800を用いて異なる観点から複数種類の翻訳知識で評価され、それ故に高品質の訳文が得られる。例えば、使用される翻訳知識は意味的資源及び目的言語モデルで構成され、生成された訳文の流暢さは入力文との意味的類似性が非常に高いのと同様に好ましい。
【0167】
更に、実施形態の訳文生成装置800は新たな翻訳知識を付加することによって拡張でき、それによって訳文の品質が更に向上できる。
【0168】
更に、実施形態の訳文生成装置800は予め訳文対象の第1言語の文を分離する必要がなく、検索アルゴリズムを使用して高品質の訳文を生成する必要があるだけである。
【0169】
機械翻訳装置
同じ発明の概念に基づいて、図9は本発明の他の実施形態に従った機械翻訳装置を示すブロック図である。次に、本実施系を図9と関連して説明する。上記実施形態と同じ部分については、その説明は適宜省略する。
【0170】
図9に示されるように、本実施形態の機械翻訳装置900は翻訳対象の第1言語の文を複数の断片に分離するように構成される分離部901と、第2言語の訳文生成するように構成される訳文生成装置700により構成され、整列二ヶ国語用例コーパスは第1言語と第2言語の複数の例文対及び各例文対の間の配列情報で構成される。
【0171】
特に、この実施形態では、翻訳対象の第1言語の文は複数の断片に手動的又は自動的に分離され、翻訳対象の第1言語の複数の断片の各々に対応する第2言語の1つ又は複数の訳文断片がマッチングにより二ヶ国語用例コーパスにおいて検索される。整列二ヶ国語用例コーパスは専門家(例えば、翻訳者)によって手動的に又はコンピュータによって自動的に整列される二ヶ国語用例コーパスである。それは第1言語と第2言語の複数の例文対及び例文対の間の配列情報により構成される。本発明は翻訳対象の第1言語文を分離する方法に特に限定されなく、翻訳対象文だけが整列二ヶ国語用例コーパスにおいて見つけることができる有効な訳文断片に分離できれば、従来から知られている任意の方法が使用できることは理解されるべきである。
【0172】
実施形態の訳文生成装置700は図7の上述の実施形態の訳文生成装置であり、詳細な説明は上述の実施形態と同じであり、説明は省略する。
【0173】
この実施形態における機械翻訳装置900及びその各構成部分は特別な回路又はCMOSチップにより構成でき、また、関連プログラムを実行するコンピュータ(プロセッサ)によって実現できる。
【0174】
実施形態の機械翻訳装置900を使用することによって、整列二ヶ国語例文は翻訳知識(即ち特徴関数)として使用でき、機械翻訳の効率は規定に基づく機械翻訳装置に効率的に関連して得られる。同時に、この装置は特別のアプリケーションにおいてより良い品質を持つ訳文を生成できる。
【0175】
更に、生成された訳文は実施形態の機械翻訳装置900を用いて異なる観点から複数種類の訳文知識で評価され、それ故に高品質の訳文が得られる。例えば、使用される翻訳知識が意味的資源及び目的言語モデルにより構成され、生成される訳文の流暢さは望ましい、その上入力文との意味的類似性が非常に高い。
【0176】
更に、実施形態の機械翻訳装置900は新たな翻訳知識を追加することによって拡張でき、それによって訳文品質が更に向上できる。
【0177】
機械翻訳装置
同じ発明概念に基づいて、図10は本発明の他の実施形態に従った機械翻訳装置を示すブロック図である。次に、本実施形態を図10と関連して説明する。上記実施形態と同じ部分については、その説明は適宜省略する。
【0178】
図10に示されるように、本実施形態の機械翻訳装置1000は翻訳対象の第1言語の文を上述の整列二ヶ国語用例コーパスに対して整合し、第1言語の上述の文の各可能断片に対応する第2言語の少なくとも1つの訳文断片を得るように構成される整合部1001及び第2言語の訳文を生成するように構成される訳文生成装置800により構成され、整列二ヶ国語用例コーパスは第1言語と第2言語の複数の例文対及び各例文間の配列情報により構成される。
【0179】
特に、この実施形態では、翻訳対象の第1言語の各可能断片に対応する第2言語の1つ又は複数の訳文断片が整合によって整列二ヶ国語用例コーパスにおいて検索される。整列二ヶ国語用例コーパスは専門家(例えば、翻訳者)によって手動的に又はコンピュータによって自動的に整列される二ヶ国語用例コーパスである。それは第1言語と第2言語の複数の例文対及び各例文対間の配列情報により構成される。本発明は翻訳対象の第1言語の文を整合する方法に特に限定されなく、対応する訳文断片だけが翻訳対象の文の可能断片毎に整列二ヶ国語用例コーパスにおいて見つけることができれば、従来から知られている任意の方法が使用できる。
【0180】
実施形態の訳文生成装置800は図8の上述の実施形態の訳文生成装置であり、詳細な説明は上述の実施形態と同じであり、説明は省略する。
【0181】
この実施形態における機械翻訳装置1000及びその各構成部分は特別な回路又はCMOSチップにより構成でき、また、関連プログラムを実行するコンピュータ(プロセッサ)によって実現できる。
【0182】
実施形態の機械翻訳装置1000を使用することによって、整列二ヶ国語例文は翻訳知識(即ち特徴関数)として使用でき、機械翻訳の効率は規定に基づく機械翻訳装置に効率的に関連して得られる。同時に、この装置は特別のアプリケーションにおいてより良い品質を持つ訳文を生成できる。
【0183】
更に、生成された訳文は実施形態の機械翻訳装置1000を用いて異なる観点から複数種類の訳文知識で評価され、それ故に高品質の訳文が得られる。例えば、使用される翻訳知識が意味的資源及び目的言語モデルにより構成され、生成される訳文の流暢さは望ましく、その上入力文との意味的類似性が非常に高い。
【0184】
更に、実施形態の機械翻訳装置1000は新たな翻訳知識を追加することによって拡張でき、それによって訳文品質が更に向上できる。
【0185】
更に、実施形態の訳文生成装置1000は予め訳文対象の第1言語の文を分離する必要がなく、検索アルゴリズムを使用して高品質の訳文を生成する必要があるだけである。
【0186】
訳文生成方法、機械翻訳方法、訳文生成装置、機械翻訳装置は幾つかの実施形態で詳細に説明したが、これら実施形態は網羅的ではない。当業者は本発明の精神及び範囲内で種々変更及び変形することができる。故に、本発明はこれら実施形態に限定されなく、むしろ、本発明の範囲は請求の範囲によって決められるだけである。
【図面の簡単な説明】
【0187】
【図1】図1は本発明の実施形態に従った訳文生成方法を示すフローチャートである。
【図2】本発明の実施形態に従った積算得点を算出する例を示す略図である。
【図3】本発明の実施形態に従った検索アルゴリズムの例を示す略図である。
【図4】本発明の他の実施形態に従った訳文生成方法を示すフローチャート図である。
【図5】本発明の他の実施形態に従った機械翻訳方法を示すフローチャートである。
【図6】本発明の他の実施形態に従った機械翻訳方法を示すフローチャートである。
【図7】本発明の他の実施形態に従った訳文生成装置を示すブロック図である。
【図8】本発明の他の実施形態に従った訳文生成装置を示すブロック図である。
【図9】本発明の他の実施形態に従った機械翻訳装置を示すブロック図である。
【図10】本発明の他の実施形態に従った機械翻訳装置を示すブロック図である。

【特許請求の範囲】
【請求項1】
翻訳対象の第1言語の文に基づいて第2言語の訳文を生成する訳文生成方法であって、
複数の断片に分割される前記第1言語と第2言語の複数の文例対と各文例対の間の配列情報とにより構成され、かつ前記第1言語の前記複数の断片の各々に対応する前記第2言語の少なくとも1つの訳文断片により構成される整列二カ国語用例コーパスから、前記複数の断片に分割された前記第1言語の前記文に対応する前記第2言語の複数の可能訳文断片の組み合わせから翻訳断片の組み合わせに関する複数の特徴関数から得られる積算得点に基づいて前記第2言語の最適訳文断片の組み合わせを選択するステップと、
前記最適訳文断片の組み合わせに基づいて前記第2言語の訳文を生成するステップと、
を含む、訳文生成方法。
【請求項2】
前記選択ステップは、前記複数の可能訳文断片の組み合わせの各々に関する複数の特徴関数から得られる積算得点に基づいて前記第2言語の最適訳文断片の組み合わせを選択するステップを含む、請求項1に従った方法。
【請求項3】
翻訳対象の前記第1言語の文は複数の分離体系に分離され、前記選択ステップは、前記複数の分離体系の各々の訳文断片の組み合わせに関する複数の特徴関数から得られる積算得点に基づいて前記第2言語の最適訳文断片の組み合わせを選択するステップを含む、請求項1に従った方法。
【請求項4】
前記選択ステップは、前記複数の分離体系の各々の前記複数の訳文断片の組み合わせの各々に関する複数の特徴関数から得られる積算得点に基づいて前記第2言語の最適訳文断片の組み合わせを選択するステップを含む、請求項3に従った方法。
【請求項5】
訳文断片の組み合わせに関する複数の特徴関数から得られる前記積算得点は前記訳文断片の組み合わせに関する前記複数の特徴関数の各々から得られる得点をログ線形モデルで積算することによって得られる、請求項1乃至4のいずれか1に従った方法。
【請求項6】
訳文断片の組み合わせに関する複数の特徴関数から得られる前記積算得点を算出するステップは前記複数の特徴関数の各々の重みを考慮する、請求項5に従った方法。
【請求項7】
訳文断片の組み合わせに関する複数の特徴関数から得られる前記積算得点を計算するステップは次式によって行われる、
【数1】

但し、hはm番目の関数を示し、λはm番目の特徴関数の重みを示し、fは翻訳対象の前記第1言語の前記文を示し、eは前記第2言語の前記訳文断片の組み合わせを示し、Eはeを生成するために必要な訳文断片の集まりを示し、s(e)はeに関する前記複数の特徴関数から得られる前記積算得点を示す、請求項6に従った方法。
【請求項8】
前記選択ステップは、検索アルゴリズムを用いて前記第2言語の最適訳文断片の組み合わせを選択するステップを含み、積算得点は可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から前記検索アルゴリズムのコストとして得られる、請求項1又は3に従った方法。
【請求項9】
翻訳対象の前記第1言語の前記文は複数の分離体系に分離され、前記選択ステップは、検索アルゴリズムを用いて前記第2言語の最適訳文断片の組み合わせを選択するステップを含み、積算得点は可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から前記検索アルゴリズムのコストとして得られる、請求項1に従った方法。
【請求項10】
可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から得られる前記積算得点は前記可能訳文断片又は前記訳文断片の組み合わせに関する前記複数の特徴関数の各々からログ線形モデルによって得られる積算得点によって算出される、請求項8又は9に従った方法。
【請求項11】
可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から得られる前記積算得点を計算するステップは更に前記複数の特徴関数の各々の重みを考慮する、請求項10に従った方法。
【請求項12】
可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から得られる前記積算得点を計算するステップは次式によって行われる、
【数2】

但し、hはm番目の関数を示し、λはm番目の特徴関数の重みを示し、fは翻訳対象の前記第1言語の前記文を示し、eは前記第2言語の前記訳文断片の組み合わせを示し、Eはeを生成するために必要な訳文断片の集まりを示し、s(e)はeに関する前記複数の特徴関数から得られる前記積算得点を示す、請求項11に従った方法。
【請求項13】
前記複数の特徴関数はソース言語から目的言語への語の翻訳確率、目的言語からソース言語への語の翻訳確率、ソース言語から目的言語への句の翻訳確率、目的言語からソース言語への句の翻訳確率、長さに基づく目的言語の選択確率、目的言語モデル及び意味類似性から選択される任意の関数を含む、請求項7又は12に従った方法。
【請求項14】
整列2言語用例コーパスが第1言語と第2言語の複数の例文対と各文対の間の配列情報とにより構成され、翻訳対象の前記第1言語の文が前記整列言語用例コーパスに関して整合され、前記第1言語の前記文の各断片に対応する前記第2言語の少なくとも1つの訳文断片が得られる、訳文生成方法であって、
検索アルゴリズムを用いて前記第2言語の最適訳文断片の組み合わせを選択すること、
積算得点は積算得点を可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から前記検索アルゴリズムのコストとして得るステップと、
前記最適訳文断片の組み合わせに基づいて前記第2言語の訳文を生成するステップと、
を含む、訳文生成方法。
【請求項15】
可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から得られる前記積算得点は前記可能訳文断片又は前記訳文断片の組み合わせに関する前記複数の特徴関数の各々からログ線形モデルによって得られる積算得点によって算出される、請求項14に従った方法。
【請求項16】
可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から得られる前記積算得点を計算するステップは更に前記複数の特徴関数の各々の重みを考慮する、請求項15に従った方法。
【請求項17】
可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から得られる前記積算得点を計算するステップは次式によって行われる、
【数3】

但し、hはm番目の関数を示し、λはm番目の特徴関数の重みを示し、fは翻訳対象の前記第1言語の前記文を示し、eは前記第2言語の前記訳文断片の組み合わせを示し、Eはeを生成するために必要な訳文断片の集まりを示し、s(e)はeに関する前記複数の特徴関数から得られる前記積算得点を示す、請求項16に従った方法。
【請求項18】
前記複数の特徴関数はソース言語から目的言語への語の翻訳確率、目的言語からソース言語への語の翻訳確率、ソース言語から目的言語への句の翻訳確率、目的言語からソース言語への句の翻訳確率、長さに基づく目的言語の選択確率、目的言語モデル及び意味類似性から選択される任意の関数を含む、請求項17に従った方法。
【請求項19】
整列二カ国語用例コーパスは第1言語と第2言語の複数の例文対及び各文対間の配列情報を含む、機械翻訳方法であって、
翻訳対象の前記第1言語の文を複数の断片に分離するステップと、
請求項1乃至13のいずれか1に従った訳文生成方法によって前記第2言語の訳文を生成するステップと、
を含む、機械翻訳方法。
【請求項20】
整列二ヶ国語用例コーパスは第1言語と第2言語の複数の例文対及び各文対間の配列情報を含む、機械翻訳方法であって、
前記第1言語の前記文の各可能断片に対応する前記第2言語の少なくとも1つの訳文断片を得るため前記整列二ヶ国語用例コーパスに関して翻訳対象の前記第1言語の文を整合するステップと、
請求項14乃至18のいずれか1に従った訳文生成方法によって前記第2言語の訳文を生成するステップと、
を含む、機械翻訳方法。
【請求項21】
翻訳対象の第1言語の文は複数の断片に分割され、整列二カ国語用例コーパスは前記第1言語と第2言語の複数の文例対と各文例対の間の配列情報とにより構成され、かつ前記第1言語の前記複数の断片の各々に対応する前記第2言語の少なくとも1つの訳文断片により構成される、訳文生成装置であって、
前記第1言語の前記文に対応する前記第2言語の複数の可能訳文断片の組み合わせから翻訳断片組み合わせに関する複数の特徴関数から得られる積算得点に基づいて前記第2言語の最適訳文断片の組み合わせを選択する選択部と、
前記最適訳文断片の組み合わせに基づいて前記第2言語の訳文を生成する訳文生成部と、
を含む、訳文生成装置。
【請求項22】
前記選択部は、前記複数の可能訳文断片の組み合わせの各々に関する複数の特徴関数から得られる積算得点に基づいて前記第2言語の最適訳文断片の組み合わせを選択するよう構成される、請求項21に従った装置。
【請求項23】
翻訳対象の前記第1言語の文は複数の分離体系に分離され、前記選択部は、前記複数の分離体系の各々の訳文断片の組み合わせに関する複数の特徴関数から得られる積算得点に基づいて前記第2言語の最適訳文断片の組み合わせを選択するように構成される、請求項21に従った装置。
【請求項24】
前記選択部は、前記複数の分離体系の各々の前記複数の訳文断片の組み合わせの各々に関する複数の特徴関数から得られる積算得点に基づいて前記第2言語の最適訳文断片の組み合わせを選択するよう構成される、請求項23に従った装置。
【請求項25】
前記訳文断片に関する前記複数の特徴関数の各々から得られる得点をログ線形モデルで積算することによって訳文断片の組み合わせに関する複数の特徴関数から得られる前記積算得点を計算するように構成される計算部を更に含む、請求項21乃至24のいずれか1に従った装置。
【請求項26】
前記計算部は訳文断片の組み合わせに関する複数の特徴関数から得られる前記積算得点の計算中に前記複数の特徴関数の各々の重みを更に考慮する、請求項25に従った装置。
【請求項27】
前記計算部は次式によって訳文断片の組み合わせに関する複数の関数から得られる前記積算得点を計算する、
【数4】

但し、hはm番目の関数を示し、λはm番目の特徴関数の重みを示し、fは翻訳対象の前記第1言語の前記文を示し、eは前記第2言語の前記訳文断片の組み合わせを示し、Eはeを生成するために必要な訳文断片の集まりを示し、s(e)はeに関する前記複数の特徴関数から得られる前記積算得点を示す、請求項26に従った装置。
【請求項28】
前記選択部は、検索アルゴリズムを用いて前記第2言語の最適訳文断片の組み合わせを選択するよう構成され、積算得点は可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から前記検索アルゴリズムのコストとして得られる、請求項21又は23に従った装置。
【請求項29】
翻訳対象の前記第1言語の前記文は複数の分離体系に分離され、前記選択部は、検索アルゴリズムを用いて前記第2言語の最適訳文断片の組み合わせを選択するように構成され、積算得点は可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から前記検索アルゴリズムのコストとして得られる、請求項21に従った装置。
【請求項30】
可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から得られる前記積算得点を、前記可能訳文断片又は前記訳文断片の組み合わせに関する前記複数の特徴関数の各々から得られる得点をログ線形モデルによって積算することによって算出するように構成される計算部を更に具備する、請求項28又は29に従った装置。
【請求項31】
可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から得られる前記積算得点を計算するステップは更に前記複数の特徴関数の各々の重みを考慮する、請求項10に従った方法。
【請求項32】
前記計算部は次式によって可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から得られる前記積算得点を計算するように構成される、
【数5】

但し、hはm番目の関数を示し、λはm番目の特徴関数の重みを示し、fは翻訳対象の前記第1言語の前記文を示し、eは前記第2言語の前記訳文断片の組み合わせを示し、Eはeを生成するために必要な訳文断片の集まりを示し、s(e)はeに関する前記複数の特徴関数から得られる前記積算得点を示す、請求項31に従った方法。
【請求項33】
前記複数の特徴関数はソース言語から目的言語への語の翻訳確率、目的言語からソース言語への語の翻訳確率、ソース言語から目的言語への句の翻訳確率、目的言語からソース言語への句の翻訳確率、長さに基づく目的言語の選択確率、目的言語モデル及び意味類似性から選択される任意の関数を含む、請求項32に従った方法。
【請求項34】
整列二カ国語用例コーパスは第1言語と第2言語の複数の例文対と各文対の間の配列情報とにより構成され、翻訳対象の前記第1言語の文は前記整列二ヶ国語用例コーパスに関して整合され、前記第1言語の前記文の各断片に対応する前記第2言語の少なくとも1つの訳文断片が求められる、訳文生成装置であって、
積算得点が可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から前記検索アルゴリズムのコストとして得られ、検索アルゴリズムを用いて前記第2言語の最適訳文断片の組み合わせを選択するよう構成される選択部と、
前記最適訳文断片の組み合わせに基づいて前記第2言語の訳文を生成するように構成される訳文生成部と、
を具備する、訳文生成装置。
【請求項35】
可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数の各々から得られる積算得点をログ線形モデルによって積算することによって前記可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から得られる前記積算得点を計算するように構成される計算部を更に具備する、請求項34に従った装置。
【請求項36】
前記計算部は可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から得られる前記積算得点の計算中に前記複数の特徴関数の各々の重みを更に考慮する、請求項35に従った装置。
【請求項37】
前記計算部は次式によって可能訳文断片又は訳文断片の組み合わせに関する前記複数の特徴関数から得られる前記積算得点を計算するよう構成される、
【数6】

但し、hはm番目の関数を示し、λはm番目の特徴関数の重みを示し、fは翻訳対象の前記第1言語の前記文を示し、eは前記第2言語の前記訳文断片の組み合わせを示し、Eはeを生成するために必要な訳文断片の集まりを示し、s(e)はeに関する前記複数の特徴関数から得られる前記積算得点を示す、請求項16に従った方法。
【請求項38】
前記複数の特徴関数はソース言語から目的言語への語の翻訳確率、目的言語からソース言語への語の翻訳確率、ソース言語から目的言語への句の翻訳確率、目的言語からソース言語への句の翻訳確率、長さに基づく目的言語の選択確率、目的言語モデル及び意味類似性から選択される任意の関数を含む、請求項37に従った方法。
【請求項39】
整列二ヶ国語用例コーパスは第1言語と第2言語の複数の例文対及び各文対間の配列情報を含む、機械翻訳装置であって、
翻訳対象の前記第1言語の文を複数の断片に分離する分離部と、
前記第2言語の訳文を生成する、請求項21乃至33のいずれか1に従った訳文生成装置と、
を具備する、機械翻訳装置。
【請求項40】
整列二ヶ国語用例コーパスは第1言語と第2言語の複数の例文対及び各文対間の配列情報を含む、機械翻訳装置であって、
前記第1言語の前記文の各可能断片に対応する前記第2言語の少なくとも1つの訳文断片を得るため前記整列二ヶ国語用例コーパスに関して翻訳対象の前記第1言語の文を整合する整合部と、
前記第2言語の訳文を生成する、請求項34乃至38のいずれか1に従った訳文生成装置と、
を具備する、機械翻訳装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2008−234645(P2008−234645A)
【公開日】平成20年10月2日(2008.10.2)
【国際特許分類】
【出願番号】特願2008−66041(P2008−66041)
【出願日】平成20年3月14日(2008.3.14)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】