説明

機械翻訳装置、機械翻訳方法、およびプログラム

【課題】翻訳規則として記述しにくいまたは記述しきれない文法現象に対する正確な翻訳規則を必要とすることなく、機械翻訳を行う。
【解決手段】翻訳規則として記述しにくいまたは記述しきれない文法現象を持つ語彙を、特定パターンとして予め特定パターンDB103に登録しておき、この特定パターンが第1言語の入力文に含まれていた場合には、当該特定パターンの解析結果と対応する第2言語の語彙または構文情報を翻訳DB108から取得し、この第2言語の語彙または構文情報と第2言語統計的モデル104に格納されている統計的共起情報とを用いて、誤り検出・校正部107により、第1言語を翻訳して得られた第2言語翻訳文の誤りを検出し、当該第2言語翻訳文を校正する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、翻訳技術に関し、特に翻訳辞書または翻訳規則を用いて、第1言語を第2言語に機械翻訳する技術に関する。
【背景技術】
【0002】
従来、ルールベースを用いた機械翻訳の翻訳精度を向上するために、前編集規則や後編集規則による半自動または全自動編集を行う技術が、例えば、特許文献1−3で提案されている。
【0003】
この特許文献1に記載された機械翻訳後編集支援装置は、図15に示すように、表示部と、表示制御部と、文章記憶部と、入力制御部と、入力部と、自動後編集処理部と、自動後編集規則記憶部とで構成されている。
この特許文献1では、機械翻訳後編集支援装置として、自動後編集規則を用いて、自動後編集文判別部の判別結果に基づいて自動後編集文であると判別された文と自動後編集文であると判別されなかった文とを区別して表示部に表示させている。
【0004】
また、特許文献2に記載された機械翻訳におけるテキスト自動前編集装置は、図16に示すように、文章入力部と、入力文章を記憶する文章バッファと、形態素解析部と、辞書と、前編集ルール群と、前編集ルール群内に格納されたルール群から所定の検索パターンを検出して所定の処理を行って機械翻訳に適した形に前編集処理を行う制御処理部と、文章バッファと、出力部とで構成されている。
この特許文献2では、前編集規則群を機械翻訳システムに適用することで、自動前編集装置を実現している。
【0005】
また、特許文献3に記載された機械翻訳用ルール生成装置は、対訳例として第1自然言語の表現と、その対訳となる第2自然言語の表現を入力する入力部と、入力された対訳例の第1自然言語を第2自然言語に変換する変換規則を同定する変換規則同定手段と、同定された変換規則の第1自然言語の条件に適合する表現を第1自然言語コーパスから抽出する第1自然言語表現抽出手段と、抽出された第1自然言語の表現に同定された変換規則を適用して、第1自然言語に対応する第2自然言語の表現の候補を生成する第2自然言語表現生成部と、生成された第2自然言語の表現の妥当性を第2自然言語コーパスを用いて検証し、妥当な表現を出力する第2自然言語表現検証手段と、第1自然言語表現抽出手段によって第1自然言語コーパスから抽出された表現と、第2自然言語表現検証手段によって出力された第2自然言語の表現の組を新たな翻訳ルールとして追加するルール追加手段とで構成される。
この特許文献3では、対訳例から翻訳ルールを自動的に取得している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平7−28818号公報
【特許文献2】特開平06−139274号公報
【特許文献3】特許第003329371号
【非特許文献】
【0007】
【非特許文献1】Martin, S., Liermann, J. and Ney, H., 1998, "Algorithms for bigram and trigram word clustering", Speech Communication, 24(1998), 19-37.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、このような従来技術では、ルールベースの機械翻訳装置において、前編集規則、後編集規則、翻訳規則として記述しにくいまたは記述しきれない文法現象について、その正確な翻訳規則を作成するコストが高くなるという問題がある。
その理由は、従来技術によれば、翻訳規則として記述しにくいまたは記述しきれない文法現象に対して、前編集規則、後編集規則、翻訳規則を作成するための網羅性のある対訳用例データをたくさん集める必要があるためである。
【0009】
つまり、翻訳規則として記述しにくいまたは記述しきれない文法現象については、翻訳規則の数が膨大であることから、2言語間の対応が取れた網羅性の高い用例データがなければ、汎用的な前編集規則、後編集規則、翻訳規則を取得できない。
しかし、翻訳規則として記述しにくいまたは記述しきれない文法現象を網羅的に反映できる2言語間の対応を取れた用例の収集は高いコストを要する。
【0010】
日中機械翻訳システムを例として説明すると、日本語の連体修飾における中国語定語の生成処理、日本語の連用修飾における中国語状語の生成処理、および、日本語から中国語補語への生成処理を行うために、対応する中国語生成用翻訳規則の数は数え切れないほど存在する。特に、高精度な日中翻訳システムを構築するために、中国語の定語、状語、補語が複数ある際に、その並び順に関連する生成規則、および各分成分と共存する中国語構造助詞「的」、「地」、「得」を生成するかしないかの判定にも、より厳密な文法分析を行った上で、中国語生成規則を細かく作成する必要がある。しかし、これらの規則を作成するために、人手による文法現象の抽象化や翻訳規則の作成など、煩雑な文法現象に応じて、膨大な数の変換規則を作成する必要となり、高いコストを要する。
【0011】
本発明はこのような課題を解決するためのものであり、翻訳規則として記述しにくいまたは記述しきれない文法現象に対する正確な翻訳規則を必要とすることなく、機械翻訳を行うことができる機械翻訳技術を提供することにある。
【課題を解決するための手段】
【0012】
このような目的を達成するために、本発明にかかる機械翻訳装置は、第1言語で表現された入力文に対して形態素・構文解析を行う形態素・構文解析部と、第1言語を第2言語に翻訳するために用いる翻訳辞書または翻訳規則からなる翻訳データベースと、形態素・構文解析部の解析結果と翻訳データベースとを参照し、入力文に対応する翻訳結果として第2言語翻訳文を生成する第2言語生成部と、第1言語で用いられる特定の語彙を特定パターンとして格納する特定パターンデータベースと、形態素・構文解析部の解析結果から、特定パターンデータベースに格納されている特定パターンを検出し、得られた特定パターンの解析結果と対応する第2言語の語彙または構文情報を翻訳データベースから取得する特定パターン検出部と、第2言語で用いられる語彙の共起に関する統計的共起情報を格納する第2言語統計的モデルと、特定パターン検出部で得られた第2言語の語彙または構文情報と第2言語統計的モデルに格納されている統計的共起情報とを用いて、第2言語生成部で生成された第2言語翻訳文の誤りを検出し、当該第2言語翻訳文を校正する誤り検出・校正部とを備えている。
【0013】
また、本発明にかかる機械翻訳方法は、第1言語を第2言語に翻訳する機械翻訳装置で用いられる機械翻訳方法であって、形態素・構文解析部が、第1言語で表現された入力文に対して形態素・構文解析を行う形態素・構文解析ステップと、第2言語生成部が、形態素・構文解析部の解析結果と、第1言語を第2言語に翻訳するために用いる翻訳辞書または翻訳規則からなる翻訳データベースとを参照し、入力文に対応する翻訳結果として第2言語翻訳文を生成する第2言語生成ステップと、特定パターン検出部が、形態素・構文解析部の解析結果から、第1言語で用いられる特定の語彙を特定パターンとして格納する特定パターンデータベースに格納された特定パターンを検出し、得られた特定パターンの解析結果と対応する第2言語の語彙または構文情報を翻訳データベースから取得する特定パターン検出ステップと、誤り検出・校正部が、特定パターン検出部で得られた第2言語の語彙または構文情報と、第2言語で用いられる語彙の共起に関する統計的共起情報を格納する第2言語統計的モデルに格納されている統計的共起情報とを用いて、第2言語生成部で生成された第2言語翻訳文の誤りを検出し、当該第2言語翻訳文を校正する誤り検出・校正ステップとを備えている。
【0014】
また、本発明にかかるプログラムは、第1言語を第2言語に翻訳する機械翻訳装置のコンピュータに、形態素・構文解析部が、第1言語で表現された入力文に対して形態素・構文解析を行う形態素・構文解析ステップと、第2言語生成部が、形態素・構文解析部の解析結果と、第1言語を第2言語に翻訳するために用いる翻訳辞書または翻訳規則からなる翻訳データベースとを参照し、入力文に対応する翻訳結果として第2言語翻訳文を生成する第2言語生成ステップと、特定パターン検出部が、形態素・構文解析部の解析結果から、第1言語で用いられる特定の語彙を特定パターンとして格納する特定パターンデータベースに格納された特定パターンを検出し、得られた特定パターンの解析結果と対応する第2言語の語彙または構文情報を翻訳データベースから取得する特定パターン検出ステップと、誤り検出・校正部が、特定パターン検出部で得られた第2言語の語彙または構文情報と、第2言語で用いられる語彙の共起に関する統計的共起情報を格納する第2言語統計的モデルに格納されている統計的共起情報とを用いて、第2言語生成部で生成された第2言語翻訳文の誤りを検出し、当該第2言語翻訳文を校正する誤り検出・校正ステップとを実行させる。
【発明の効果】
【0015】
本発明によれば、第1言語から第2言語へのルールベースの機械翻訳装置において、翻訳規則として記述しにくいまたは記述しきれない文法現象に対する正確な翻訳規則を必要とすることなく、機械翻訳を行うことができる。
これにより、翻訳規則として記述しにくいまたは記述しきれない文法現象に対して、翻訳規則の作成に必要となるコストを削減することが可能となる。
【図面の簡単な説明】
【0016】
【図1】本発明の第1の実施形態にかかる機械翻訳装置の構成を示すブロック図である。
【図2】日本語構文解析例を示す説明図である。
【図3】本発明の第1の実施形態にかかる機械翻訳装置で用いる特定パターンDBを示す説明図である。
【図4】本発明の第1の実施形態にかかる機械翻訳処理を示すフローチャートである。
【図5】本発明の第2の実施形態にかかる機械翻訳装置の構成を示すブロック図である。
【図6】本発明の第2の実施形態にかかる機械翻訳装置で用いる特定パターンDBを示す説明図である。
【図7】本発明の第2の実施形態にかかる機械翻訳装置で用いる特定パターンDBの構成例を示す説明図である。
【図8】本発明の第2の実施形態にかかる機械翻訳処理を示すフローチャートである。
【図9】本発明の第3の実施形態にかかる機械翻訳装置の構成を示すブロック図である。
【図10】本発明の第4の実施形態にかかる機械翻訳装置の構成を示すブロック図である。
【図11】本発明の第1の実施例にかかる機械翻訳装置の構成を示すブロック図である。
【図12】本発明の第1の実施例にかかる機械翻訳処理を示すフローチャートである。
【図13】本発明の第2の実施例にかかる機械翻訳装置の構成を示すブロック図である。
【図14】本発明の第2の実施例にかかる機械翻訳処理を示すフローチャートである。
【図15】従来の機械翻訳後編集支援装置の構成を示すブロック図である。
【図16】従来の機械翻訳自動前編集システムの構成を示すブロック図である。
【発明を実施するための形態】
【0017】
次に、本発明の実施形態について図面を参照して説明する。
[第1の実施形態]
まず、図1を参照して、本発明の第1の実施形態にかかる機械翻訳装置について説明する。図1は、本発明の第1の実施形態にかかる機械翻訳装置の構成を示すブロック図である。
【0018】
機械翻訳装置100は、全体としてコンピュータなどの情報処理装置からなり、入力された第1言語を第2言語へ機械翻訳する機能を有している。
この機械翻訳装置100には、主な機能部として、第1言語入力部101、形態素・構文解析部102、特定パターンデータベース(以下、特定パターンDBという)103、第2言語統計的モデル104、特定パターン検出部105、第2言語生成部106、誤り検出・校正部107、翻訳データベース(以下、翻訳DBという)108、および第2言語出力部109が設けられている。
【0019】
第1言語入力部101は、キーボードなどの操作入力装置や外部装置(図示せず)からデータを取得する入力インターフェース回路からなり、翻訳対象となる第1言語の入力文を入力する機能を有している。
【0020】
形態素・構文解析部102は、第1言語入力部101で入力された第1言語の入力文に対して、形態素解析処理および構文解析処理を行う機能を有している。
図2は、日本語構文解析例を示す説明図である。ここでは、日本語入力文「一番近いレストランの駐車所は満員です」に対する日本語構文解析例が示されている。日本語入力文が形態素からなる語彙に分解され、これら語彙の品詞と組み合わせが示されている。
【0021】
特定パターンDB103は、第1言語で用いられる特定の語彙を示す特定パターンを、形態素・構文解析部102の解析結果として付与される第1言語側の情報で記述して格納するデータベースであり、ハードディスクなどの記憶装置からなる記憶部に格納されている。
【0022】
第2言語統計的モデル104は、第2言語で用いられる語彙の共起に関する統計的共起情報を格納する統計的モデルであり、記憶部に格納されている。例えば、第2言語単言語コーパスで、N−gram、決定木、SVM(Support Vector Machine)、最大エントロピー、HMM(Hidden Markov Model:隠れマルコフモデル)、ベイズ学習等の統計的手法を用いて構築できる。無論、これらの統計的手法に限定されない。第2言語統計的モデル104には、統計的共起情報として、第2言語の語彙または構文情報に関する、表記、原型、活用形、品詞、格フレーム、時制、態、相、意味分類、または、係り受け関係を有する共起パターンのうち、いずれか1つ以上に関する統計的共起情報が格納されている。
【0023】
特定パターン検出部105は、形態素・構文解析部102で得られた解析結果から、特定パターンDB103に格納されている特定パターンを検出する機能と、この検索で得られた特定パターンの解析結果と対応する第2言語の語彙または構文情報を翻訳DB108から取得する機能とを有している。
第2言語生成部106は、形態素・構文解析部102で得られた解析結果と翻訳DB108とを参照して、第1言語の入力文を第2言語に翻訳し、得られた翻訳結果として第2言語翻訳文を生成する機能を有している。
【0024】
誤り検出・校正部107は、特定パターン検出部105で得られた第2言語の語彙または構文情報と第2言語統計的モデル104に格納されている統計的共起情報とを用いて、第2言語生成部106で生成された第2言語翻訳文の誤りを検出する機能と、当該第2言語翻訳文の誤りを自動校正する機能とを有している。誤り検出・校正部107での誤り検出処理としては、第2言語統計的モデルを用いて、第2言語生成部で生成された第2言語翻訳文から、不要成分の検出、欠落成分の検出、または、語順の誤り検出のうちのいずれか1つの誤り検出処理が行われる。
【0025】
また、誤り検出・校正部107では、第2言語統計的モデル104に登録された統計的モデルの学習素性や特徴量等を元に、第2言語翻訳文から第2言語統計的モデルに対応した学習素性や特徴量などの成分を抽出して、モデルに適用できるフォーマットに整形すれば、モデルに適用して最適解を推定できる。
例えば、語彙の表記情報、品詞、意味分類、係り受け関係を有するパターン等を学習素性や特徴量として、頻度値、確率値、情報量などの共起情報量で重み付けて構築された第2言語統計的モデル104を用いて、誤り検出・校正部107での処理を行う場合、モデルの学習素性や特徴量に適したに素性抽出方法とアルゴリズムで第2言語翻訳文から誤り検出・校正処理を行えばよい。
【0026】
また、第2言語統計的モデル104として、第2言語単言語コーパスで構築されたN−gram言語統計的モデルやClass N−gramモデルを用いた場合、第2言語翻訳文から、特定パターンに応じた不要成分、欠落成分が存在するかどうかを検出する処理、または、文成分の語順の誤りが存在するかどうかを検出する処理を行う最も単純な計算方法の一例として、第2言語統計的モデル104で、第2言語翻訳文と特定パターン検出部105により取得された第2言語の語彙や構文情報との組み合わせから構成される生成文の大局的な統計情報量を最大となるものを最適な解とすればよい。また、文生起確率を計算する際に、第2言語生成文の語彙の字面の共起情報、または、品詞クラスの共起情報で計算すればよい。特に、N−gramを用いる際に、前向きのN−gramモデルと後向きのN−gramモデルを同時に使用してもよい。
【0027】
あるいは、第2言語統計的モデル104として、正例や負例の学習データでSVMを用いて構築されたモデルを用いた場合、誤り検出・校正部107では、SVMモデルを構築する際に使われた学習素性に基づいて、第2言語翻訳文から学習素性に一致するものを抽出して一定のフォーマットで整形し、SVMモデルで第2言語翻訳文から特定対象の不要な文成分、欠落の分析文、または語順の誤り等を検出して、校正処理を行うことができる。
【0028】
翻訳DB108は、翻訳規則、翻訳辞書、または翻訳規則と翻訳辞書の両方を含む。翻訳規則は、一般的に、ルールベースの翻訳システムに使われる第1言語側の解析規則、第2言語側の生成規則、および第1言語・第2言語の両側の対応規則が記憶されたものである。翻訳辞書は、一般的に、ルールベースの翻訳システムに使われる第1言語の語彙と第2言語の語彙との対応が取れた辞書である。
【0029】
第2言語出力部109は、LCDやPDPなどの画面表示装置や、外部装置(図示せず)に対してデータを出力する出力インターフェース回路からなり、特定パターン検出部105から特定パターンが検出されない場合、第2言語生成部106からの第2言語翻訳文を出力する機能と、特定パターン検出部105から特定パターンが検出された場合、第2言語生成部106からの第2言語翻訳文を誤り検出・校正部107により校正された結果を出力する機能とを有している。
【0030】
図3は、本発明の第1の実施形態にかかる機械翻訳装置で用いる特定パターンDBを示す説明図である。この例は、日中機械翻訳システムと想定したもので、日本語単言語のみの情報で特定パターンデータベースが構築された例を示している。ここでは、日本語格助詞「の」、形式名詞「の」、助動詞「だ」などの品詞情報と表記からなる特定パターンが記録されている。
【0031】
例えば、格助詞の「の」と対応する中国語の訳語は、文脈状況により、何も生成しない訳語と中国語構造助詞「的」の2つがある。しかし、これらの中国語訳語を正しく訳し分けできるはっきりした日本語および中国語の文法現象が極めて複雑で、機械翻訳規則を作成する際に、一般的には、厳密な翻訳規則を作成するのが困難である。
また、形式名詞「の」、助動詞「だ」も同様な問題を存在する。形式名詞「の」の中国語訳語は、「的」と「的東西」の2つがある。助動詞「だ」の中国語訳語は「在」「叫」「是」「有」などがあり、これらの語彙の中国語訳語の訳し分けも極めて複雑である。
よって、これらの語彙に対応する中国語へ翻訳規則は複雑で一般的に作成しきれないため、本発明では、これらのものを特定パターンDB103に記録して、特定パターン検出部105により、特定パターンが入力文中に含まれるかどうかを検出している。
【0032】
また、特定パターン検出部105は、形態素・構文解析部102から得られた第1言語入力文の解析結果から、特定パターンDB103に格納されている特定パターンが含まれるかを検出し、検出された特定パターンに対して、第1言語文章に含まれている隣接語彙の情報、または、検出された特定パターンと係り受け関係を有する構文情報を取得して、これらの情報の第2言語側の語彙や構文情報を翻訳辞書や翻訳規則から取得して、誤り検出・校正部107に使えるような仕組みを用いてもよい。
【0033】
ここで、図3を参照して、特定パターン検出部105の処理を説明すると、まず、形態素・構文解析部102の解析結果と図3に示す特定パターンDB103とを用いて、パターンマッチングを行うことにより、日中翻訳システムの日本語入力文の中に含まれているかどうかを検出できる。
次に、図3に示す特定パターンが検出された場合、検出された特定パターンの品詞と表記情報を検索キーとして、誤り検出・校正部107により、翻訳DB108の日中翻訳辞書の辞書引き処理を行って、検出された特定パターンの中国語の対訳候補を取得する。
【0034】
続いて、誤り検出・校正部107により、第2言語生成部106で得られた中国語翻訳文に対して、対訳候補を誤り検出・校正処理の対象とする。また、特定パターンの日本語語彙と係り受け関係を有する語彙情報も取得して、それに対応した中国語側の語彙情報を同時に利用すれば、誤り検出・校正処理に利用すれば、精度を向上できる。
例えば、図3に示す日本語格助詞「の」品詞と表記を検索キーとして、日中翻訳辞書から「訳語なし」と示す記号「Φ」と中国語構造助詞「的」を取得できる。これらの情報を中国語生成側の特定対象として、中国語統計的モデルを用いて中国語翻訳文から候補の適切性を判定することができる。
【0035】
機械翻訳装置100の機能部のうち、形態素・構文解析部102、特定パターン検出部105、第2言語生成部106、誤り検出・校正部107については、専用の情報処理回路で実現してもよく、CPUとその周辺回路を有し、記憶部(図示せず)からプログラムを読み込んで実行することにより、各種処理部を実現する演算処理部で実現してもよい。
【0036】
[第1の実施形態の動作]
次に、図1と図4を参照して、本発明の第1の実施形態にかかる機械翻訳装置の動作について詳細に説明する。図4は、第1の実施形態にかかる機械翻訳処理を示すフローチャートである。
【0037】
まず、第1言語入力部101により、翻訳対象となる第1言語の入力文を入力する(ステップS11)、形態素・構文解析部102により、この入力文に対して、形態素解析または単語分割等の処理を行い、その形態素情報を用いて入力文の構文解析を行い、入力文に含まれる語彙間の係り受け関係を有する語彙を取得する処理を行い、解析した結果を記憶しておく(ステップS12)。
【0038】
続いて、形態素・構文解析部102で得られた形態素・構文解析結果から、特定パターン検出部105により、特定パターンDB103に登録されている特定パターンを検出し(ステップS13)、入力文から特定パターンが検出されなかった場合、ステップS14へ移行する。
【0039】
一方、ステップS13において、入力文から特定パターンが検出された場合、特定パターン検出部105により、検出された特定パターンに対応する解析結果を用いて機械翻訳システムの翻訳規則または翻訳辞書から第2言語の語彙や構文情報を取得して、検出された特定パターンおよび第2言語の語彙や構文情報を記憶し、ステップS14へ移行する。
この際、前述したように、入力文から特定パターンが検出された場合、特定パターン検出部105により、第1言語文章に含まれている特定パターンと隣接する語彙の情報、または、検出された特定パターンと係り受け関係を有する構文情報を取得し、翻訳辞書や翻訳規則からこれらの情報に対応する第2言語側の語彙や構文情報を取得してもよい。
【0040】
次に、形態素・構文解析部102で得られた形態素・構文解析の結果と、第1言語から第2言語へ翻訳するための翻訳辞書と翻訳規則を用いて、第2言語生成部106により、第1言語の入力文を第2言語へ翻訳し、その翻訳結果である第2言語翻訳文を生成する(ステップS14)。
この後、ステップS13で特定パターンが検出されなかった場合、ステップS16へ移行して、ステップS14で生成した第2言語翻訳文を第2言語出力部109で出力し(ステップS16)、一連の機械翻訳処理を終了する。
【0041】
一方、ステップS13で特定パターンが検出された場合、ステップS13で記憶した特定パターンと対応する第2言語の語彙や構文情報と、第2言語統計的モデル104の統計的共起情報とを用いて、誤り検出・校正部107により、ステップS14で生成した第2言語翻訳文の誤りを検出して、この誤りを校正した後(ステップS15)、第2言語出力部109で校正後の第2言語翻訳文さらには校正結果を出力し(ステップS16)、一連の機械翻訳処理を終了する。
【0042】
[第1の実施形態の効果]
このように、本実施形態では、翻訳規則として記述しにくいまたは記述しきれない文法現象を持つ語彙を、特定パターンとして予め特定パターンDB103に登録しておき、この特定パターンが第1言語の入力文に含まれていた場合には、当該特定パターンの解析結果と対応する第2言語の語彙または構文情報を翻訳DB108から取得し、この第2言語の語彙または構文情報と第2言語統計的モデル104に格納されている統計的共起情報とを用いて、誤り検出・校正部107により、第1言語を翻訳して得られた第2言語翻訳文の誤りを検出し、当該第2言語翻訳文を校正するようにしたので、翻訳規則として記述しにくいまたは記述しきれない文法現象に対する正確な翻訳規則を必要とすることなく、機械翻訳を行うことができる。
【0043】
これにより、翻訳規則として記述しにくいまたは記述しきれない文法現象に対して、翻訳規則の作成に必要となるコストを削減することが可能となる。例えば、本実施形態において、図3に示す特定パターンDBの例で日中翻訳システムに実装される場合、日本語格助詞「の」、日本語形式名詞「の」、日本語助動詞「だ」の訳語選択における翻訳規則を作成する必要がなくなる。
【0044】
また、本実施の形態において、第2言語統計的モデルとして、第2言語の語彙または構文情報に関する、表記、原型、活用形、品詞、格フレーム、時制、態、相、意味分類、または、係り受け関係を有する共起パターンのうち、いずれか1つ以上の統計的共起情報を格納するモデルを用いてもよい。
【0045】
また、本実施の形態において、誤り検出・校正部で、第2言語統計的モデルを用いて、第2言語生成部で生成された第2言語翻訳文から、不要成分の検出、欠落成分の検出、または、語順の誤り検出のうちのいずれか1つの誤り検出処理と、得られた誤りの自動校正処理とを行うようにしてもよい。
【0046】
また、本実施の形態において、第2言語が中国語である場合、特定パターンデータベースに格納されている特定パターンとして、中国語の定語成分と対応する第1言語の構文成分を用い、誤り検出・校正部で、第2言語生成部により生成された中国語翻訳文の中国語定語成分に対して、中国語定語の語順および構造助詞「的」の誤り検出処理と、得られた誤りの自動校正処理とを行うようにしてもよい。
【0047】
また、本実施の形態において、第2言語が中国語である場合、特定パターンデータベースに格納されている特定パターンとして、中国語の状語成分と対応する第1言語の構文成分を用い、誤り検出・校正部で、第2言語生成部により生成された中国語翻訳文の中国語状語成分に対して、中国語状語の語順および構造助詞「地」の誤り検出処理と、得られた誤りの自動校正処理とを行うようにしてもよい。
【0048】
また、本実施の形態において、第2言語が中国語である場合、特定パターンデータベースに格納されている特定パターンとして、中国語の補語成分と対応する第1言語の構文成分を用い、誤り検出・校正部で、第2言語生成部により生成された中国語翻訳文の中国語補語成分に対して、中国語補語の語順および構造助詞「得」の誤り検出処理と、得られた誤りの自動校正処理とを行うようにしてもよい。
【0049】
また、本実施の形態において、第2言語が中国語である場合、特定パターンデータベースに格納されている特定パターンとして、中国語の量詞成分と対応する第1言語の構文成分を用い、誤り検出・校正部で、第2言語生成部により生成された中国語翻訳文の中国語量詞成分に対して、中国語量詞の誤り検出処理と、得られた誤りの自動校正処理とを行うようにしてもよい。
【0050】
また、本実施の形態において、第2言語が中国語である場合、特定パターンデータベースに格納されている特定パターンとして、中国語の態相情報を表す語彙や構文情報と対応する第1言語の構文成分を用い、誤り検出・校正部で、第2言語生成部により生成された中国語翻訳文の中国語態相情報を表す語彙や構文情報成分に対して、中国語の態相情報を表す語彙や構文情報成分の誤り検出処理と、得られた誤りの自動校正処理とを行うようにしてもよい。
【0051】
また、本実施の形態において、第2言語が中国語である場合、特定パターンデータベースに格納されている特定パターンとして、中国語の前置詞である介詞と対応する第1言語の構文成分を用い、誤り検出・校正部で、第2言語生成部により生成された中国語翻訳文の中国語介詞成分に対して、中国語介詞の誤り検出処理と、得られた誤りの自動校正処理とを行うようにしてもよい。
【0052】
[第2の実施形態]
次に、図5を参照して、本発明の第2の実施形態にかかる機械翻訳装置について説明する。図5は、本発明の第2の実施形態にかかる機械翻訳装置の構成を示すブロック図であり、図1と同じまたは同等部分には同一符号を付してある。
【0053】
図5に示すように、本実施形態は、図1に示した第1の実施形態にかかる機械翻訳装置のうち特定パターンDB103に代えて、特定パターンDB201を備えている。その他の構成については、図1に示した第1の実施形態と同等であり、ここでの詳細な説明は省略する。
この特定パターンDB201は、第1言語で用いられる特定の語彙を示す特定パターンが、形態素・構文解析部102の解析結果として付与される第1言語側の情報と、この第1言語側の情報に対応する第2言語側の特定対象の情報との組で記述されているデータベースである。
【0054】
図6は、本発明の第2の実施形態にかかる機械翻訳装置で用いる特定パターンDBを示す説明図である。この例は、日中機械翻訳システムを想定したものであり、図6に示すものは、日中機械翻訳システムにおける翻訳規則の利用情報と中国語構造助詞との関連付けをするためのテーブルである。
【0055】
例えば、図6の検索ID0番に示すパターンは、日本語側の解析規則として、日本語入力文に対して形態素・構文解析を行う際に、「日本語連体修飾の取り込み」という翻訳規則が適用されることを意味する。また、図6の検索ID0番に対応する中国語側生成情報は、定語スロットが生成されることを意味する。そして、図6の検索ID0番に対応する中国語構造助詞の「的」は、中国語翻訳結果の中から構造助詞「的」の適切性を判定するための特定対象とすることを意味する。
【0056】
なお、スロットとは、構文解析で用いる格フレームの構成要素であり、格スロットともいう。格文法に基づく構文解析では、動詞が要求する言語構造(格)に着目して解析する手法があり、格として、どのようなものがあるか、どういう性質を持つものなのかを記述した木構造の格フレームを用い、形態素解析で得られた形態素またはこれら組み合わせ句を格スロットへ当てはめることにより、構文解析を行う。
また、定語とは、中国語の文法成分のうちの修飾成分の1つであり、日本語連体修飾語に相当する。中国語定語および日本語連体修飾語とも、「修飾語(名詞・代名詞・形容詞)+被修飾語(名詞・名詞句)」という構造を持つ。
【0057】
図6の検索ID0番は、日本語側の解析において、「日本語連体修飾の取り込み」という翻訳規則が適用されて、かつ、この規則に対応する中国語生成側では、中国語定語スロットが生成されると、日本語入力文の中国語翻訳文に対して、中国語構造助詞「的」の適切性を判定すること意味をする。
同様に、中国語構造助詞「地」の適切性を判別する条件は図6の検索ID1番の特定パターンに示す。中国語構造助詞「得」の適切性を判別する条件は図6の検索ID2番の特定パターンに示す。
【0058】
また、図7は、本発明の第2の実施形態にかかる機械翻訳装置で用いる特定パターンDBの構成例を示す説明図である。この例は、日中機械翻訳システムにおける中国語翻訳文の語順をチェックするための特定パターンDB201の構成例を示している。
【0059】
図6と同様に、図7の検索ID0番で説明すると、検索ID0番は全体的に、日本語側の解析では、「日本語連体修飾の取り込み」との翻訳規則が適用されて、かつ、この規則に対応する中国語生成側では中国語定語スロットが生成され、かつ、中国語定語スロットが2箇所以上を有する場合、日本語入力文の中国語翻訳文に対して、中国語の定語成分に対して、生成語順の適切性を判定することを意味をする。
同様に、中国語状語の適切性を判別する条件は図7の検索ID1番に示す。また、中国語補語の適切性を判別する条件は図7の検索ID2番に示す。
【0060】
ここで、中国語定語、状語、補語との概念が中国語の構文要素である。一般的に中国語構文成分は、主語、述語、目的語、定語、状語、補語を用いて記述する。機械翻訳においては、これらの情報を中国語格フレームに付与する。
そして、中国語構造助詞「的」は中国語の定語に伴うもので、中国語構造助詞「地」は中国語の状語に伴うもので、構造助詞「得」は中国語の補語に伴うものである。これらの構造助詞は中国語文脈によりあったりなかったりするため、機械翻訳においては、厳密な翻訳規則を作成するのに、多大なコストを要する。
【0061】
前述したように、中国語翻訳文のうちから誤り検出・校正の対象となる特定対象を選択し、中国語統計的モデルを用いて中国語翻訳文のうち、対応した特定対象の適切性を判別して、不要な成分、欠落成分および語順のチェックなどの誤り検出・校正処理を行うことができる。
また、中国語翻訳文のうち、その他の成分の誤り検出および校正処理を行う必要がある際に、その第1言語と対応する語彙情報や翻訳規則などの情報を用いて、特定パターンDB201に記述して、本発明に適用すればよい。
【0062】
例えば、中国語翻訳文のうち、量詞の適切性を特定したい場合、日本語代名詞と、日本語名詞との品詞パターンで中国語量詞との関連付けておけばよい。
また、中国語の態相情報を表す助詞の適切性を特定したい場合、日本語の態相情報を表す日本語助詞または助動詞と中国語の態相情報を表す助詞との対応を取れたテーブルを作成すればよい。
また、中国語前置詞である介詞の適切性を特定したい場合、日本語格助詞や副助詞などと中国語介詞との対応を取れたテーブルを作成すればよい。
【0063】
[第2の実施形態の動作]
次に、図5と図8を参照して本発明を実施するための第2の形態の動作について詳細に説明する。図8は、本発明の第2の実施形態にかかる機械翻訳処理を示すフローチャートであり、図4と同じまたは同等部分には同一符号を付してある。
図8に示すように、本実施形態にかかる機械翻訳処理は、図4と比較して、ステップS13に代えてステップS21が設けられており、ステップS14とステップS15との間にステップS22が追加されている。
【0064】
まず、第1言語入力部101により、翻訳対象となる第1言語の入力文を入力する(ステップS11)、形態素・構文解析部102により、この入力文に対して、形態素解析または単語分割等の処理を行い、その形態素情報を用いて入力文の構文解析を行い、入力文に含まれる語彙間の係り受け関係を有する語彙を取得する処理を行い、解析した結果を記憶しておく(ステップS12)。この際、形態素・構文解析処理の各段階で適用した解析ルールも解析結果の一部として記憶しておく。
【0065】
続いて、形態素・構文解析部102で得られた形態素・構文解析結果から、特定パターン検出部105により、特定パターンDB201に登録されている第1言語側の情報からなる特定パターンと一致するものすべてを、特定パターン候補として検出する(ステップS21)。
次に、形態素・構文解析部102で得られた形態素・構文解析の結果と、第1言語から第2言語へ翻訳するための翻訳辞書と翻訳規則を用いて、第2言語生成部106により、第1言語の入力文を第2言語へ翻訳し、その翻訳結果である第2言語翻訳文を生成する(ステップS14)。
【0066】
この後、ステップS14で得られた第2言語翻訳文から、特定パターン検出部105により、特定パターンDB103に登録されている第2言語側の情報からなる特定パターンを検出し、得られた特定パターンのうち、ステップS21で得られた特定パターン候補と一致する特定パターンを検出し、この特定パターンと対応する第2言語側の情報を誤り検出・校正の特定対象として選択する(ステップS22)。
【0067】
ここで、ステップS22で特定パターンが検出されなかった場合、ステップS16へ移行して、ステップS14で生成した第2言語翻訳文を第2言語出力部109で出力し(ステップS16)、一連の機械翻訳処理を終了する。
一方、ステップS22で特定パターンが検出された場合、当該特定対象の特定パターンおよび第2言語の特定対象と、第2言語統計的モデル104に格納されている統計的共起情報とを用いて、ステップS14で生成した第2言語翻訳文の誤りを検出して、この誤りを校正した後(ステップS15)、第2言語出力部109で校正後の第2言語翻訳文さらには校正結果を出力し(ステップS16)、一連の機械翻訳処理を終了する。
【0068】
[第2の実施形態の効果]
このように、本実施形態では、翻訳規則として記述しにくいまたは記述しきれない文法現象を持つ語彙を、特定パターンとして第1言語側の情報と第2言語側の情報との組として、予め特定パターンDB103に登録しておき、この特定パターンの第1言語側の情報が第1言語の入力文に含まれおり、かつこの特定パターンの第2言語側の情報が、入力文を翻訳して得られた第2言語翻訳文に含まれている場合、当該特定パターンおよび当該第2言語側の情報に対応する第2言語翻訳文からなる特定対象と、第2言語統計的モデルに格納されている統計的共起情報とを用いて、第1言語を翻訳して得られた第2言語翻訳文の誤りを検出し、当該第2言語翻訳文を校正するようにしたので、翻訳規則として記述しにくいまたは記述しきれない文法現象に対する正確な翻訳規則を必要とすることなく、機械翻訳を行うことができる。
【0069】
また、本実施形態では、特定パターンが第1言語側の情報と第2言語側の情報との組で記述された特定パターンDB103を用いるようにしたので、特定パターンの第1言語側の情報と対応する第2言語側の情報を適切に設定することができ、誤り検出および校正を精度よく行うことが可能となる。
例えば、本実施形態において、図6と図7に示す特定パターンDBの例を用いた場合、下記の日本語例文1の翻訳結果の構造助詞「的」の欠落、日本語例文2の翻訳結果の構造助詞「地」の欠落、および日本語例文3の状語成分「東京」の誤りを検出して自動的に正しい結果に校正できるようになる。
【0070】
例文(用例中の括弧内は誤り箇所を示す)
日本語例文1:「いちばん近いレストランの駐車場は満員です。」
中国語翻訳結果:「最近飯店的停車場満員。」
中国語正解 :「最近(的)飯店的停車場満員。」

日本語例文2:「何をぼんやり考えているのか?」
中国語翻訳結果:「呆呆在考慮什幺?」
中国語正解 :「呆呆(地)在考慮什幺?」

日本語例文3:「M航空A便東京行きはただ今から1番ゲートで搭乗を開始します。」
中国語翻訳結果:「去往M航空A航班東京従現在開始在一号登機口登機。」
中国語正解 :「去往(東京)M航空A航班従現在開始在一号登機口登機。」
【0071】
[第3の実施形態]
次に、図9を参照して、本発明の第3の実施形態にかかる機械翻訳装置について説明する。図9は、本発明の第3の実施形態にかかる機械翻訳装置の構成を示すブロック図であり、図1と同じまたは同等部分には同一符号を付してある。
【0072】
図9に示すように、本実施形態は、図1に示した第1の実施形態にかかる機械翻訳装置の構成要素と同じであるが、各機能部の接続関係を換えて構成してある。具体的には、特定パターン検出部105での特定パターンの検出結果に応じて、第2言語生成部106により、誤り検出・校正部107での誤り検出・構成処理を行うか否か決定している。その他の点では、第1の実施形態と同様である。
このような接続関係であっても、第1の実施形態と同様の作用効果を得ることができる。
【0073】
[第4の実施形態]
次に、図10を参照して、本発明の第4の実施形態にかかる機械翻訳装置について説明する。図10は、本発明の第4の実施形態にかかる機械翻訳装置の構成を示すブロック図であり、図5と同じまたは同等部分には同一符号を付してある。
【0074】
図10に示すように、本実施形態は、図5に示した第2の実施形態にかかる機械翻訳装置の構成要素と同じであるが、各機能部の接続関係を換えて構成してある。具体的には、特定パターン検出部105での特定パターンの検出結果に応じて、第2言語生成部106により、誤り検出・校正部107での誤り検出・構成処理を行うか否か決定している。また、形態素・構文解析部102と特定パターン検出部105との間に、訳語選択部401が追加されている。その他の点では、第1の実施形態と同様である。
【0075】
訳語選択部401は、形態素・構文解析部102で得られた第1言語の入力文に対する形態素・構文解析結果を用いて、翻訳DB108の翻訳辞書から各形態素の訳語候補を取得する機能と、この訳語候補を翻訳DB108の翻訳規則や訳語選択処理用規則に適用して、各形態素の最適な訳語候補を取得する機能とを有している。
これにより、特定パターン検出部105において、第2言語生成部106で生成された第2言語翻訳文から、特定パターンDB103に登録されている第2言語側の情報からなる特定パターンを検出する際、高い精度で特定パターンを検索でき、より正確に誤り検出・校正の特定対象を選択することが可能となる。
【実施例1】
【0076】
次に、図11を参照して、本発明の第1の実施例について説明する。図11は、本発明の第1の実施例にかかる機械翻訳装置の構成を示すブロック図であり、図1と同じまたは同等部分には同一符号を付してある。
【0077】
本実施例は、前述した第1および第3の実施形態に対応するものである。図11に示すように、本実施例は、図1に示した第1の実施形態にかかる機械翻訳装置のうち、第1言語入力部101、特定パターンDB103、第2言語統計的モデル104、第2言語生成部106、および第2言語出力部109に代えて、それぞれ日本語入力部501、特定パターンDB500、中国語統計的モデル502、中国語生成部503、および中国語出力部504を備えている。これらは、第1の実施形態の第1言語および第2言語を日本語および中国語に特化したものであり、実質的には第1の実施形態の構成要素と同等である。
【0078】
図12は、本発明の第1の実施例にかかる機械翻訳処理を示すフローチャートであり、前述した図4と同じまたは同等部分には同一符号を付してある。ここでは、日本語で入力された「それは、三列と五列の間にある」という入力文を中国語へ機械翻訳する場合を例として説明する。
【0079】
日本語入力部501で入力された入力文を(ステップS51)、形態素・構文解析部102で解析した場合(ステップS12)、「それ/は/、/三/列/と/五/列/の/間/に/ある」という形態素解析結果が得られる。形態素解析で得られた各形態素は独自の属性値を持つ。属性値とは、原形、品詞、表記、活用形、意味分類、態、相等の情報からなる。
例えば、例文の形態素「の」と「ある」は以下属性を有する。
表記 仮名 固有部 原型 品詞 …
の ノ の の 格助詞 …
ある アル ある ある 動詞 …
【0080】
また、翻訳DB108の翻訳辞書は、各形態素の中国語生成ブロックに、その形態素の訳語、品詞、意味分類、用言の場合の格フレーム、態、相情報等の情報を含んでいる。中国語の格フレームの構成成分は、中国語生成用格フレームの要素として、主語、述語、目的語、定語、状語、補語等の文構造情報が記述されている。
【0081】
形態素・構文解析部102は、前述した形態素解析結果を用いて、構文解析規則と合わせて入力文の構文解析処理を行う(ステップS12)。構文解析処理を行った結果、入力文中係り受け関係を有する語彙間の係り受け関係を取得できる。
特定パターン検出部105は、形態素・構文解析部102での形態素解析・構文解析処理の結果を用いて、特定パターンDB500に登録された特定パターンと照合して特定パターン検出処理を行う(ステップS52)。
【0082】
例えば、入力文「それは、三列と五列の間にある」の形態素・構文解析処理の結果には、格助詞「の」が含まれる。特定パターン検出部105において、図3に示す日中翻訳用特定パターンDBを用いて入力文とのパターンマッチングを行うと、検索ID0番の格助詞「の」が検出される。すると、検出された格助詞「の」に対して、翻訳DB108の翻訳辞書から、格助詞「の」の訳語候補である「訳語なし」と示す記号「Φ」と中国語構造助詞「的」が取得される。
【0083】
また、特定パターン検出部105は、入力文の形態素・構文解析処理の結果から、特定パターンDB500に記述された特定パターンを検出した場合、検出した特定パターンと隣接する形態素の情報を、入力文の形態素・構文解析処理の結果から取得する。
例えば、例文の形態素・構文解析結果から、格助詞「の」と隣接する語彙「列」と「間」の情報を切り出して取得できる。また、「列」、「の」、「間」と対応する中国語側の情報を日中翻訳辞書の辞書引き処理から取得できる。
【0084】
これにより、日本語語彙の表記や品詞などの属性情報と、それに対応する中国語側の語彙の表記と品詞などの属性情報を取得できる。例えば、格助詞「の」の前の語彙「列」の日本語の品詞である「助数詞」と対応する中国語の品詞である「量詞」、格助詞「の」の後ろの語彙「間」の日本語の品詞である「名詞」と対応する中国語の品詞である「名詞」を取得できる。したがって、日本語「列+の+間」と対応する中国語の生成語彙の品詞情報として、「量詞+Φ+名詞」または「量詞+的+名詞」のようなパターンを、入力文の形態素・構文解析処理の結果から取得できる。
【0085】
次に、中国語生成部503は、形態素・構文解析した結果と、日中翻訳辞書および翻訳規則を用いて、日本語入力文の中国語、すなわち中国語翻訳文を生成する(ステップS53)。ここでの中国語翻訳文には、中国語品詞などの属性情報が各中国語形態素に付与されている。
ここで、特定パターン検出部105で特定パターンが検出されなかった場合、誤り検出・校正処理を行わず、中国語生成部503で得られた中国語翻訳文を整形して、中国語出力部504から中国語を出力する(ステップS54)。
【0086】
一方、特定パターン検出部105で例文のように特定パターンが検出された場合、誤り検出・校正部107は、特定パターンに基づき特定した中国語翻訳文内の特定対象に対して、中国語統計的共起情報を格納している中国語統計的モデル502を用いて、中国語翻訳文から誤りを検出して校正処理を行い(ステップS15)、校正された結果を中国語出力部504から出力する(ステップS54)。
【0087】
誤り検出・校正部107における、具体的な誤り検出と校正処理について、中国語N−gramモデルで日本語例文に対する処理例を説明する。
前述したように、格助詞「の」の訳語が「訳語なし」の記号「Φ」を訳語候補として取得された場合、この記号「Φ」に対して、誤り検出・構成処理を行う際には、空文字に変換すればよい。「量詞+Φ+名詞」の例で説明すると、「量詞+名詞」のように変換すればよい。
【0088】
日本語入力文「それは、三列と五列の間にある」で説明すると、例えば、中国語生成部503で得られた中国語翻訳文が「那/代名詞 個/量詞 在/介詞 三/数詞 列/量詞 和/連詞 五/数詞 列/量詞 的/構造助詞 之間/名詞」となったものとする。ここで、中国語統計的モデル502の一例として、中国語単言語コーパスで単語表記と品詞情報で構築されたN−gramモデルを用いる場合、中国語構造助詞「的」の適切性を判定するためのアルゴリズムは、次のような計算方法が使用できる。
【0089】
まず、中国語特定対象wdeの適切性を、3−gramで近似計算される生成確率を利用して判定する方法がある。なお、以下のwは、語彙の表記、または表記と品詞の組を示す。
例えば、翻訳結果を文1=w0,w1,w2,…,wi-1,wi,wi+1,…wnとし、これにwdeの位置を考慮したものを、文2=w0,w1,w2,…,wi-1,wde,wi,wi+1,…wnと仮定する。
【0090】
ここで、文1の生成確率を3−gramで近似すると、次の式(1)となり、同様に文2の生成確率を3−gramで近似すると、次の式(2)となる。
【数1】

【数2】

【0091】
よって、(wi-1,wde,wi)のうちwdeの適切性を判断できる計算式は、次の式(3)で表すことができる。
【数3】

【0092】
また、文=w0,w1,…,wnの生成確率については、3−gramを利用した次の式(4)に示すような計算方法を用いてもよい。
【数4】

【0093】
また、中国語生成部503で得られた中国語翻訳文のうち、特定パターン検出部105で、中国語の語彙、構文情報である「量詞+名詞」と「量詞+的+名詞」との2つのパターンが、翻訳結果の特定対象として特定された場合、「量詞+的+名詞」のパターンに一致する部分として「列/量詞 的/構造助詞 之間/名詞」が取得される。
【0094】
この場合には、品詞付き中国語N−gram言語統計的モデルを用いて、式(1)〜式(3)で示されたアルゴリズムで計算すると、以下の2つの条件付き確率値を計算して比較すればよい。
P1=P(的/構造助詞|五/数詞 列/量詞)・P(之間/名詞|列/量詞 的/構造助詞)
P2=P(之間/名詞|五/数詞 列/量詞)
【0095】
ここで、中国語3−gramで確率値を計算して、
P1=8.33336e−005
P2=1.25000e−001
のような結果が得られた場合、P1よりP2の確率値が高いため、翻訳結果から(列/量詞 的/構造助詞 之間/名詞)の「的/構造助詞」という誤りが検出できる。
この際に、P2のパターン「五/数詞 列/量詞 之間/名詞」を切り出して、翻訳結果文の「列/量詞 的/構造助詞 之間/名詞」と置換すれば、中国語翻訳文の校正結果である「那/代名詞 個/量詞 在/介詞 三/数詞 列/量詞 和/連詞 五/数詞 列/量詞 之間/名詞」となる。
【0096】
また、P1の確率値を計算する際、誤りを含んでいる(列/量詞 的/構造助詞 之間/名詞)との3−gramが検出されない場合、P(之間/名詞|列/量詞 的/構造助詞)の値は2−gramと1−gramでスムージングによる補間処理で近似確率を計算することができる。
具体的に、N−gramモデルのスムージング方法として、可算スムージング、線形補間、バックオフ・スムージング、ウィトン・ベル・スムージング、ウン・カウント法などが挙げられる。
【0097】
また、誤り検出・校正部107での処理において、式(4)に示すアルゴリズムを使う際は、特定パターン検出部105により検出された中国語の語彙および構文情報と、中国語生成部503で得られた中国語翻訳文とで共起するすべての文生起確率を計算して、生起確率が最大となるものを正解とすることができる。
例文では、格助詞「の」の2つの訳語候補を取得して、中国語翻訳文について「的」が生成される場合と、「的」が生成されない場合のすべての文生起確率を計算して、最大となるものを校正結果とすればよい。誤り箇所を検出したい場合、文生起確率が最大となる生成文と中国語翻訳文との差分を求めればよい。
【0098】
例えば、日本語入力文に対する中国語翻訳文が「那/代名詞 個/量詞 在/介詞 三/数詞 列/量詞 和/連詞 五/数詞 列/量詞 的/構造助詞 之間/名詞」となった場合、以下の文の生起確率を近似計算することができる。
■「的/構造助詞」を含まない文:
文3「那/代名詞 個/量詞 在/介詞 三/数詞 列/量詞 和/連詞 五/数詞 列/量詞 之間/名詞」
■「的/構造助詞」を含む文:
文4「那/代名詞 個/量詞 在/介詞 三/数詞 列/量詞 和/連詞 五/数詞 列/量詞 的/構造助詞 之間/名詞」
文5「那/代名詞 的/構造助詞 個/量詞 在/介詞 三/数詞 列/量詞 和/連詞 五/数詞 列/量詞 之間/名詞」
文6「那/代名詞 個/量詞 的/構造助詞 在/介詞 三/数詞 列/量詞 和/連詞 五/数詞 列/量詞 之間/名詞」
文7「那/代名詞 個/量詞 在/介詞 的/構造助詞 三/数詞 列/量詞 和/連詞 五/数詞 列/量詞 之間/名詞」
文8「那/代名詞 個/量詞 在/介詞 三/数詞 的/構造助詞 列/量詞 和/連詞 五/数詞 列/量詞 之間/名詞」
文9「那/代名詞 個/量詞 在/介詞 三/数詞 列/量詞 的/構造助詞 和/連詞 五/数詞 列/量詞 之間/名詞」
文10「那/代名詞 個/量詞 在/介詞 三/数詞 列/量詞 和/連詞 的/構造助詞 五/数詞 列/量詞 之間/名詞」
文11「那/代名詞 個/量詞 在/介詞 三/数詞 列/量詞 和/連詞 五/数詞 的/構造助詞 列/量詞 之間/名詞」
文12「那/代名詞 個/量詞 在/介詞 三/数詞 列/量詞 和/連詞 五/数詞 列/量詞 的/構造助詞 之間/名詞」
文13「那/代名詞 個/量詞 在/介詞 三/数詞 列/量詞 和/連詞 五/数詞 列/量詞之間/名詞 的/構造助詞」
【0099】
これらの文3〜文13の文生起確率を中国語3−gramを用いて計算して、確率値が最大となるものを最適な翻訳結果とすることができる。ここでの文生起確率を計算する際、前述したN−gramモデルのスムージング方法を用いることができる。
例文に対して、Witten−Bell discountでバックオフ・スムージング平滑化処理での文生起確率の次のような計算結果が得られたものとする。
文3の文生起確率:1.49286e−008
文4の文生起確率:1.51677e−011
文5の文生起確率:1.01744e−010
文6の文生起確率:5.67270e−011
文7の文生起確率:1.05371e−010
文8の文生起確率:3.20494e−010
文9の文生起確率:1.53964e−011
文10の文生起確率:8.87810e−010
文11の文生起確率:3.07999e−010
文12の文生起確率:1.49252e−011
文13の文生起確率:1.03949e−009
【0100】
この場合には、確率値をソートして文3の結果が最大となるため、文3が正解とすることができる。また、中国語構造助詞「的」の誤りを検出したいときに、文3と中国語翻訳文との差分から求められる。
【0101】
また、中国語品詞を単語クラスとして、中国語単言語コーパスで構築されたClass N−gramモデルを用いることができる。
モデルの構築方法は、非特許文献1に記載されたClass bigram モデルやClass trigram モデルを使用できる。
【0102】
Class N−gramモデルを用いて、第2言語翻訳文から対象語彙の誤りの検出および校正処理を行うアルゴリズムは、非特許文献1に記録されたClass bigram モデルやClass trigram モデルを用いて、第2言語翻訳文のうち、「的」の有無を考慮した文生成確率の最大となるものを最もらしい校正結果と推定すればよい。
また、中国語統計的モデルは、決定リスト、SVM、最大エントロピー、HMM、ベイズ学習のいずれかの学習手法で構築されてもよい。無論、これらの学習手法には限定されない。
【0103】
このようにして、日本語入力文「それは、三列と五列の間にある」の中国語翻訳文が「那 個 在 三 列 和 五 列 的 之間」となった場合、した処理によって、「那 個 在 三 列 和 五 列 之間」との正しい結果が得られる。
また、実施例1と同様に、中国語翻訳文の中から、図3に示す形式名詞の訳語および助動詞「だ」の訳語選択問題を解決することもできる。
【実施例2】
【0104】
次に、図13を参照して、本発明の第2の実施例について説明する。図13は、本発明の第2の実施例にかかる機械翻訳装置の構成を示すブロック図であり、図5と同じまたは同等部分には同一符号を付してある。
【0105】
本実施例は、前述した第2および第4の実施形態に対応するものである。図13に示すように、本実施例は、図10に示した第4の実施形態にかる機械翻訳装置のうち、第1言語入力部101、特定パターンDB103、第2言語統計的モデル104、第2言語生成部106、および第2言語出力部109に代えて、それぞれ日本語入力部602、特定パターンDB601、中国語統計的モデル603、中国語生成部604、および中国語出力部605を備えている。これらは、第4の実施形態の第1言語および第2言語を日本語および中国語に特化したものであり、実質的には第4の実施形態の構成要素と同等である。
【0106】
図14は、本発明の第2の実施例にかかる機械翻訳処理を示すフローチャートであり、前述した図14と同じまたは同等部分には同一符号を付してある。
ここでは、日本語で入力された以下のような入力文を中国語へ機械翻訳する場合を例として説明する。
「いちばん近いレストランの駐車場は満員です」
「何をぼんやり考えているのか」
「M航空A便東京行きはただ今から1番ゲートで搭乗を開始します」
【0107】
日本語入力部501で入力された入力文を(ステップS61)、形態素・構文解析部102で解析した場合(ステップS12)、
「いちばん/近い/レストラン/の/駐車場/は/満員/です」
「何/を/ぼんやり/考え/て/いる/の/か」
「M航空/A便/東京/行き/は/ただ今/から/一番/ゲート/で/搭乗/を/開始/し/ます」
という形態素解析結果が得られる。形態素解析で得られた各形態素は、前述したように独自の属性値を持つ。
【0108】
形態素・構文解析部102は、前述した形態素解析結果を用いて、構文解析規則と合わせて入力文の構文解析処理を行う。構文解析処理を行った結果、入力文中係り受け関係を有する語彙間の係り受け関係を取得できる。
例えば、図2は、入力文の「いちばん近いレストランの駐車場は満員です」に対して、文脈自由文法規則に基づいて解析した結果である。
また、日本語形態素・構文解析処理を行う際、各解析段階で適用された解析規則を形態素または、係り受け関係を有するものに付与することができる。
【0109】
次に、訳語選択部401は、入力文の形態素・構文解析処理の結果と、翻訳DB108の翻訳辞書とを用いて、入力文の各形態素の訳語候補を取得し、記憶部に記憶する(ステップS62)。このとき、翻訳DB108の訳語選択処理用規則に適用して、各形態素の最適な訳語候補を取得し、記憶部に記憶する。また、中国語訳語選択処理をする際に適用された訳語選択規則も、対象語彙の中国語訳語に解析結果の一部として、記憶部に記憶する。
【0110】
続いて、特定パターン検出部105は、入力文の形態素・構文解析処理の結果と、訳語選択部401での日本語各形態素の訳語選択処理結果とを用いて、特定パターンDB601に登録された特定パターンとのパターン照合処理を行い、特定パターンが検出された場合、その特定パターンを候補として記憶部に記憶する(ステップS63)。
次に、中国語生成部604は、形態素・構文解析した結果と、日中翻訳辞書および翻訳規則を用いて、日本語入力文の中国語、すなわち中国語翻訳文を生成する(ステップS64)。ここでの中国語翻訳文には、中国語品詞などの属性情報が各中国語形態素に付与されている。
【0111】
この後、特定パターン検出部105は、得られた中国語翻訳文から、特定パターンDB601に登録されている中国語生成規則を示す情報からなる特定パターンを検出し、得られた特定パターンのうち、候補として記憶しておいた特定パターンと一致する特定パターンを検出し、これら対応する中国語翻訳文を誤り検出・校正の特定対象として特定する。
ここで、特定パターン検出部105で特定パターンが検出されなかった場合、誤り検出・校正処理を行わず、中国語生成部604で得られた中国語翻訳文を整形して、中国語出力部605から中国語を出力する(ステップS65)。
【0112】
一方、特定パターン検出部105で特定パターンが検出された場合、誤り検出・校正部107は、特定パターンに基づき特定した中国語翻訳文内の特定対象に対して、中国語統計的共起情報を格納している中国語統計的モデル603を用いて、中国語翻訳文から誤りを検出して校正処理を行い(ステップS15)、校正された結果を中国語出力部605から出力する(ステップS65)。
【0113】
前述した特定パターン検出部105では、例えば、入力文「いちばん近いレストランの駐車場は満員です」の形態素・構文解析処理結果を用いて、図6に示す特定パターンDBに示された例との照合処理を行う。入力文のうち、「近い」+「レストラン」の解析に適用された解析規則から、「連体修飾の取り込み」を取得できる。また、日中機械翻訳における日本語「連体修飾の取り込み」に対応する中国語側の生成規則は、一般的に「定語スロット」を生成することとなるため、入力文から、図6に示すパターンの検索ID0とのパターンを検出して、そこに付与された中国語構造助詞「的」を特定対象として中国語翻訳文から、中国語構造助詞「的」の適切性を判別することができる。
【0114】
また、検出精度を保障するために、「近い」の訳語「近」と品詞、「レストラン」の訳語「飯店」と品詞共に用いて、生成される中国語結果から「近」と「飯店」の間に「的」を入れるか入れないかの判定処理を行うことにより、中国語側の語彙の曖昧性を改善できる。
例えば、入力文「いちばん近いレストランの駐車場は満員です」の中国語翻訳文が「最近飯店的停車場満員」となった場合、この翻訳結果「最近飯店的停車場満員」の日本語の意味は「最近、レストランの駐車場は満員です」となる。この誤った日本語文の「最近」の品詞は時間的名詞または副詞であり、この最近に対応した中国語訳語の「最近」は時間的副詞となる。したがって、2言語間の語彙と品詞情報の対応を考慮して誤り検出処理を行うことにより、検出精度を向上できる。
【0115】
中国語統計的モデル603の一例として、例えば、中国語単言語コーパスで字面の表層または品詞情報で構築されたN−gramモデル、この際に、中国語構造助詞「的」の適切性を判定するためのアルゴリズムは、前述した式(1)〜式(3)または式(4)の計算方法を使用できる。
また、中国語品詞を単語クラスとして、中国語単言語コーパスで構築されたClass N−gramモデルを用いることができる。
【0116】
モデルの構築方法は、非特許文献1に記載されたClass bigram モデルやClass trigram モデルを使用できる。Class N−gramモデルを用いて、中国語翻訳文から語順の誤りの検出および校正処理を行うアルゴリズムは、非特許文献に記録されたClass bigram モデルやClass trigram モデルを用いて、中国語翻訳文の語順を考慮した文生成確率の最大となるものを最もらしい校正結果と推定すればよい。
なお、中国語統計的モデル603は、決定リスト、SVM、最大エントロピー、HMM、ベイズ学習のいずれかの学習手法で構築されてもよい。無論、これらの手法に限定されない。
【0117】
また、中国語の状語が生成される際には、前述と同様に、状語と対応する構造助詞「地」、中国語の補語が生成される際に、補語と対応する構造助詞「得」の適切性を判別して校正処理を行うことができる。
また、中国語翻訳文のうち、定語、状語、補語の数が2個以上ある場合、生成された中国語語順のチェック処理も同様に行うことができる。例えば、図7に示す特定パターンDBを使用すれば、日本語文例のうち、「M航空A便東京行きはただ今から1番ゲートで搭乗を開始します」の中国語翻訳文が、「去往M航空A航班東京従現在開始在一号登機口登機」となった場合、前述のアルゴリズムにより、「去往東京M航空A航班従現在開始在一号登機口登機」という正しい中国語翻訳文を生成することができる。
【0118】
また、第2の実施形態と同様に、中国語翻訳文から、中国語主語、述語、目的語、定語、状語、補語等の成分を統合的に考慮して、誤り検出・校正処理を行うことで、訳質を大きく向上できる。
また、第2の実施形態と同様に、例えば、日本語の態相情報を表す日本語助詞または助動詞と中国語の態相情報を表すものとの対応を取れたテーブルを特定パターンDB201に記述すれば日本語翻訳結果から中国語態相を表すものの誤りを検出・校正できる。
【0119】
例えば、日中機械翻訳システムと想定する場合の日本語例文「風邪を引いていると思います。」の中国語の生成結果に対して、中国語統計的モデルのみの情報を用いて、翻訳結果の誤りを検出すると、「得 感冒」、「得 過 感冒」のような誤った成分が推定される可能性が高く存在する。
これに対して、日本語の態相情報「ている」に対応した中国語の態相を表す助詞の候補「着」、「了」、「在」との三つを中国語翻訳文の誤り検出対象とすれば、日本語文の中国語翻訳結果が「我 認為 得 感冒。」となった際に、誤り検出対象である「着」、「了」、「在」と「我 認為 得 感冒。」との文生成確率が最大となるものを正解とすれば、「我 認為 得 了 感冒。」との正しい翻訳結果を得られる。
【0120】
以上説明したように、本発明によると、機械翻訳システムの翻訳精度を大きく改善できる。
【0121】
以上、実施形態および実施例を参照して本発明を説明したが、本発明は上記実施形態および実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
【産業上の利用可能性】
【0122】
本発明にかかる第1言語から第2言語への機械翻訳装置、翻訳方法およびプログラムは、機械翻訳システムなどにおいて、従来機械翻訳システムの翻訳結果を対象とした後編集や翻訳ルールの作成を行うためのコストが高い問題を解決すると同時に、機械翻訳装置の訳質を大きく改善することができる機械翻訳装置、機械翻訳方法およびプログラムに適している。
本発明によると、以上説明したとおり、機械翻訳における翻訳結果の誤りを改善しにくい問題を改善し、訳質を大きく改善することができる。その翻訳精度の高い翻訳結果をユーザに正しく提供することができる。
【符号の説明】
【0123】
100…機械翻訳装置、101…第1言語入力部、102…形態素・構文解析部、103…特定パターンDB(第1言語のみ)、104…第2言語統計的モデル、105…特定パターン検出部、106…第2言語生成部、107…誤り検出・校正部、108…翻訳DB、109…第2言語出力部、201…特定パターンDB(2言語対応)、401…訳語選択部、501…日本語入力部、502…中国語統計的モデル、503…中国語生成部、504…中国語出力部、601…特定パターンDB(日中対応)、602…日本語入力部、603…中国語統計的モデル、604…中国語生成部、605…中国語出力部。

【特許請求の範囲】
【請求項1】
第1言語で表現された入力文に対して形態素・構文解析を行う形態素・構文解析部と、
第1言語を第2言語に翻訳するために用いる翻訳辞書または翻訳規則からなる翻訳データベースと、
前記形態素・構文解析部の解析結果と前記翻訳データベースとを参照し、前記入力文に対応する翻訳結果として第2言語翻訳文を生成する第2言語生成部と、
前記第1言語で用いられる特定の語彙を特定パターンとして格納する特定パターンデータベースと、
前記形態素・構文解析部の解析結果から、前記特定パターンデータベースに格納されている特定パターンを検出し、得られた特定パターンの解析結果と対応する第2言語の語彙または構文情報を前記翻訳データベースから取得する特定パターン検出部と、
前記第2言語で用いられる語彙の共起に関する統計的共起情報を格納する第2言語統計的モデルと、
前記特定パターン検出部で得られた第2言語の語彙または構文情報と前記第2言語統計的モデルに格納されている統計的共起情報とを用いて、前記第2言語生成部で生成された前記第2言語翻訳文の誤りを検出し、当該第2言語翻訳文を校正する誤り検出・校正部と
を備えることを特徴とする機械翻訳装置。
【請求項2】
請求項1に記載の機械翻訳装置において、
前記特定パターンデータベースに格納された特定パターンは、前記形態素・構文解析部の解析結果として付与される第1言語側の情報と、この第1言語側の情報に対応する第2言語側の情報との組で記述されていることを特徴とする機械翻訳装置。
【請求項3】
請求項1に記載の機械翻訳装置において、
前記第2言語統計的モデルは、前記第2言語の語彙または構文情報に関する、表記、原型、活用形、品詞、格フレーム、時制、態、相、意味分類、または、係り受け関係を有する共起パターンのうち、いずれか1つ以上の統計的共起情報を格納していることを特徴とする機械翻訳装置。
【請求項4】
請求項1に記載の機械翻訳装置において、
前記誤り検出・校正部は、前記第2言語統計的モデルを用いて、前記第2言語生成部で生成された第2言語翻訳文から、不要成分の検出、欠落成分の検出、または、語順の誤り検出のうちのいずれか1つの誤り検出処理と、得られた誤りの自動校正処理とを行うことを特徴とする機械翻訳装置。
【請求項5】
請求項1に記載の機械翻訳装置において、
前記第2言語が中国語であり、前記特定パターンデータベースに格納されている特定パターンが、中国語の定語成分と対応する第1言語の構文成分を含み、前記誤り検出・校正部が、前記第2言語生成部により生成された中国語翻訳文の中国語定語成分に対して、中国語定語の語順および構造助詞「的」の誤り検出処理と、得られた誤りの自動校正処理とを行うことを特徴とする機械翻訳装置。
【請求項6】
請求項1に記載の機械翻訳装置において、
前記第2言語が中国語であり、前記特定パターンデータベースに格納されている特定パターンが、中国語の状語成分と対応する第1言語の構文成分を含み、前記誤り検出・校正部が、前記第2言語生成部により生成された中国語翻訳文の中国語状語成分に対して、中国語状語の語順および構造助詞「地」の誤り検出処理と、得られた誤りの自動校正処理とを行うことを特徴とする機械翻訳装置。
【請求項7】
請求項1に記載の機械翻訳装置において、
前記第2言語が中国語であり、前記特定パターンデータベースに格納されている特定パターンが、中国語の補語成分と対応する第1言語の構文成分を含み、前記誤り検出・校正部が、前記第2言語生成部により生成された中国語翻訳文の中国語補語成分に対して、中国語補語の語順および構造助詞「得」の誤り検出処理と、得られた誤りの自動校正処理とを行うことを特徴とする機械翻訳装置。
【請求項8】
請求項1に記載の機械翻訳装置において、
前記第2言語が中国語であり、前記特定パターンデータベースに格納されている特定パターンが、中国語の量詞成分と対応する第1言語の構文成分を含み、前記誤り検出・校正部が、前記第2言語生成部により生成された中国語翻訳文の中国語量詞成分に対して、中国語量詞の誤り検出処理と、得られた誤りの自動校正処理とを行うことを特徴とする機械翻訳装置。
【請求項9】
請求項1に記載の機械翻訳装置において、
前記第2言語が中国語であり、前記特定パターンデータベースに格納されている特定パターンが、中国語の態相情報を表す語彙や構文情報と対応する第1言語の構文成分を含み、前記誤り検出・校正部が、前記第2言語生成部により生成された中国語翻訳文の中国語態相情報を表す語彙や構文情報成分に対して、中国語の態相情報を表す語彙や構文情報成分の誤り検出処理と、得られた誤りの自動校正処理とを行うことを特徴とする機械翻訳装置。
【請求項10】
請求項1に記載の機械翻訳装置において、
前記第2言語が中国語であり、前記特定パターンデータベースに格納されている特定パターンが、中国語の前置詞である介詞と対応する第1言語の構文成分を含み、前記誤り検出・校正部が、前記第2言語生成部により生成された中国語翻訳文の中国語介詞成分に対して、中国語介詞の誤り検出処理と、得られた誤りの自動校正処理とを行うことを特徴とする機械翻訳装置。
【請求項11】
第1言語を第2言語に翻訳する機械翻訳装置で用いられる機械翻訳方法であって、
形態素・構文解析部が、第1言語で表現された入力文に対して形態素・構文解析を行う形態素・構文解析ステップと、
第2言語生成部が、前記形態素・構文解析部の解析結果と、第1言語を第2言語に翻訳するために用いる翻訳辞書または翻訳規則からなる翻訳データベースとを参照し、前記入力文に対応する翻訳結果として第2言語翻訳文を生成する第2言語生成ステップと、
特定パターン検出部が、前記形態素・構文解析部の解析結果から、前記第1言語で用いられる特定の語彙を特定パターンとして格納する特定パターンデータベースに格納された特定パターンを検出し、得られた特定パターンの解析結果と対応する第2言語の語彙または構文情報を前記翻訳データベースから取得する特定パターン検出ステップと、
誤り検出・校正部が、前記特定パターン検出部で得られた第2言語の語彙または構文情報と、前記第2言語で用いられる語彙の共起に関する統計的共起情報を格納する第2言語統計的モデルに格納されている統計的共起情報とを用いて、前記第2言語生成部で生成された前記第2言語翻訳文の誤りを検出し、当該第2言語翻訳文を校正する誤り検出・校正ステップと
を備えることを特徴とする機械翻訳方法。
【請求項12】
第1言語を第2言語に翻訳する機械翻訳装置のコンピュータに、
形態素・構文解析部が、第1言語で表現された入力文に対して形態素・構文解析を行う形態素・構文解析ステップと、
第2言語生成部が、前記形態素・構文解析部の解析結果と、第1言語を第2言語に翻訳するために用いる翻訳辞書または翻訳規則からなる翻訳データベースとを参照し、前記入力文に対応する翻訳結果として第2言語翻訳文を生成する第2言語生成ステップと、
特定パターン検出部が、前記形態素・構文解析部の解析結果から、前記第1言語で用いられる特定の語彙を特定パターンとして格納する特定パターンデータベースに格納された特定パターンを検出し、得られた特定パターンの解析結果と対応する第2言語の語彙または構文情報を前記翻訳データベースから取得する特定パターン検出ステップと、
誤り検出・校正部が、前記特定パターン検出部で得られた第2言語の語彙または構文情報と、前記第2言語で用いられる語彙の共起に関する統計的共起情報を格納する第2言語統計的モデルに格納されている統計的共起情報とを用いて、前記第2言語生成部で生成された前記第2言語翻訳文の誤りを検出し、当該第2言語翻訳文を校正する誤り検出・校正ステップと
を実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2010−244385(P2010−244385A)
【公開日】平成22年10月28日(2010.10.28)
【国際特許分類】
【出願番号】特願2009−93718(P2009−93718)
【出願日】平成21年4月8日(2009.4.8)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】