説明

用例データベース作成装置及び用例データベース作成プログラム、並びに、翻訳装置及び翻訳プログラム

【課題】第一言語の1つの文が第二言語の複数の文に翻訳されている場合に、日本語の1つの文における部分と英語の1つの文とが対応するようにした用例データベースを作成することができる用例データベース作成装置及びそのプログラム、並びに、第一言語の文を第二言語の自然な文に翻訳することができる翻訳装置及びそのプログラムを提供する。
【解決手段】用例データベース作成装置1は、第一言語の文を第二言語の文に翻訳した翻訳データが収められている対訳データベース2に、第一言語の1つの文の部分と第二言語の1つの文とが対応するようにした一文対応翻訳データを追加して、用例データベース4を作成するものであって、翻訳データ判別手段3と、引用表現判別手段5と、引用表現分離手段9と、第二言語複数文判別手段11と、第一言語表現特定手段15と、第一言語分割手段19と、分割第一言語対応第二言語追加手段21と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、翻訳に用いる用例データベースを作成する用例データベース作成装置及び用例データベース作成プログラム、並びに、この用例データベースを用いて翻訳を行う翻訳装置及び翻訳プログラムに関する。
【背景技術】
【0002】
従来、用例(言葉などの、実際に用いられた例、使い方の例)を用いて、第一言語(例えば、日本語)を第二言語(例えば、英語)に翻訳する翻訳システムには、第一言語の入力文と、最も類似する用例を文単位で選択してその対訳の第二言語を編集するもの(例えば、非特許文献1参照)や、第一言語の入力文と完全に一致する部分的な用例の第二言語の単語を組み合わせて第二言語の文を生成するものがある(例えば、特許文献1参照)。
【0003】
また、用例を用いた翻訳システムには、第一言語の入力文を、翻訳前に分割するものもあり(例えば、非特許文献2参照)、さらに、第二言語を翻訳元の言語として、第一言語の入力文を分割して翻訳するものもある(例えば、特許文献2,3参照)。
【特許文献1】特開2006−2552290号公報
【特許文献2】特開2004−110583号公報
【特許文献3】特開平10−312382号公報
【非特許文献1】Sumita,Example−based machine translation using DP−matching between word sequences,39thACL workshop on DDMT,pp.1−8,2001.
【非特許文献2】金ほか、日英機械翻訳のための日本語長文自動短文分割と主語の補完,情報処理学会論文誌,Vol.35,No.6,pp.1018−1028,1994.
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の翻訳システムでは、第一言語が複文等の長い文である場合に、第二言語の文単位の用例を用いようとすると、この第一言語の長い文には多くの内容が含まれているので、すべての内容が類似する用例が当該翻訳システムで用いる用例データベース中に含まれる可能性が低くなってしまい、すべての内容が類似する用例が用例データベース中に含まれない場合、翻訳精度が下がってしまうことが生じうる。
【0005】
この結果、非特許文献1に開示されている翻訳システムでは、入力文が長い文である場合、翻訳できる文のバリエーションが少なくなってしまい、自然な文に翻訳することができないという問題がある。
例えば、翻訳のプロフェッショナルが行った日本語から英語へのニュース翻訳の結果を調査したところ、日本語ニュース文は複数の英語ニュース文に翻訳されることの多いことが判明した。つまり、自然な英語ニュース文の単位は、日本語ニュース文の単位よりも短いことが判明した。このため、日本語の長いニュースを、自然な英語のニュースに翻訳するためには、1文の日本語を1文以上の英語に翻訳した方が適切であることになる。
【0006】
また、特許文献1に開示されている翻訳システムでは、入力文が日本語の長い文である場合、英語の文中の一部の表現を組み合わせて文を生成するので、日本語の1文を英語の複数の文に翻訳することができない。また、この翻訳システムでは、英語の文の構造自体を生成するため、不自然な英語の文を生成してしまう可能性がある。なお、文の構造とは、例えば、SVOC等で表されるものであり、ここでは、名詞や動詞や形容詞などの断片を繋ぎ合わせて英文を作成する。このときに構造も生成されることになるが、文法的に正しい又は自然な英語にならない可能性がある。この結果、特許文献1に開示されている翻訳システムでも、自然な文に翻訳することができないという問題がある。
【0007】
さらに、非特許文献2に開示されている翻訳システムでは、入力文が日本語の長い文である場合、当該日本語の入力文を、翻訳結果となる英語の文の単位を考慮せずに分割すると、必ずしも適切な英語の単位に分割できるとは限らず、適切な単位で日本語の入力文が分割されなければ、やはり、自然な文に翻訳することができないという問題がある。
【0008】
さらにまた、特許文献2に開示されている翻訳システムでは、入力文が日本語の長い文である場合、英語を翻訳元の言語としており、用例を分割していないため、翻訳できる文のバリエーションが少なくなってしまい、やはり、自然な文に翻訳することができないという問題がある。また、特許文献3に開示されている翻訳システムでは、入力文が日本語の長い文である場合、英語に依存したルールを分割手法に用いているため、日本語の長い文を分割することができず、やはり、自然な文に翻訳することができないという問題がある。
【0009】
そこで、本発明では、前記した問題を解決し、第一言語(例えば、日本語)の1つの文が第二言語(例えば、英語)の複数の文に翻訳されている場合に、日本語の1つの文における部分と英語の1つの文とが対応するようにした用例データベースを作成することができる用例データベース作成装置及び用例データベース作成プログラム、並びに、第一言語の文を第二言語の自然な文に翻訳することができる翻訳装置及び翻訳プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
前記課題を解決するため、請求項1に記載の用例データベース作成装置は、第一言語の文を第二言語の文に翻訳した翻訳データが収められている対訳データベースであり、前記第一言語の1つの文が前記第二言語の複数の文に翻訳されている場合において、当該第一言語の1つの文の部分と当該第二言語の1つの文とが対応するようにした一文対応翻訳データを、前記対訳データベースに追加した用例データベースを作成する用例データベース作成装置であって、翻訳データ判別手段と、引用表現判別手段と、引用表現分離手段と、第二言語複数文判別手段と、第一言語表現特定手段と、第一言語分割手段と、分割第一言語対応第二言語追加手段と、を備える構成とした。
【0011】
かかる構成によれば、用例データベース作成装置は、引用表現判別手段によって、第一言語の文中に引用を表す引用表現が含まれているか否かを、第一言語において頻出する引用表現をパターン化した引用表現パターンを用いて判別する。そして、用例データベース作成装置は、引用表現分離手段によって、引用表現判別手段で引用表現が含まれていると判別した場合に、当該引用表現を、当該第一言語の文から分離して破棄する。そして、用例データベース作成装置は、第二言語複数文判別手段によって、引用表現分離手段で引用表現を分離した第一言語の文を本文とし、この本文が前記第二言語の複数の文に翻訳されているか否かを、前記第二言語の文法に従った文の区切りをパターン化した文区切りパターンを用いて判別する。
【0012】
そして、用例データベース作成装置は、第一言語表現特定手段によって、第二言語複数文判別手段で前記引用表現を分離した本文が第二言語の複数の文に翻訳されていると判別された場合に、当該第二言語の複数の文に含まれる単語が、本文に含まれる単語のどの単語に該当するのかを、第一言語の単語と第二言語の単語とが対応付けられている対訳辞書データを用いて特定する。
【0013】
なお、第一言語表現特定手段では、対訳辞書データの代わりに、第一言語の単語と第二言語の単語との関連性について求められた対数尤度比データと第一言語の単語と第二言語の単語との対応する確率について求められた単語対応確率との少なくとも1つを用いてもよい。さらに、第一言語表現特定手段では、第一言語の文の構文構造のデータと第二言語と構文構造のデータとを用いてもよい。
【0014】
さらに、用例データベース作成装置は、第一言語分割手段によって、第一言語表現特定手段で特定された第二言語の複数の文に含まれる単語と、本文に含まれる単語との対応関係に従って、本文の各部分と第二言語の1つの文とが対応するように分割する。そして、用例データベース作成装置は、分割第一言語対応第二言語追加手段によって、第一言語分割手段で分割された本文の各部分と第二言語の1つの文とが対応している一文対応翻訳データを、対訳データベースに追加する。
【0015】
請求項2に記載の用例データベース作成装置は、請求項1に記載の用例データベース作成装置において、前記第一言語分割手段が、前記本文の各部分に、当該各部分の主語又は提題となる予め設定した単語を付加することを特徴とする。
【0016】
かかる構成によれば、用例データベース作成装置は、第一言語分割手段によって、本文の各部分に主語又は提題を付加し、この本文の各部分を1つの文として成立させることができる。
【0017】
請求項3に記載の翻訳装置は、入力された第一言語の文を、第二言語の文に翻訳する翻訳装置であって、用例データベースと、引用表現判別手段と、引用表現分離手段と、第一言語節・並列句判別手段と、単位毎翻訳手段と、最大スコア翻訳結果選択手段と、翻訳手段と、翻訳結果出力手段と、を備える構成とした。
【0018】
かかる構成によれば、翻訳装置は、請求項1のデータベース作成装置で作成された用例データベースを備え、引用表現判別手段によって、第一言語の文の中に引用を表す引用表現が含まれているか否かを、第一言語において頻出する引用表現をパターン化した引用表現パターンを用いて判別する。続いて、翻訳装置は、引用表現分離手段によって、引用表現判別手段で引用表現が含まれていると判別した場合に、当該引用表現を、該当する第一言語の1つの文から分離する。そして、翻訳装置は、第一言語節・並列句判別手段によって、引用表現分離手段で引用表現を分離した第一言語の文が節又は並列句を含むか否かを、第一言語の文法に従った文の節及び並列句をパターン化した節・並列句パターンを用いて判別する。
【0019】
そして、翻訳装置は、第一言語翻訳単位分割手段によって、第一言語節・並列句判別手段で節又は並列句を含むと判別された第一言語の文を、第二言語に翻訳する単位となる翻訳単位に分割する。そして、翻訳装置は、単位毎翻訳手段によって、第一言語翻訳単位分割手段で分割された翻訳単位と用例データベースに含まれるデータとが一致する度合いを示すスコアを、当該翻訳単位毎に計算して翻訳する。さらに、翻訳装置は、最大スコア翻訳結果選択手段によって、単位毎翻訳手段で翻訳単位を翻訳する際に計算した当該翻訳単位ごとのスコアについて合計した合計スコアが最大となる最大スコア翻訳結果を選択する。そして、翻訳装置は、翻訳手段によって、第一言語節・並列句判別手段で節又は並列句を含まないと判別された第一言語の文を、用例データベースを用いて翻訳する。そして、翻訳装置は、翻訳結果出力手段によって、最大スコア翻訳結果選択手段で選択された最大スコア翻訳結果、又は、翻訳手段で翻訳された翻訳結果と、引用表現分離手段で引用表現が分離された場合に当該引用表現を、第一言語の単語と第二言語の単語とが対応付けられている対訳辞書データを用いて翻訳した翻訳結果とを出力する。
【0020】
請求項4に記載の翻訳装置は、請求項3に記載の翻訳装置において、前記第一言語翻訳単位分割手段が、前記翻訳単位に、当該翻訳単位の主語又は提題となる予め設定した単語を付加することを特徴とする。
【0021】
かかる構成によれば、翻訳装置は、第一言語翻訳単位分割手段によって、翻訳単位に主語又は提題を付加し、この翻訳単位を1つの文として成立させることで、用例データベースに含まれている第二言語の文と対応させることができる。
【0022】
請求項5に記載の翻訳装置は、請求項2又は3に記載の翻訳装置において、前記単位毎翻訳手段が、用例データ取得手段と、用例データ選択手段と、編集手段と、翻訳候補出力手段と、を備えることを特徴とする。
【0023】
かかる構成によれば、翻訳装置は、用例データ取得手段によって、用例データベースから、翻訳単位に含まれる述語が一致又は予め設定した類似度を満たす第一言語の文を、用例データとして取得する。続いて、翻訳装置は、用例データ選択手段によって、用例データ取得手段で取得した用例データと翻訳単位との構文構造が近似する度合いを表した距離を計算し、この距離が最小のものから所定数の用例データを選択する。
【0024】
なお、この距離の計算は、用例データと翻訳単位とが同じ場合に最小の編集距離を有するとし、この編集距離に、用例データを翻訳単位に編集した際に、単語を削除している場合のコストを削除コストとして付加し、単語を置換している場合のコストを置換コストとして付加し、単語を挿入している場合のコストを挿入コストとして付加したものを計算している。
【0025】
また、翻訳装置は、編集手段によって、用例データ選択手段で選択した用例データと翻訳単位との表現が同一になるように当該用例データを編集する際に、予め設定した編集の規則に従った編集コストを計算すると共に、当該用例データの第二言語の表現を、第一言語の単語と第二言語の単語との対応関係を予め設定した第一言語第二言語対応情報を用いて、編集した後の第二言語の文を翻訳候補とする。
なお、この編集コストは、用例データの編集に従って当該用例データに対応する第二言語の文に含まれている単語を置換、削除又は挿入する場合を計算したものである。
【0026】
そして、翻訳装置は、翻訳候補出力手段によって、用例データ選択手段で計算した距離と、編集手段で計算した編集コストとから、翻訳単位ごとのスコア及び翻訳候補を出力する。
【0027】
請求項6に記載の用例データベース作成プログラムは、第一言語の文を第二言語の文に翻訳した翻訳データが収められている対訳データベースであり、前記第一言語の1つの文が前記第二言語の複数の文に翻訳されている場合において、当該第一言語の1つの文の部分と当該第二言語の1つの文とが対応するようにした一文対応翻訳データを、前記対訳データベースに追加した用例データベースを作成するために、コンピュータを、翻訳データ判別手段、引用表現判別手段、引用表現分離手段、第二言語複数文判別手段、第一言語表現特定手段、第一言語分割手段、分割第一言語対応第二言語追加手段、として機能させる構成とした。
【0028】
かかる構成によれば、用例データベース作成プログラムは、引用表現判別手段によって、第一言語の文中に引用を表す引用表現が含まれているか否かを、第一言語において頻出する引用表現をパターン化した引用表現パターンを用いて判別する。そして、用例データベース作成プログラムは、引用表現分離手段によって、引用表現判別手段で引用表現が含まれていると判別した場合に、当該引用表現を、当該第一言語の文から分離して破棄し、第二言語複数文判別手段によって、引用表現分離手段で引用表現を分離した本文が第二言語の複数の文に翻訳されているか否かを、第二言語の文法に従った文の区切りをパターン化した文区切りパターンを用いて判別し、第一言語表現特定手段によって、第二言語複数文判別手段で本文が第二言語の複数の文に翻訳されていると判別された場合に、当該第二言語の複数の文に含まれる単語が、本文に含まれる単語のどの単語に該当するのかを、第一言語の単語と第二言語の単語とが対応付けられている対訳辞書データを用いて特定する。さらに、用例データベース作成プログラムは、第一言語分割手段によって、第一言語表現特定手段で特定された第二言語の複数の文に含まれる単語と、引用表現を分離した複数翻訳文包含文に含まれる単語との対応関係に従って、引用表現を分離した複数翻訳文包含文の各部分と第二言語の1つの文とが対応するように分割し、分割第一言語対応第二言語追加手段によって、第一言語分割手段で分割された本文の各部分と第二言語の1つの文とが対応している一文対応翻訳データを、対訳データベースに追加する。
【0029】
請求項7に記載の翻訳プログラムは、入力された第一言語の文を、第二言語の文に翻訳するために、請求項1のデータベース作成装置で作成された用例データベースを備えたコンピュータを、引用表現判別手段と、引用表現分離手段と、第一言語節・並列句判別手段と、単位毎翻訳手段と、最大スコア翻訳結果選択手段と、翻訳手段と、翻訳結果出力手段と、として機能させる構成とした。
【0030】
かかる構成によれば、翻訳プログラムは、引用表現判別手段によって、第一言語の文の中に引用を表す引用表現が含まれているか否かを、第一言語において頻出する引用表現をパターン化した引用表現パターンを用いて判別し、引用表現分離手段によって、引用表現判別手段で引用表現が含まれていると判別した場合に、当該引用表現を、該当する第一言語の1つの文から分離し、第一言語節・並列句判別手段によって、引用表現分離手段で引用表現を分離した第一言語の文が節又は並列句を含むか否かを、第一言語の文法に従った文の節及び並列句をパターン化した節・並列句パターンを用いて判別する。そして、翻訳プログラムは、第一言語翻訳単位分割手段によって、第一言語節・並列句判別手段で節又は並列句を含むと判別された第一言語の文を、第二言語に翻訳する単位となる翻訳単位に分割し、単位毎翻訳手段によって、第一言語翻訳単位分割手段で分割された翻訳単位と用例データベースに含まれるデータとが一致する度合いを示すスコアを、翻訳単位ごとに計算して翻訳する。さらに、翻訳プログラムは、最大スコア翻訳結果選択手段によって、単位毎翻訳手段で翻訳単位を翻訳する際に計算した当該翻訳単位ごとのスコアについて合計した合計スコアが最大となる最大スコア翻訳結果を選択し、翻訳手段によって、第一言語節・並列句判別手段で節又は並列句を含まないと判別された第一言語の文を、用例データベースを用いて翻訳する。そして、翻訳プログラムは、翻訳結果出力手段によって、最大スコア翻訳結果選択手段で選択された最大スコア翻訳結果、又は、翻訳手段で翻訳された翻訳結果と、引用表現分離手段で引用表現が分離された場合に当該引用表現を、第一言語の単語と第二言語の単語とが対応付けられている対訳辞書データを用いて翻訳した翻訳結果とを出力する。
【発明の効果】
【0031】
請求項1、6に記載の発明によれば、第一言語の引用表現を除いた後に、第二言語の文と対応付けることで、第一言語(例えば、日本語)の1つの文が第二言語(例えば、英語)の複数の文に翻訳されている場合に、第一言語の1つの文における部分と第二言語の1つの文とが対応するようにした用例データベースを作成することができる。
【0032】
請求項2に記載の発明によれば、分割した本文の各部分に主語又は提題を付加し、この複数翻訳文包含文の各部分を1つの文として成立させることで、用例データベースに含まれている第二言語の文と対応させることができる。
【0033】
請求項3、7に記載の発明によれば、引用表現や複数の節・並列句を含む第一言語が入力された場合にこれらを適切に分離・分割することで、第一言語の文と第二言語の文とが1対1に対応している用例データベースを適切に用いることができるので、第一言語の文を第二言語の自然な文に翻訳することができる。
【0034】
請求項4に記載の発明によれば、分割した翻訳単位に主語又は提題を付加し、この翻訳単位を1つの文として成立させることで、用例データベースに含まれている第二言語の文と対応させることができる。
【0035】
請求項5に記載の発明によれば、分割した翻訳単位について、当該翻訳単位が、用例データベースに収められている用例データと同じ構文構造を取るようにした場合の編集距離に、削除コスト及び置換コストを付加した距離を計算すると共に、当該翻訳単位が用例データと同じになるように、用例データに対応する第二言語の文に含まれている単語を置換、削除又は挿入して編集した場合の編集コストを計算し、これら距離及び編集コストから、翻訳単位ごとのスコア及び翻訳候補を出力することで、用例データベースを適切に用いることができる。
【発明を実施するための最良の形態】
【0036】
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
まず、用例データベース作成装置について構成及び動作について、続けて、翻訳装置の構成及び動作について、適宜、具体的な例を示しながら説明する。
(用例データベース作成装置の構成)
図1は、用例データベース作成装置のブロック図である。図1に示すように、用例データベース作成装置1は、第一言語の文を第二言語の文に翻訳した翻訳データが収められている対訳データベース2において、第一言語の1つの文が第二言語の複数の文に翻訳されている場合に、この第一言語の1つの文の各部分と第二言語の1つの文とが対応するように翻訳した一文対応翻訳データを対訳データベース2に追加した用例データベース4を作成するもので、翻訳データ判別手段3と、引用表現判別手段5と、引用表現パターン蓄積手段7と、引用表現分離手段9と、第二言語複数文判別手段11と、文区切りパターン蓄積手段13と、第一言語表現特定手段15と、対訳辞書データ蓄積手段17と、第一言語分割手段19と、分割第一言語対応第二言語追加手段21とを備えている。
【0037】
なお、この実施形態では、用例データベース作成装置1によって作成する用例データベース4は、第一言語を日本語、第二言語を英語として説明するが、対訳データベース2が存在する言語であり、引用表現パターン蓄積手段7、文区切りパターン蓄積手段13及び対訳辞書データ蓄積手段17が用意できるのであれば、どのような言語であってもよい。
【0038】
また、対訳データベース2は、日本語のニュース記事と英語のニュース記事とについて、記事対応と文対応とが付加されているもので、ここでは、ニュース番組等で実際に使用されたものを採用している。
【0039】
翻訳データ判別手段3は、対訳データベース2に収められている翻訳データについて、
日本語の1つの文が英語の複数の文に翻訳されているか否かを、判別するものである。この翻訳データ判別手段3による判別は、単純に日本語の1つの文に対し、対応する英語の文にピリオドが2つ以上含まれているか否かによって判定している。なお、この翻訳データ判別手段3による判別では、英語の文中に省略を示すピリオドが含まれていた場合には、当該英語の文を複数の文と判定してしまうことになる。
【0040】
そして、この用例データベース作成装置1では、翻訳データ判別手段3によって判別された日本語の文について、当該文を1文ずつ、対応する英語の文と共に処理している。
【0041】
引用表現判別手段5は、翻訳データ判別手段3によって、日本語の1つの文が英語の複数の文に翻訳されていると判別された文(複数翻訳文包含文)の中に、引用を表す引用表現が含まれているか否かを、引用表現パターン蓄積手段7に蓄積されている引用表現パターンを用いて判別するものである。
【0042】
引用表現パターン蓄積手段7は、日本語において頻出する引用表現をパターン化した引用表現パターンを蓄積しているもので、一般的なハードディスク等の記録媒体によって構成されている。この引用表現パターン蓄積手段7に蓄積されている引用表現パターンは、例えば、「・・・によりますと」、「一般的には・・・といわれています。」、「・・・によりますと、・・・・ということです。」が挙げられる。
【0043】
引用表現分離手段9は、引用表現判別手段5で判別された引用表現を、複数翻訳文包含文から分離するものである。
ここで、引用表現判別手段5で判別後、引用表現分離手段9で分離する場合の具体的な例について説明する。
複数翻訳文包含文が「JRによりますと、東海道・山陽新幹線のダイヤの乱れはきょう一杯続く見込みだということです。」であり、この複数翻訳文包含文に対応する英語の文が「The Japan Railway Company says the Tokaido Sanyo Shinkansen services will be disrupted until the last train tonight.」であるとする。
【0044】
こうした場合、引用表現判別手段5で判別後、引用表現分離手段9で判別した引用表現を分離すると、引用表現が「The Japan Railway Company says」となり、この引用表現を分離した複数翻訳文包含文(以下、単に本文ともいう)が「the Tokaido Sanyo Shinkansen services will be disrupted until the last train tonight.」となる。
【0045】
第二言語複数文判別手段11は、引用表現分離手段9で引用表現が分離された複数翻訳文包含文(本文)が、英語の複数の文によって構成されているか否かを、文区切りパターン蓄積手段13に蓄積されている文区切りパターンを用いて判別するものである。そして、この第二言語複数分判別手段11により、本文が英語の複数の文によって構成されていないと判別された場合には、この本文は破棄されることとなる。つまり、当該本文についてはこれ以上の処理を行わない。
【0046】
なお、この第二言語複数分判別手段11では、本文が英語の複数の文によって構成されていないと判別された場合の当該本文を破棄することとしているが、少なくとも本文は複数翻訳文包含文から引用表現が分離されているものであるので、この結果を対訳データベース2に出力して、翻訳データを充実させてもよい。つまり、当初、対訳データベース2に収められていた翻訳データである日本語の1つの複数翻訳文包含文及び英語の複数の文は、日本語の引用表現及び英語の引用表現と、日本語の1つの文及び英語の1つの文との2つに分けられたものとなる。
【0047】
文区切りパターン蓄積手段13は、英語の文法に従った文の区切りをパターン化した文区切りパターンを蓄積するもので、一般的なハードディスク等の記録媒体によって構成されている。この文区切りパターン蓄積手段13に蓄積されている文区切りパターンは、省略を示すピリオドを除いて、文末にあるピリオドを識別するためのパターンである。なお、省略を示すピリオドの例は、「Mr.」、「Mt.」、「Dr.」である。
【0048】
第一言語表現特定手段15は、第二言語複数文判別手段11において、引用表現が分離された複数翻訳文包含文(本文)が英語の複数の文によって構成されていると判別された場合に、この英語の複数の文に含まれている単語が、本文に含まれている単語のどの単語に該当するのかを、対訳辞書データ蓄積手段17に蓄積されている対訳辞書データと、日本語の文と英語の文との構文構造の関連性について求められた構文データとを用いて、特定する(対応付けを行う)ものである。
【0049】
なお、構文データは、文節や句のまとまりを表したものである。例えば、句であれば、日本語の「気象庁」は、英語の「The Meteorological Agency」に該当しており、この単語が「The Meteorological Agency has issued a heavy rain advisory」という文中に存在した場合に、この句を区切る括弧「(The Meteorological Agency) has issued a heavy rain advisory」として反映されるものである。
【0050】
なお、この実施形態では、第一言語表現特定手段15では、対訳辞書データを用いて、英語の複数の文に含まれている単語が、本文に含まれている単語のどの単語に該当するのかを特定しているが、日本語の単語と英語の単語との関連性について求められた対数尤度比データや日本語の単語と英語の単語とが対応する確率について求められた単語対応確率を用いて特定してもよい。
【0051】
ここで、図7を参照して、第一言語表現特定手段15によって特定した例(対応付け例)について説明する。
この図7に示したように、英語の(from later tonight)は日本語の(これから)に対応付けられ、英語の(until tomorrow)は日本語の(あすにかけても)に対応付けられ、英語の(Heavy rain)は日本語の(強い雨が降る)に対応付けられ、英語の(is forecast)は日本語の(恐れがあり)に対応付けられ、英語の(The Meteorological Agency)は日本語の(気象庁は)に対応付けられ、英語の(a heavy rain)は日本語の(雨に)に対応付けられ、英語の(advisory)は日本語の(警戒するよう)に対応付けられ、英語の(has issued)は日本語の(呼びかけています)に対応付けられている。
【0052】
この図7の例からもわかるように、日本語の(各地で)と(今後の)とは、英語の単語と対応付けられていない。これは、翻訳された英語が、日本語を直訳したものではないために内容的に重要でない部分か、省略されているために生じた部分かいずれかである。
【0053】
対訳辞書データ蓄積手段17は、日本語の単語と英語の単語との逐語訳である対訳辞書データを蓄積したもので、一般的なハードディスク等の記録媒体によって構成されている。
【0054】
第一言語分割手段19は、第一言語表現特定手段15で特定された英語の複数の文に含まれている単語と、本文に含まれている単語との対応関係に従って、本文の各部分と英語の1つの文とが対応するように、当該本文を分割するもので、主語・提題付加手段19aを備えている。
【0055】
主語・提題付加手段19aは、本文を各部分に分割した際に、この各部分に英語の1つの文にあわせて、日本語の主語や提題を付加するものである。なお、提題には、論証されるべき命題、論題、定立、主張、テーゼといった様々な意味があるが、ここでは、助詞「は」で終わる文節のうち、最も文頭に近いものである。
ここで、第一言語分割手段19によって、図7に示した本文が分割される例について説明する。
【0056】
「(これから)(あすにかけても)(各地で)(強い雨が降る)(恐れがあり)、(気象庁は)(今後の)(雨に)(警戒するように)(呼びかけています)。」は、「(これから)(あすにかけても)(各地で)(強い雨が降る)(恐れがあり)、」と「(気象庁は)(今後の)(雨に)(警戒するように)(呼びかけています)。」との2つに分割され、前文に対応した英語の文は「Heavy rain is forecast from later tonight until tomorrow」となり、後文に対応した英語の文は「The Meteorological Agency has issued a heavy rain advisory」となる。
【0057】
「東海道・山陽新幹線は台風のため、三回にわたって運転を見合わせた影響で、これまでに十八本の列車が運休するなどダイヤが大幅に乱れています。」は、「東海道・山陽新幹線はダイヤが大幅に乱れています。」と「東海道・山陽新幹線は台風のため、三回にわたって運転を見合わせた影響で、」と「これまでに十八本の列車が運休するなど」との3つに分割される。そして、最初の文に対応した英語の文は「Tokaido Sanyo Shinkansen train services have been disrupted.」となり、次の文に対応した英語の文は「The shinkansen bullet trains had to suspend operations three times today due to the typhoon.」となり、その次の文に対応した英語の文は「18 trains have been cancelled so far.」となる。
【0058】
なお、これらの英語の文において、「The shinkansen bullettrains」が主語・提題付加手段19aによって付加された主語に該当する。
【0059】
分割第一言語対応第二言語追加手段21は、第一言語分割手段19によって分割された本文の各部分と英語の1つの文とが対応している複数の英語の文及び当該本文の各部分を、一文対応翻訳データとして、対訳データベース2に追加するものである。
【0060】
この用例データベース作成装置1によれば、対訳データベース2に収められている翻訳データにおいて、日本語の1つの文が英語の複数の文に翻訳されていると判別した場合に、当該日本語の引用表現を除いた後に、英語の文と対応付けることで、日本語の1つの文が英語の複数の文に翻訳されている場合に、日本語の1つの文における部分と英語の1つの文とが対応するようにした用例データベース4を作成することができる。
【0061】
(用例データベース作成装置の動作)
次に、図2に示すフローチャートを参照して、用例データベース作成装置1の動作を説明する(適宜、図1参照)。
まず、用例データベース作成装置1は、翻訳データ判別手段3によって、対訳データベース2に収められている翻訳データにおいて、日本語の1つの文が英語の複数の文に翻訳されているか否かを判別する(ステップS1)。用例データベース作成装置1は、日本語の1つの文が英語の複数の文に翻訳されている翻訳データが全くない場合(ステップS1、No)は動作を終了し、日本語の1つの文が英語の複数の文に翻訳されている場合(ステップS1、Yes)は、引用表現判別手段5によって、当該日本語の1つの文(複数翻訳文包含文)に引用表現が含まれているか否かを判別する(ステップS2)。
【0062】
続いて、用例データベース作成装置1は、引用表現判別手段5で複数翻訳文包含文に引用表現が含まれていると判別された場合(ステップS2、Yes)、引用表現分離手段9によって、複数翻訳文包含文から引用表現を分離し(ステップS3)。引用表現が含まれていると判別されなかった場合(ステップS2、No)、このステップS3は、エスケープされ、ステップS4に移行する。
【0063】
そして、用例データベース作成装置1は、第二言語複数文判別手段11によって、引用表現分離手段9で引用表現が分離された複数翻訳文包含文(本文)が英語の複数の文によって構成されているか否かを判別する(ステップS4)。そして、用例データベース作成装置1は、本文が英語の複数の文によって構成されていないと判別した場合(ステップS4、No)は動作を終了し、本文が英語の複数の文によって構成されていると判別した場合(ステップS4、Yes)は、第一言語表現特定手段15によって、英語の文に含まれている単語が、日本語の文である本文のどの表現(単語)に該当するかを特定する(ステップS5)。
【0064】
そして、用例データベース作成装置1は、第一言語分割手段19によって、第一言語表現特定手段15で特定された英語の複数の文に含まれている単語と、本文の各部分と英語の1つの文とが対応するように、当該本文を分割する(ステップS6)。そして、用例データベース作成装置1は、分割第一言語対応第二言語追加手段21によって、本文の各部分と英語の1つの文とが対応している複数の英語の文及び当該本文の各部分とを、一文対応翻訳データとして、対訳データベース2に追加し、用例データベース4とする(ステップS7)。
【0065】
(翻訳装置の構成)
次に、用例データベース作成装置1で作成した用例データベース4を用いた翻訳装置について、図3を参照して説明する。図3は翻訳装置のブロック図である。
図3に示すように、翻訳装置31は、入力された第一言語の文を、第二言語の文に翻訳するもので、引用表現判別手段5と、引用表現パターン蓄積手段7と、引用表現分離手段9と、第一言語節・並列句判別手段33と、節・並列句パターン蓄積手段35と、第一言語翻訳単位分割手段37と、単位毎翻訳手段39と、翻訳手段41と、最大スコア翻訳結果選択手段43と、翻訳結果出力手段45と、対訳辞書データ蓄積手段17とを備えている。なお、図1に示した用例データベース作成装置1と同様の構成は同一の符号を付してその説明を省略する。
【0066】
なお、この翻訳装置31では、入力される第一言語を日本語、翻訳する第二言語を英語として説明するが、用例データベース4が存在する言語であり、対訳辞書データ蓄積手段17が用意できるのであれば、どのような言語であってもよい。
【0067】
また、この翻訳装置31に入力される日本語の文(以下、単に入力文ともいう)の例を「気象庁によりますと低気圧が日本付近を通過するためこれからあすにかけても北日本の太平洋側にまとまった雪が降る恐れがあるということです。」としている。
【0068】
第一言語節・並列句判別手段33は、引用表現分離手段9で引用表現の分離された日本語の文(本文)が節又は並列句を含むか否かを、節・並列句パターン蓄積手段35に蓄積されている節・並列句パターンを用いて判別するものである。この第一言語節・並列句判別手段33では、本文と節・並列句パターンとが一致した場合に、節又は並列句と判別している。そして、第一言語節・並列句判別手段33では、節又は並列句が含まれていると判別した本文を第一言語翻訳単位分割手段37に、節又は並列句が含まれていると判別しなかった本文を翻訳手段41に出力する。
【0069】
なお、この第一言語節・並列句判別手段33には、入力文から引用表現が除かれた本文「低気圧が日本付近を通過するためこれからあすにかけても北日本の太平洋側を中心にまとまった雪が降る恐れがある」が入力されている。ちなみに、引用表現分離手段9で入力文から分離された引用表現は「気象庁によりますと ということです」である。
【0070】
節・並列句パターン蓄積手段35は、日本語の文法に従った文の節及び並列句をパターン化した節・並列句パターンを蓄積するもので、一般的なハードディスク等の記録媒体によって構成されている。この節・並列句パターン蓄積手段35に蓄積されている節・並列句パターンには、例えば、節(節の末端である節末)の場合、“動詞+が、”や“動詞+て、”が挙げられる。
【0071】
例えば、「関東では雨が降ってきていますが、東北では雨は降っていません。」という本文では、“動詞+が、”のパターンと「降ってきていますが」の部分とが一致して、節末が含まれていると判別される。
【0072】
また、並列句の場合、「1つ以上の“名詞類+が+数詞+ヶ所、”と1つの“名詞類+が+数詞+ヶ所”」が挙げられる。
例えば、「このほか、道路の損壊が二ヶ所、流された橋が一ヶ所、山崩れが五ヶ所などとなっています。」という本文に、この並列句のパターンを適用すると、「道路の損壊が二ヶ所」、「流された橋が一ヶ所」、「山崩れが五ヶ所」という3つの並列句が含まれていると判別される。
【0073】
第一言語翻訳単位分割手段37は、第一言語節・並列句判別手段33で節又は並列句が含まれていると判別された本文を、様々な翻訳単位に分割して単位毎翻訳手段39に出力するもので、主語・提題付加手段37aを備えている。この第一言語翻訳単位分割手段37から出力された翻訳単位は、当該翻訳単位毎に単位毎翻訳手段39で翻訳され、翻訳単位ごとのスコア(詳細は後記)が計算されることになり、最大スコア翻訳結果選択手段43に出力されて最大のスコアの翻訳候補(詳細は後記)が選択されることになる。
【0074】
それゆえ、この第一言語翻訳単位分割手段37では、第一言語節・並列句判別手段33で節又は並列句が含まれている本文を、これら節又は並列句に従って、分割可能なすべての組み合わせについて、翻訳単位を出力する。
【0075】
例えば、この第一言語翻訳単位分割手段37では、複数の節のみが本文に含まれている場合には、各節を翻訳単位とするように本文を分割し、3つ以上の節(A節、B節、C節)が本文に含まれている場合には、A節とB節とを1つの翻訳単位とし、C節を1つの翻訳単位としたり、A節を1つの翻訳単位とし、B節とC節とを1つの翻訳単位としたりするように本文を分割する。また、この第一言語翻訳単位分割手段37では、節が含まれておらず、複数の並列句のみが本文に含まれている場合に、各並列句を翻訳単位とするように本文を分割し、3つ以上の並列句(A句、B句、C句)が本文に含まれている場合には、A句とB句とを1つの翻訳単位とし、C句を1つの翻訳単位としたり、A句を1つの翻訳単位とし、B句とC句とを1つの翻訳単位としたりするように本文を分割する。
【0076】
或いは、この第一言語翻訳単位分割手段37では、節又は並列句に従った分割可能なすべての組み合わせについて出力せずに、複数の節と複数の並列句とが本文に含まれている場合には、1つの節については並列句を1つの翻訳単位とし、別の節については、並列句それぞれを翻訳単位として、本文を分割したり、1つの節について並列句の数が所定数よりも多い場合のみ並列句それぞれを翻訳単位として、本文を分割したりする。
【0077】
ここで、翻訳単位の例を挙げる。
例えば、「低気圧が日本付近を通過するためこれからあすにかけても北日本の太平洋側を中心にまとまった雪が降る恐れがある」は「低気圧が日本付近を通過するため」と「これからあすにかけても北日本の太平洋側を中心にまとまった雪が降る恐れがある」という2つの翻訳単位に分割される。
【0078】
主語・提題付加手段37aは、本文を翻訳単位に分割した際に、この翻訳単位に英語の1つの文にあわせて、日本語の主語や提題を付加するものである。
【0079】
単位毎翻訳手段39は、用例データベース4を用いて、第一言語翻訳単位分割手段37から出力された翻訳単位ごとに翻訳して、当該翻訳単位毎のスコア及び当該翻訳単位毎の翻訳結果である翻訳候補を、最大スコア翻訳結果選択手段43に出力するものである。この単位毎翻訳手段39の詳細な構成を図4に示す。この図4に示すように、単位毎翻訳手段39は、用例データ取得手段39aと、用例データ選択手段39bと、編集手段39cと、翻訳候補出力手段39dとを備えている。
【0080】
用例データ取得手段39aは、第一言語翻訳単位分割手段37から出力された翻訳単位に含まれる述語が一致又は予め設定した類似度を満たす日本語の文を、用例データとして用例データベース4に収められている翻訳データ又は一文対応翻訳データから取得するものである。なお、予め設定した類似度は、ある述語と別の述語との意味的な近さである。例えば、ある述語の日本語と別の述語の日本語とが用例データベース4の中で、同じ英語に対応する確率として、類似度の値を求めることができる。そして、予め設定した類似度を満たすとは、予め設定した閾値よりも類似度の値が大きい場合のことを指している。
【0081】
例えば、この用例データ取得手段39aに翻訳単位として「低気圧が日本付近を通過するため」が入力された場合、この翻訳単位に含まれている述語“通過する”と一致又は類似する述語を含む用例データとして「低気圧が沖縄付近を通過する」(対応している英語の文は、「A low air pressure system passes close to Okinawa.」である)が用例データベース4から取得される。
【0082】
なお、この実施形態では、用例データ取得手段39aは、日本語の文に含まれている述語に着目しているが、この述語以外に、用例データベース4に収められている翻訳データ又は一文対応翻訳データにおいて、英語の文に含まれている述語が日本語の文に含まれている述語以外に対応している場合は、該当する部分について、翻訳単位と一致する部分のみを取得する。
【0083】
例えば、この用例データ取得手段39aに翻訳単位として「発達中の低気圧が関東の南の海上を進んでいるため、」が入力された場合、この翻訳単位に含まれている“発達中”と一致又は類似する部分を含む翻訳データ又は一文対応翻訳データの英語の文「A low−pressure system is developing off the Kanto coast」から“is developing”のみが用例データベース4から取得される。
【0084】
用例データ選択手段39bは、用例データ取得手段39aで取得された用例データと、翻訳単位との距離を計算し、計算した距離が最小のものから所定数の用例データ(距離が小さいものから順位を付けた場合の上位に位置する用例データ)を選択するものである。
【0085】
この距離は、用例データと翻訳単位とがどれほど似通っているのかを示す目安(構文構造が近似している度合いを表すもの、さらに、構文構造だけではなく、内容(単語)も類似している目安)となるもので、この距離が小さいほど似通っていることになる。
【0086】
そして、用例データ選択手段39bで計算される距離は、用例データと翻訳単位とが同じ構文構造を取る場合(単語の順序を入れ替えることで、同じ構文構造になる場合も含む)に最小の編集距離であるとする。例えば、用例データの日本語の文が主語+補語1+補語2+述語で構成されている場合に、翻訳単位が主語+補語1+補語2+述語で構成されている場合には、同じ構文構造を取ると言えるし、翻訳単位が主語+補語2+補語1+述語で構成されていても同じ構文構造を取ると言える。
【0087】
そして、この編集距離に、用例データ(日本語の文)を英語の文に翻訳した際に削除されている日本語の単語が含まれている場合のコストを削除コストとして付加し、言語上の意味属性が一致する場合又はシソーラス(thesaurus:語を意味的類似により分類・配列したもの、分類語彙表)において意味が近似する場合のコストを置換コストとして付加したものである。
【0088】
削除コストの例としては、用例データの日本語の文とこの用例データに対応付けられている英語の文とを比較した際に、省略されている場合の削除コストを“0”とする。
【0089】
置換コストの例としては、シソーラスにおいて、意味が近い単語、例えば、“未来”と“将来”、“嫌い”と“苦手”といったように、単純に単語の置換が可能であれば、置換コストは低くなる。また、逆に、意味が遠い単語(例えば、反対語)、“未来”と“過去”、“嫌い”と“好き”といったように、単純に逆の意味の単語に置換しなければならない場合、置換コストは高くなる。
【0090】
また、置換コストの例として、例えば、「埼玉県」と「神奈川県」は、地名という意味では、同じであるので、置換コストは低くなる。
【0091】
そして、この用例データ選択手段39bで選択された用例データ(日本語の文)は対応する英語の文と共に、編集手段39cに出力されると共に、計算した距離については、編集手段39cを経由して翻訳候補出力手段39dに出力される。
【0092】
編集手段39cは、用例データ選択手段39bで選択された用例データ(日本語の文)と翻訳単位とが同じになるように、用例データを編集し、日本語の単語と英語の単語との対応関係を予め設定した日英単語対応情報(予め設定した編集の規則)を用いて、この編集に従って当該用例データに対応付けられている英語の文に含まれている単語を、置換、削除又は挿入する場合の編集コストを計算して出力すると共に、置換、削除又は挿入した後の英語の文を翻訳候補として出力するものである。ここで、英語の文に含まれている単語を、置換する場合のコストを置換コスト、削除する場合のコストを削除コストと呼称し呼び、別の単語を挿入する場合のコストを挿入コストと呼称することとする。
【0093】
なお、日英単語対応情報は、日本語の単語(日本語表現)を英語の単語(英語表現)に置換する場合にどれだけの信頼度(1以下)で対応しているのかを定義したものである。例えば、この日英単語対応情報では、日本語の単語「沖縄」は信頼度0.9で英語の単語「Okinawa」に対応していると定義されている。また、この日本語の単語「沖縄」は信頼度0.4で英語の単語「system」に対応していると定義されている。
【0094】
また、編集コストは、用例データに対応付けられている英語の文に含まれている単語を、置換又は削除する際には、日英単語対応で定義されている信頼度に基づいて計算されることになり、当該日英単語対応で定義されている信頼度が高ければ小さくなり、信頼度が低ければ大きくなることになる。
【0095】
さらに、編集コストは、用例データに対応付けられている英語の文に、単語を挿入する際には、以下のように計算されることになる。まず、用例データに対応付けられている英語の文の構文構造を解析し、解析した結果、挿入する単語の修飾関係が正しくなる位置のみを挿入位置の候補とする。そして、解析した結果、挿入位置の候補が複数ある場合には、予め記録しておいた言語モデル等の統計情報を利用して、最適な挿入位置の候補を決定する。
【0096】
なお、この単語を挿入する場合の挿入コストは、挿入する単語数が増加すればするほど、増加することとなる。そして、編集コストは、削除コストと置換コストと挿入コストと総和で求められることとなる。
【0097】
ここで、編集手段39cで用例データを、翻訳単位と同じように編集した例と、この編集に従って(合わせて)用例データに対応付けられている英語の文を編集した場合の編集コストの計算例とについて説明する。
【0098】
この編集手段39cに入力された翻訳単位が「低気圧が日本付近を通過するため」であり、用例データが「低気圧が沖縄付近を通過する」であるとすると、翻訳単位に含まれている「日本」に合わせるため、用例データに含まれている「沖縄」を「日本」に置換する。そして、この用例データに対応付けられている英語の文も、この編集に合わせて、日英単語対応情報を用いて編集すると、「A low air pressure system passes close to Okinawa.」が「A low air pressure system passes close to Japan.」になる。
【0099】
この場合、編集手段39cでは、用例データ(日本語の文)の「沖縄」を「日本」に置換する編集をし、この編集に従って、用例データに対応付けられている英語の文の「Okinawa」を「Japan」に置換する編集を行っている。このような編集では、日英単語対応情報により、日本語の単語「沖縄」と英語の単語(英語表現)とがどれだけの信頼度で対応しているかによって、英語表現と編集コストとが決定されることになる。そして、この実施形態では、編集コストを“1−信頼度”で定義している。
【0100】
日英単語対応情報において、例えば、日本語の単語「沖縄」と英語表現「Okinawa」とが対応付けられており、その信頼度が0.9である場合には、編集コストは1−0.9=0.1となる。そして、翻訳単位が「低気圧が日本付近を通過するため」であり、用例データが「低気圧が沖縄付近を通過する」であるとすると、翻訳単位に含まれている「日本」に合わせるため、用例データに含まれている「沖縄」を「日本」に置換する。そして、この用例データに対応付けられている英語の文も、この編集に合わせて、日英単語対応情報を用いて編集するので、「沖縄」に対応付けられた「Okinawa」が「日本」を表現した「Japan」となり、編集後の英語の文(翻訳候補)は、前記したように「A low air pressure system passes close to Japan.」となる。
【0101】
また、日英単語対応情報において、例えば、日本語の単語「沖縄」と英語表現「system」とが対応付けられており、その信頼度が0.4である場合には、編集コストは1−0.4=0.6となる。そして、翻訳単位が「低気圧が日本付近を通過するため」であり、用例データが「低気圧が沖縄付近を通過する」であるとすると、翻訳単位に含まれている「日本」に合わせるため、用例データに含まれている「沖縄」を「日本」に置換する。そして、この用例データに対応付けられている英語の文も、この編集に合わせて、日英単語対応情報を用いて編集するので、「沖縄」に対応付けられた「system」が「日本」を表現した「Japan」となり、編集後の英語の文(翻訳候補)は、「A low air pressure Japan passes close to Okinawa.」となる。
【0102】
翻訳候補出力手段39dは、用例データ選択手段39bで計算した距離と、編集手段39cで計算した編集コストとから、翻訳単位ごとのスコア及び翻訳候補を出力するものである。なお、翻訳単位ごとのスコアとは、用例データ選択手段39bで計算した距離に、編集手段39cで計算した編集コストを加算して、−1をかけたものである。
【0103】
ここで、図8を参照して、第一言語翻訳単位分割手段37と、単位毎翻訳手段39とによる一連の翻訳処理例について説明する。
この翻訳処理例は、翻訳装置31に、日本語の入力文を英語に翻訳した際のもので、この図8に示すように、入力文が「(気象庁によりますと)低気圧が日本付近を通過するためこれからあすにかけて北日本の太平洋側を中心にまとまった雪が降る恐れがある(ということです。)」である。そして、この入力文中の括弧で囲った「(気象庁によりますと)(ということです。)」が引用表現であり、引用表現分離手段9で分離されているものとする。
【0104】
さらに、引用表現を分離した「低気圧が日本付近を通過するためこれからあすにかけて北日本の太平洋側を中心にまとまった雪が降る恐れがある」について、第一言語節・並列句判別手段33によって、節・並列句が含まれていると判別されているとする。この場合、第一言語翻訳単位分割手段37によって、分割された入力文(正確には、翻訳単位)は「低気圧が日本付近を通過するため」と「これからあすにかけて北日本の太平洋側を中心にまとまった雪が降る恐れがある」と2つになり、この2つについて、単位毎翻訳手段39の用例データ取得手段39aによって、それぞれ用例データ(類似用例の日本語文)を取得すると「低気圧が沖縄付近を通過する」と「あすは北日本で大雪が降る恐れがある」とになる。
【0105】
そして、用例データに対応付けられている英語の文(類似用例の英語文)は、「低気圧が沖縄付近を通過する」が「A low air pressure system passes close to Okinawa」であり、「あすは北日本で大雪が降る恐れがある」が「Heavy snow will fall in northern Japan tomorrow」である。
【0106】
そして、単位毎翻訳手段39の用例データ選択手段39b及び編集手段39cを経たものが「A low air pressure system passes close to Japan」及び「Heavy snow will fall along the Pacific Ocean in northern Japan from later tonight until tomorrow」となる。図3に戻る。
【0107】
翻訳手段41は、第一言語節・並列句判別手段33で節又は並列句が含まれていると判別されなかった本文を、用例データベース4を用いて翻訳し、翻訳結果出力手段45に出力するものである。
【0108】
最大スコア翻訳結果選択手段43は、単位毎翻訳手段39から出力された翻訳単位ごとのスコアを合計した合計スコアが最大となる翻訳単位の組み合わせを選択し、該当する翻訳単位の翻訳候補の組み合わせを、最大スコア翻訳結果として、翻訳結果出力手段45に出力するものである。
【0109】
ここで、この最大スコア翻訳結果選択手段43において、翻訳単位毎のスコアを合計した合計スコア及び該当する翻訳単位の翻訳候補の組み合わせの例(入力文は前記した通り)を示す。
スコア=5の翻訳候補(節に分割しなかった場合の翻訳結果)では、「低気圧が日本付近を通過するためこれからあすにかけても北日本の太平洋側を中心にまとまった雪が降る恐れがある」が「Heavy snow will fall along the Pacific Ocean in northern Japan from later tonight until tomorrow.」となる。
【0110】
また、スコア=8の翻訳候補(2つの節に分割した場合の翻訳結果)では、「低気圧が日本付近を通過するため」が「A low air pressure system passes close to Japan.」に、「これからあすにかけても北日本の太平洋側を中心にまとまった雪が降る恐れがある」が「Heavy snow will fall along the Pacific Ocean in northern Japan from later tonight until tomorrow.」になる。
【0111】
そして、この場合、節に分割しなかった場合の翻訳結果(スコア=5)よりも2つの節に分割した場合の翻訳結果(スコア=8)の方がスコアが高いので、最大スコア翻訳結果選択手段43では、最大スコア翻訳結果として「A low air pressure system passes close to Japan.」、「Heavy snow will fall along the Pacific Ocean in northern Japan from later tonight until tomorrow.」が出力されることとなる。
【0112】
翻訳結果出力手段45は、引用表現分離手段9で分離された引用表現を、対訳辞書データ蓄積手段17に蓄積されている対訳辞書データを用いて翻訳した翻訳結果と、翻訳手段41から出力された翻訳結果又は最大スコア翻訳結果選択手段43で選択された最大スコア翻訳結果と、を出力するものである。なお、翻訳装置1に入力された入力文に引用表現が含まれていなかった場合には、当然のことながら、引用表現分離手段9から引用表現が出力されることがないので、この翻訳結果が出力されることはない。
【0113】
ちなみに、引用表現を翻訳した翻訳結果が「The Meteorological Agency says」(気象庁によりますと)であり、最大スコア翻訳結果選択手段43で前記した「A low air pressure system passes close to Japan.」、「Heavy snow will fall along the Pacific Ocean in northern Japan from later tonight until tomorrow.」が出力されているとすると、この翻訳結果出力手段45からは、「The Meteorological Agency says a low air pressure system passes close to Japan.」、「The Meteorological Agency says heavy snow will fall along the Pacific Ocean in northern Japan from later tonight until tomorrow.」が出力されることとなる。
【0114】
この翻訳装置31によれば、入力文として、引用表現や複数の節・並列句を含む日本語の文が入力された場合に、これらを適切に分離・分割することで、日本語の文と英語の文とが1対1に対応している用例データベース4を適切に用いることができるので、日本語の文を英語の自然な文に翻訳することができる。
【0115】
(翻訳装置の動作)
次に、図5に示すフローチャートを参照して、翻訳装置31の動作を説明する(適宜、図3参照)。
まず、翻訳装置31は、日本語の文を入力文として入力し(ステップ11)、引用表現判別手段5によって、この入力文が引用表現を含むか否かを判別する(ステップS12)。
【0116】
続いて、翻訳装置31は、引用表現分離手段9によって、引用表現判別手段5で引用表現が含まれていると判別された場合(ステップS12、Yes)には、この判別された引用表現を、入力文から分離する(ステップS13)。引用表現が含まれていると判別されなかった場合(ステップS12、No)には、ステップS13はエスケープされ、ステップS14に移行する。
【0117】
そして、翻訳装置31は、引用表現が分離された入力文について、第一言語節・並列句判別手段33によって、節又は並列句を含むか否かを判別する(ステップS14)。翻訳装置31は、節又は並列句を含むと判別した場合(ステップS14、Yes)には、第一言語翻訳単位分割手段37によって、翻訳単位に分割し(ステップS15)、単位毎翻訳手段39によって、この分割した翻訳単位ごと翻訳し(ステップS16)、最大スコア翻訳結果選択手段43によって、翻訳単位のスコアの合計が最大となる最大スコア翻訳結果を選択して、翻訳結果出力手段45に出力する(ステップS17)。
【0118】
また、翻訳装置31は、節又は並列句を含むと判別しなかった場合(ステップS14、No)には、翻訳手段41によって、引用表現が分離された入力文をそのまま翻訳して、翻訳結果出力手段45に出力する(ステップS18)。
【0119】
その後、翻訳装置31は、翻訳結果出力手段45によって、最大スコア翻訳結果選択手段43から出力された最大スコア翻訳結果又は翻訳手段41から出力された翻訳結果と、引用表現分離手段9から引用表現が出力された場合に対訳辞書データ蓄積手段17を参照して翻訳した翻訳結果とを出力する(ステップS19)。
【0120】
ここで、図6に示すフローチャートを参照して、翻訳装置31の単位毎翻訳手段39における処理について説明する(適宜、図4参照)。
まず、翻訳装置31は、第一言語翻訳単位分割手段37から、単位毎翻訳手段39に翻訳単位を入力する(ステップS21)。続いて、翻訳装置31は、単位毎翻訳手段39の用例データ取得手段39aによって、用例データベース4から、翻訳単位に含まれる述語が一致する又は類似する用例データを取得する(ステップS22)。
【0121】
そして、翻訳装置31は、単位毎翻訳手段39の用例データ選択手段39bによって、用例データ取得手段39aで取得された用例データと、入力された翻訳単位との距離について計算し、距離が小さい用例データを選択する(ステップS23)。また、翻訳装置31は、単位毎翻訳手段39の編集手段39cによって、選択された用例データについて、翻訳単位ごとの編集コスト及び用例データに対応付けられている英語の文を編集した翻訳候補を出力する(ステップS24)。
【0122】
そして、翻訳装置31は、単位毎翻訳手段39の翻訳候補出力手段39dによって、用例データ選択手段39bで計算された距離と編集手段39cで計算された編集コストとから、翻訳単位ごとのスコアを計算し、このスコア及び翻訳単位ごとの翻訳結果を出力する(ステップS25)。
【0123】
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、用例データベース作成装置1及び翻訳装置31として説明したが、これらの装置における各手段の処理を、実行可能にコンピュータ言語によって記述した、用例データベース作成プログラム及び翻訳プログラムとしても実現できる。
【図面の簡単な説明】
【0124】
【図1】本発明の実施形態に係る用例データベース作成装置のブロック図である。
【図2】図1に示した用例データベース作成装置の動作を示したフローチャートである。
【図3】本発明の実施形態に係る翻訳装置のブロック図である。
【図4】図3に示した翻訳装置の単位毎翻訳手段のブロック図である。
【図5】図3に示した翻訳装置の動作を示したフローチャートである。
【図6】図4に示した単位毎翻訳手段の動作を示したフローチャートである。
【図7】用例データベース作成装置において、対応付け例を示した図である。
【図8】翻訳装置において、翻訳処理例を示した図である。
【符号の説明】
【0125】
1 用例データベース作成装置
2 対訳データベース
3 翻訳データ判別手段
4 用例データベース
5 引用表現判別手段
7 引用表現パターン蓄積手段
9 引用表現分離手段
11 第二言語複数文判別手段
13 文区切りパターン蓄積手段
15 第一言語表現特定手段
17 対訳辞書データ蓄積手段
19 第一言語分割手段
19a、37a 主語・提題付加手段
21 分割第一言語対応第二言語追加手段
31 翻訳装置
33 第一言語節・並列句判別手段
35 節・並列句パターン蓄積手段
37 第一言語翻訳単位分割手段
39 単位毎翻訳手段
39a 用例データ取得手段
39b 用例データ選択手段
39c 編集手段
39d 翻訳候補出力手段
41 翻訳手段
43 最大スコア翻訳結果選択手段
45 翻訳結果出力手段

【特許請求の範囲】
【請求項1】
第一言語の文を第二言語の文に翻訳した翻訳データが収められている対訳データベースであり、前記第一言語の1つの文が前記第二言語の複数の文に翻訳されている場合において、当該第一言語の1つの文の部分と当該第二言語の1つの文とが対応するようにした一文対応翻訳データを、前記対訳データベースに追加して、用例データベースを作成する用例データベース作成装置であって、
前記第一言語の文中に引用を表す引用表現が含まれているか否かを、前記第一言語において頻出する引用表現をパターン化した引用表現パターンを用いて判別する引用表現判別手段と、
この引用表現判別手段で引用表現が含まれていると判別した場合に、当該引用表現を、当該第一言語の文から分離して破棄する引用表現分離手段と、
この引用表現分離手段で引用表現が分離された第一言語の文を本文とし、この本文が前記第二言語の複数の文に翻訳されているか否かを、前記第二言語の文法に従った文の区切りをパターン化した文区切りパターンを用いて判別する第二言語複数文判別手段と、
この第二言語複数文判別手段で前記引用表現が分離された本文が前記第二言語の複数の文に翻訳されていると判別された場合に、当該第二言語の複数の文に含まれる単語が、前記本文に含まれる単語のどの単語に該当するのかを、前記第一言語の単語と前記第二言語の単語とが対応付けられている対訳辞書データを用いて特定する第一言語表現特定手段と、
この第一言語表現特定手段で特定された第二言語の複数の文に含まれる単語と、前記本文に含まれる単語との対応関係に従って、前記本文の各部分と前記第二言語の1つの文とが対応するように分割する第一言語分割手段と、
前記第一言語分割手段で分割された前記本文の各部分と第二言語の1つの文とが対応している一文対応翻訳データを、前記対訳データベースに追加する分割第一言語対応第二言語追加手段と、
を備えることを特徴とする用例データベース作成装置。
【請求項2】
前記第一言語分割手段は、前記本文の各部分に、当該各部分の主語又は提題となる予め設定した単語を付加することを特徴とする請求項1に記載の用例データベース作成装置。
【請求項3】
入力された第一言語の文を、第二言語の文に翻訳する翻訳装置であって、
請求項1のデータベース作成装置で作成された用例データベースと、
前記第一言語の文の中に引用を表す引用表現が含まれているか否かを、前記第一言語において頻出する引用表現をパターン化した引用表現パターンを用いて判別する引用表現判別手段と、
この引用表現判別手段で引用表現が含まれていると判別した場合に、当該引用表現を、該当する第一言語の1つの文から分離する引用表現分離手段と、
この引用表現分離手段で引用表現を分離した第一言語の文が節又は並列句を含むか否かを、前記第一言語の文法に従った文の節及び並列句をパターン化した節・並列句パターンを用いて判別する第一言語節・並列句判別手段と、
この第一言語節・並列句判別手段で節又は並列句を含むと判別された第一言語の文を、前記第二言語に翻訳する単位となる翻訳単位に分割する第一言語翻訳単位分割手段と、
この第一言語翻訳単位分割手段で分割された翻訳単位と前記用例データベースに含まれるデータとが一致する度合いを示すスコアを、当該翻訳単位ごとに計算して翻訳する単位毎翻訳手段と、
この単位毎翻訳手段で前記翻訳単位を翻訳する際に計算した当該翻訳単位ごとのスコアについて合計した合計スコアが最大となる最大スコア翻訳結果を選択する最大スコア翻訳結果選択手段と、
前記第一言語節・並列句判別手段で節又は並列句を含まないと判別された第一言語の文を、前記用例データベースを用いて翻訳する翻訳手段と、
前記最大スコア翻訳結果選択手段で選択された最大スコア翻訳結果、又は、前記翻訳手段で翻訳された翻訳結果と、前記引用表現分離手段で引用表現が分離された場合に当該引用表現を、第一言語の単語と第二言語の単語とが対応付けられている対訳辞書データを用いて翻訳した翻訳結果とを出力する翻訳結果出力手段と、
を備えることを特徴とする翻訳装置。
【請求項4】
前記第一言語翻訳単位分割手段は、前記翻訳単位に、当該翻訳単位の主語又は提題となる予め設定した単語を付加することを特徴とする請求項3に記載の翻訳装置。
【請求項5】
前記単位毎翻訳手段は、
前記用例データベースから、前記翻訳単位に含まれる述語が一致又は予め設定した類似度を満たす第一言語の文を、用例データとして取得する用例データ取得手段と、
この用例データ取得手段で取得した用例データと前記翻訳単位との構文構造が近似する度合いを表した距離を計算し、この距離が最小のものから所定数の用例データを選択する用例データ選択手段と、
この用例データ選択手段で選択した用例データと前記翻訳単位との表現が同一になるように当該用例データを編集する際に、予め設定した編集の規則に従った編集コストを計算すると共に、当該用例データを編集した後の第二言語の文を翻訳候補とする編集手段と、
前記用例データ選択手段で計算した距離と、前記編集手段で計算した編集コストとから、前記翻訳単位ごとのスコア及び翻訳候補を出力する翻訳候補出力手段と、
を備えることを特徴とする請求項3又は4に記載の翻訳装置。
【請求項6】
第一言語の文を第二言語の文に翻訳した翻訳データが収められている対訳データベースであり、前記第一言語の1つの文が前記第二言語の複数の文に翻訳されている場合において、当該第一言語の1つの文の部分と当該第二言語の1つの文とが対応するようにした一文対応翻訳データを、前記対訳データベースに追加して、用例データベースを作成するために、コンピュータを、
前記第一言語の文中に引用を表す引用表現が含まれているか否かを、前記第一言語において頻出する引用表現をパターン化した引用表現パターンを用いて判別する引用表現判別手段、
この引用表現判別手段で引用表現が含まれていると判別した場合に、当該引用表現を、当該第一言語の文から分離して破棄する引用表現分離手段、
この引用表現分離手段で引用表現が分離された第一言語の文を本文とし、この本文が前記第二言語の複数の文に翻訳されているか否かを、前記第二言語の文法に従った文の区切りをパターン化した文区切りパターンを用いて判別する第二言語複数文判別手段、
この第二言語複数文判別手段で前記引用表現が分離された本文が前記第二言語の複数の文に翻訳されていると判別された場合に、当該第二言語の複数の文に含まれる単語が、前記本文に含まれる単語のどの単語に該当するのかを、前記第一言語の単語と前記第二言語の単語とが対応付けられている対訳辞書データを用いて特定する第一言語表現特定手段、
この第一言語表現特定手段で特定された第二言語の複数の文に含まれる単語と、前記本文に含まれる単語との対応関係に従って、前記本文の各部分と前記第二言語の1つの文とが対応するように分割する第一言語分割手段、
前記第一言語分割手段で分割された前記本文の各部分と第二言語の1つの文とが対応している一文対応翻訳データを、前記対訳データベースに追加する分割第一言語対応第二言語追加手段、
として機能させることを特徴とする用例データベース作成プログラム。
【請求項7】
入力された第一言語の文を、第二言語の文に翻訳するために、請求項1のデータベース作成装置で作成された用例データベースを備えたコンピュータを、
前記第一言語の文の中に引用を表す引用表現が含まれているか否かを、前記第一言語において頻出する引用表現をパターン化した引用表現パターンを用いて判別する引用表現判別手段、
この引用表現判別手段で引用表現が含まれていると判別した場合に、当該引用表現を、該当する第一言語の1つの文から分離する引用表現分離手段、
この引用表現分離手段で引用表現を分離した第一言語の文が節又は並列句を含むか否かを、前記第一言語の文法に従った文の節及び並列句をパターン化した節・並列句パターンを用いて判別する第一言語節・並列句判別手段、
この第一言語節・並列句判別手段で節又は並列句を含むと判別された第一言語の文を、前記第二言語に翻訳する単位となる翻訳単位に分割する第一言語翻訳単位分割手段と、
この第一言語翻訳単位分割手段で分割された翻訳単位と前記用例データベースに含まれるデータとが一致する度合いを示すスコアを、当該翻訳単位ごとに計算して翻訳する単位毎翻訳手段、
この単位毎翻訳手段で前記翻訳単位を翻訳する際に計算した当該翻訳単位ごとのスコアについて合計した合計スコアが最大となる最大スコア翻訳結果を選択する最大スコア翻訳結果選択手段、
前記第一言語節・並列句判別手段で節又は並列句を含まないと判別された第一言語の文を、前記用例データベースを用いて翻訳する翻訳手段、
前記最大スコア翻訳結果選択手段で選択された最大スコア翻訳結果、又は、前記翻訳手段で翻訳された翻訳結果と、前記引用表現分離手段で引用表現が分離された場合に当該引用表現を、第一言語の単語と第二言語の単語とが対応付けられている対訳辞書データを用いて翻訳した翻訳結果とを出力する翻訳結果出力手段、
として機能させることを特徴とする翻訳プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate