翻訳装置及び翻訳プログラム
【課題】 追加説明を含む入力文について、正しく翻訳できるようにすること。
【解決手段】 翻訳装置は、入力文から追加説明部分を抽出する抽出手段と、入力文から前記抽出手段で追加説明部分が抽出され前記追加説明部分が除かれた文に、当該追加説明部分の位置を示す管理情報を付加する付加手段と、前記追加説明部分が除かれた文を翻訳する第1の翻訳手段と、前記抽出手段で抽出された追加説明部分を翻訳する第2の翻訳手段と、前記管理情報に基づいて、前記第1及び第2の翻訳手段の翻訳結果を合成する合成手段と、を具備することを特徴とする。
【解決手段】 翻訳装置は、入力文から追加説明部分を抽出する抽出手段と、入力文から前記抽出手段で追加説明部分が抽出され前記追加説明部分が除かれた文に、当該追加説明部分の位置を示す管理情報を付加する付加手段と、前記追加説明部分が除かれた文を翻訳する第1の翻訳手段と、前記抽出手段で抽出された追加説明部分を翻訳する第2の翻訳手段と、前記管理情報に基づいて、前記第1及び第2の翻訳手段の翻訳結果を合成する合成手段と、を具備することを特徴とする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、翻訳装置及び翻訳プログラムに関する。
【背景技術】
【0002】
特許文献1には、原文中に一つの固まりであった単語列に、下線のような属性情報としての付加情報が付与された文に対して翻訳処理を行った結果、言語の構造の違いにより語順が変わり、複数に分離してしまう問題に対し、入力文からタグ情報を取り除いたテキスト文を翻訳した後、訳文にタグ情報を挿入し、このタグ情報の訳文への復元の際に、本来1つのものが分離されても、文字列と付加情報との関係情報からまとまりを認識することで対処することが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平9ー293073号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の目的とするところは、追加説明文などが文書に含まれていても、正しく翻訳することが可能な翻訳装置及び翻訳プログラムを提供することにある。
【課題を解決するための手段】
【0005】
本発明の請求項1に係る翻訳装置は、入力文から追加説明部分を抽出する抽出手段と、入力文から前記抽出手段で追加説明部分が抽出され前記追加説明部分が除かれた文に、当該追加説明部分の位置を示す管理情報を付加する付加手段と、前記追加説明部分が除かれた文を翻訳する第1の翻訳手段と、前記抽出手段で抽出された追加説明部分を翻訳する第2の翻訳手段と、前記管理情報に基づいて、前記第1及び第2の翻訳手段の翻訳結果を合成する合成手段と、を具備することを特徴とするものである。
【0006】
上記構成において、前記第1の翻訳手段が適切に翻訳できないときに、当該入力文を分割する分割手段と、前記分割手段で分割された各文を翻訳する第3の翻訳手段を具備することを特徴とするものである。
【0007】
上記構成において、前記第1の翻訳手段は、第1言語の例文パターンとその対訳である第2言語の対訳例文パターンを例文パターン対訳組として記憶する例文パターン辞書を有し、前記例文パターン辞書を参照し、翻訳対象の文と前記例文パターンとをマッチングさせて翻訳する例文パターン翻訳装置であり、前記第2の翻訳手段は、第1の言語の単語とその対訳である第2の言語の単語を単語組として記憶する単語対訳辞書、第1言語の例文とその対訳である第2言語の対訳例文を例文対訳組として記憶する例文辞書、第1言語の句パターンとその対訳である第2言語の対訳句パターンを句パターン対訳組として記憶する句パターン対訳辞書及び前記例文パターン辞書の少なくとも1つを参照して翻訳を行う句翻訳装置であることを特徴とするものである。
【0008】
本発明の請求項4に係る翻訳プログラムは、コンピュータを、入力文から前処理として追加説明部分を抽出する抽出手段と、入力文から前記抽出手段で追加説明部分が抽出され追加説明部分が除かれた文を翻訳する第1の翻訳手段と、前記抽出手段で抽出された追加説明部分を翻訳する第2の翻訳手段と、前記第1及び第2の翻訳手段の翻訳結果を合成する合成手段として機能させることを特徴とするものである。
【発明の効果】
【0009】
請求項1の構成によれば、追加説明などを含んだ入力文書についても、本構成を有しない場合に比較して、正しく翻訳できる。
【0010】
請求項2の構成によれば、1つの文に複数の文を含んだ入力文書についても、本構成を有しない場合に比較して、正しく翻訳できる。
【0011】
請求項3の構成によれば、比較的簡単な辞書で、追加説明などを含んだ入力文書についても、本構成を有しない場合に比較して、正しく翻訳できる。
【0012】
請求項4の構成によれば、追加説明などを含んだ入力文書についても、本構成を有しない場合に比較して、正しく翻訳できる。
【図面の簡単な説明】
【0013】
【図1】本実施例の翻訳装置の機能的な構成例を示すブロック図である。
【図2】翻訳装置の処理手順を示すフローチャートである。
【図3】前処理部の処理手順前段を示すフローチャートである。
【図4】前処理部の処理手順後段を示すフローチャートである。
【図5】分割部の処理手順を示すフローチャートである。
【図6】(a)訳文合成部、(b)訳文生成部の処理手順を示すフローチャートである。
【図7】例文対訳辞書のデータ構造を示す説明図である。
【図8】例文パターンのデータ構造を示す説明図である。
【図9】例文パターン対訳辞書のデータ構造を示す説明図である。
【図10】例文パターン翻訳部に利用可能な翻訳装置の全体構成を示すブロック図である。
【図11】翻訳装置1001の主要部の詳細構成を示すブロック図である。
【図12】翻訳装置の主要部処理手順前段を示すフローチャートである。
【図13】翻訳装置の主要部処理手順後段を示すフローチャートである。
【図14】句翻訳部の詳細構成を示すブロック図である。
【図15】句翻訳部の処理手順を示すフローチャートである。
【図16】翻訳装置の一ハードウエア構成を示すブロック図である。
【図17】課題を入力文例で示す説明図である。
【図18】例1、例2の入力文例の場合における処理例を示す説明図である。
【図19】例3、例4の入力文例の場合における処理例を示す説明図である。
【発明を実施するための形態】
【0014】
まず、本発明を実施するための最良の形態を、具体な入力文例を挙げて説明する。
【0015】
まず、文の最後に追加説明(例1)や途中に追加説明(例2)のパターンがある場合である。
例1:“ 3が4の右側にあることを確認する(全部品対象) ”
例2:“ 3と5のハーネス(図Aに示す)はロックしないこと ”
ここで、例文パターンベース翻訳エンジンを用いて、文(センテンス)を翻訳するとする。例1の場合最適な例文パターンが、
“NP1 が NP2 に ある こと を 確認する”
であるが、例文1の入力文と完全にマッチングできない。つまり、“(全部品対象)”がマッチングできない。もし、マッチングの距離値がパターンベース翻訳エンジンのマッチング閾値を越えると、上記例文パターンは、翻訳用候補として抽出されない。
例2の場合に例文パターンとして、たとえば、
(1)“NP1 に 示す NP2 は ロックしない こと”
(2)“NP1 と NP2 は ロックしない こと”
の二つを挙げられる。しかし、例文パターン(1)は、例文2の入力文と完全にマッチングできない。もちろん、最適な例文パターン(2)にも完全にマッチング可能である。しかし、最適な例文パターン(2)のマッチング項目数(6個)が、例文パターン(1)のマッチング項目数(7個)より1個少ないので、最適な例文パターン(2)は選ばれない。
文の最後に追加説明がある別の場合として、次の例3の入力文がある。
例3:
この場合について図17を参照して説明する。
中国文;図17に示す、
日本語訳文;1に異物がある《2008-1-29 19:54:59》
ここで、《2008-1-29 19:54:59》はトラブル発見したときの時刻を示す。
この例3の場合に、例文パターンとして、
中国語パターン;NP1 内 有 NP2,
日本語パターン; NP1 に NP2 が ある
が挙げられ、翻訳結果は、
1に異物《2008-1-29 19:54:59》がある
となってしまい、正確に翻訳できない。
【0016】
次に、議事録などで、1つの文にコンマや読点などで区切られて複数の文(センテンス)を含む入力文例を説明する。
【0017】
この場合の入力文の具体例として、例4を挙げる。
例4:“材料メーカに追加確認すること,出荷の時に保護部材を強化して衝突損害を防止する”
このように、実際の文書には、センテンス単位が正しく表記されていない場合があり、翻訳が難しくなる。
【0018】
なお、本書において「句」の語は、二つ以上の単語からなる句、句を内在する句を含むものとする。言語学上、文が節、句を含み、節が句を含む、句が句を含まない。本明細書には、句の定義が言語学上の定義ではない、二つ以上の単語からなる単語列、かつ、句が句を含んでもよいと定義する。
【0019】
以下、本発明を実施するための最良の形態を、図に示す実施例を参照して説明する。
【実施例】
【0020】
図1は本発明の実施例に係る翻訳装置の機能的な構成を示すブロック図である。本実施例の翻訳装置100は、異なる方式による複数の翻訳エンジンとしての翻訳部を直列に複数段設けたものである。翻訳装置100は、入力部1、翻訳メモリ翻訳部2、前処理部3、例文パターン翻訳部4、分割部5、句翻訳部6、訳文合成部7、訳文生成部8、出力部9及び記憶部10を含んで構成される。
【0021】
入力部1は、翻訳対象の文を入力する。翻訳メモリ翻訳部2は、入力された文Sと記憶部10に記憶された例文対訳辞書とを照合して一致または類似する例文の訳文を出力する。翻訳が成功した場合には、出力部9へ送り、失敗した場合には、入力文を次段に送る。なお、翻訳メモリ翻訳装置の詳細としては、例えば、特開2008−65395に開示されたものがある。
【0022】
前処理部3は、翻訳メモリ翻訳部2で翻訳が失敗した場合に入力された文Sの前処理を行い、追加説明部分(T(n)、接尾辞Pfix)と、追加説明部分の位置などを示す管理情報としてダミー変数Tiを付加した文S1とに振り分け、前者を句翻訳部6へ、後者を例文パターン翻訳部4へ送る。詳細は後述する。
【0023】
例文パターン翻訳部4は、前処理部3から入力された文Sと、記憶部10に記憶された例文パターン対訳辞書とを照合して翻訳結果の入力文S1の訳文を出力する。詳細構成は後述する。
【0024】
分割部5は、例文パターン翻訳部4で翻訳が失敗したとき、入力文を分割し、分割文をバッファメモリ(図示せず)に一時的に記憶する。
【0025】
句翻訳部6は、入力句や文を記憶部10内の辞書を参照して翻訳する翻訳エンジンであり、前処理部3からの追加説明部分(T(n)、接尾辞Pfix)を翻訳する翻訳部A6aと、分割部5で分割された分割文S1mを翻訳する翻訳部A6bとを備え、翻訳結果をバッファメモリ(図示せず)に一時的に記憶する。
【0026】
訳文合成部7は、翻訳部A6aからの追加説明部分(T(n)、Pfix)の訳と、例文パターン翻訳部4からの文S1の訳文とを合成して入力文Sの訳文を作成する。訳文生成部8は、追加説明部分(T(n)、接尾辞Pfix)の訳を用いて分割文S1mを切り替え、入力文Sの訳文を作成する。
【0027】
出力部9は、翻訳メモリ翻訳部2、訳文合成部7および訳文生成部8からの文Sの訳文を出力する。例えば、表示部への入力文Sの訳文の可視表示または可聴表示や、画像形成装置や外部装置などへの出力を行う。
【0028】
記憶部10は、翻訳辞書として、単語対訳辞書、例文対訳辞書、句対訳辞書、例文パターン対訳辞書、句パターン対訳辞書などを備える。単語対訳辞書は、第1の言語の単語とその対訳である第2の言語の単語を単語組として記憶する。句対訳辞書は、第1言語の句とその対訳である第2言語の対訳句を句対訳組として記憶する。例文辞書は、第1言語の例文とその対訳である第2言語の対訳例文を例文対訳組として記憶する。句パターン対訳辞書は、第1言語の句パターンとその対訳である第2言語の対訳句パターンを句パターン対訳組として記憶する。例文パターン辞書は、第1言語の例文パターンとその対訳である第2言語の対訳例文パターンを例文パターン対訳組として記憶する。
【0029】
図2のフローチャートを参照して本実施例の翻訳装置100の動作を説明する。
【0030】
まず、入力部1から入力された文Sが翻訳メモリ翻訳部2で記憶部10の例文対訳辞書と照合して翻訳される(S1、S2)。ここで、翻訳が成功すれば、その翻訳結果は、出力部9に送られて出力される(S10)。この場合、翻訳の信頼性は例えば1.0である。翻訳に失敗すれば、入力文Sは、前処理部3に送られる。前処理部3では、入力文S対して所定のパターンを抽出するなどの前処理を行う。詳細は後述する。前処理後の文S1、追加説明などの切り替え項目T(1),T(2),…T(n)、接尾辞Pfix及び句読点Kを生成する(S3)。生成された文S1は、例文パターン翻訳部4に送られ、追加説明部分の切り替え項目T(1),T(2),…T(n),Pfix及び句読点Kは、句翻訳部6の句翻訳エンジンとしての翻訳部A6aへ送られる。翻訳部A6aでは、記憶部10の例文パターン対訳辞書や句例文パターン対訳辞書などを参照して切り替え項目T(1),T(2),…T(n)、接尾辞Pfixをそれぞれ翻訳する(S4)。
【0031】
例文パターン翻訳部4では、例文パターンベース翻訳エンジンを用いて例文パターン対訳辞書を照合し文S1を翻訳する(S5)。ここで、翻訳に成功すれば、訳文合成部7で、T(1),T(2),…T(n)の訳文を用いて、文S1の訳文の中にあるT1,T2,…Tn変数をそれぞれ切り替え、接尾辞Pfixの訳文と句読点Kを文Sの最後に追加し,文Sの訳文を生成する(S6)。
【0032】
例文パターン翻訳部4で翻訳に失敗すれば、分割部5で、文S1を分割して、分割文S11,S12,…S1mを生成する(S7)。その後、句翻訳部6の句翻訳エンジンとしての翻訳部B6bを用いて分割文S11,S12,…S1mをそれぞれ翻訳する(S8)。その後、訳文生成部8で、追加説明T(1),T(2),…T(n)の訳文を用いて、 S11,S12,…S1mの訳文の中にあるT1,T2,…Tn変数をそれぞれ切り替え、接尾辞Pfixの訳文と句読点KをS1mの最後に追加し、文Sの訳文を生成する(S9)。
【0033】
ステップS2、S6、S9で、文Sの訳文が生成されると、訳文は出力部9に送られて出力される(S10)。
【0034】
次に図3、図4のフローチャートを参照して前処理部3の詳細処理を説明する。
【0035】
前処理部3で、文Sに、もし、特定パターンの範囲を示す括弧などの、ある引用記号ペアの内に他の引用記号を含んだ場合は、一番外側の引用記号ペアを抽出する。通常は、左から右へ入力文Sを走査して判定を行うものとし、入力文に半角記号と全角記号が混在する場合、半角記号と全角記号を事前に統一して行うものとする。
【0036】
まず、入力文Sが前段の翻訳メモリ翻訳部2から前処理部3に入力されると、前処理部3は、i=1とする(S11)。入力された文Sの中に、もし、追加説明などを示す特定のパターン”xxx”(引用パターンとも呼ぶ)があれば、T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号、”Ti”とし、これらでSの引用パターン”xxx”を切り替える(S12a)。次に、文Sの中に、同様の特定のパターン[xxx]があれば、iを更新し(i++;iに1を増やす、以下同じ意味を表す)、T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、Sの特定のパターン[xxx]を切り替える(S12b)。
【0037】
以下同様に、文Sの中に、特定のパターン(xxx)があれば,i++;T(i)=xxx, T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン(xxx)を切り替える(S12c)。文Sの中に、特定のパターン(xxx)があれば、i++;T(i)=xxx, T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン(xxx)を切り替える(S12c)。文Sの中に、特定のパターン《xxx》があれば、i++;T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン《xxx》を切り替える(S12d)。文Sの中に、特定のパターン〈xxx〉があれば、i++;T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン〈xxx〉を切り替える(S12e)。文Sの中に、特定のパターン<xxx>があれば、i++;T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン<xxx>を切り替える(S12f)。文Sの中に、特定のパターン『xxx』があれば、 i++; T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン『xxx』を切り替える(S12g)。文Sの中に、特定のパターン「xxx」があれば、 i++; T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン「xxx」を切り替える(S12h)。
【0038】
もし、文の右から連続な特定のパターン(xxx), 《yyy》…があれば、
Pfix= (xxx), 《yyy》…
とし、文Sから接尾辞Pfixを削除する。また、文の最後に句読点があれば、その句読点も変数Kに保存し、文Sから句読点を削除する(S13)。
【0039】
次に、連続記号列S(スペース記号を含む)を抽出し、
Ei=yyy xxx 12%+2=6
とする(S14)。
【0040】
特定のパターンがT1,T2,…,TnやE1,E2,…Emで切り替えられ、接尾辞Postfixや句読点が削除された文S1をこれらの切り替えられたダミー変数などの管理情報と共に次段の例文パターン翻訳部4に出力すると共に、特定のパターンや接尾辞を次段の句翻訳部6に出力する(S15)。
【0041】
次に図5のフローチャートを参照して分割部5の詳細手順について説明する。
【0042】
まず、文S1が入力され、入力された文S1を半角の記号, ; : 、スペース記号及び全角の記号, ; : 、スペース記号を用いて分割する(S21、S22)。分割された文をS11,S12,…S1mとしてバッファメモリ(図示せず)にそれぞれ格納し、対応する翻訳エンジンとしての句翻訳部6の翻訳部B6bに分割文S11,S12,…S1mの格納終了を通知する(S23)。
【0043】
次に図6(a)のフローチャートを参照して訳文合成部7の詳細手順について説明する。
【0044】
まず、前段の句翻訳部6の翻訳A6aが翻訳した追加説明などのT(1),T(2),…T(n)の訳文や接尾辞Pfixの訳文をバッファメモリ(図示せず)から取得すると共に、同様に、前段の例文パターン翻訳部4から文S1の訳文を取得する(S31)。次に、取得した追加説明などのT(1),T(2),…T(n)の訳文を用いて、文S1の訳文の中にあるT1,T2,…Tn変数をそれぞれ切り替え、接尾辞Pfixの訳文と句読点Kを文Sの最後に追加し、文Sの訳文を合成し、合成結果を出力部9に転送する(S32、S33)。
【0045】
次に図6(b)のフローチャートを参照して訳文生成部8の詳細手順について説明する。
【0046】
まず、句翻訳部6の翻訳A6aが翻訳した追加説明などのT(1),T(2),…T(n)の訳文や接尾辞Pfixの訳文をバッファメモリ(図示せず)から取得すると共に、翻訳B6bが翻訳したS11,S12,…S1mの訳文を取得する(S35)。次にT(1),T(2),…T(n)の訳文を用いて、 S11,S12,…S1mの訳文の中にあるT1,T2,…Tn変数をそれぞれ切り替え、接尾辞Pfixの訳文と句読点Kを分割文S1mの最後に追加し、文Sの訳文を生成し、生成結果の訳文Sを出力部9に転送する(S36、S37)。
【0047】
次に例文パターン翻訳部4および句翻訳部6の詳細について述べる。
【0048】
まず、各翻訳部の詳細を説明する前に、記憶部10の例文対訳辞書及び例文パターン対訳辞書のデータ構造の一例について述べる。
【0049】
図7に例文対訳辞書のデータ構造例を示す。複数のレコードから成り、各レコードは、第1言語の例文T1と、この例文T1の訳文となる第2言語の例文T2とを含む。
【0050】
次に例文パターン対訳辞書のデータ構造について説明する。図8に例文パターンのデータ構造例を示す。同図において、例文パターンPEは、例文SE1からSE4を類別するパターンである。
【0051】
例文パターンPEは、類別される例文に共通な単語、又は節で構成される固定部分PFと、固定部分PFではない単語又は節であるが、類別される例文間で品詞が共通する単語又は節で構成される可変部分PVとで構成される。可変部分PVは、それらの品詞が共通する単語又は節を、例えば、V1及びV2といった記号を用いて表す。
【0052】
よって、例文パターンPEは類別される例文に共通な文字列で構成され、可変部分PVは類別される例文に共通しない文字列を表す記号(以下単に、非共通文字列という)で構成される。つまり、非共通文字列は、例文パターンを構成する共通文字列以外の文字列をいう。
【0053】
ここで、節とは、文法上、従位接続詞や関係詞が導く文であって、主語と述語とが一組になり完結した文をいう。しかし本実施例では、動詞、形容詞、及び形容動詞である単語とそれらに付随して使用される助詞、助動詞、及び補助動詞である単語とを合わせて節といい、それぞれ動詞節、形容詞節、及び形容動詞節という。また、節の品詞とは、動詞節、形容詞節、及び形容動詞節のいずれかへ節を分類した区分けをいう。
【0054】
具体的には、図8に示すように、「渡してください」という節SC1から4及びPCは、「渡す」という動詞である単語、「て」という接助詞である単語、及び「くださる」という補助動詞である単語で構成される。
【0055】
また、動詞である単語「渡す」とそれに付随して使用される単語「て」及び「くださる」とで構成される節SC1から4及びPCの品詞を動詞節という。
【0056】
固定部分PFは、例文に共通な単語又は節のみならず、その同義語を表すFIX内容情報、可変部分であるか固定部分であるかを表すTYPE情報、並びに固定部分を構成する単語の品詞を表す品詞情報、固定部分を構成する単語が属している語彙体系を表す情報である言語体系属性名等で構成される。
【0057】
可変部分PVは、共通する品詞を表す情報である変数名情報、及び可変部分であるか固定部分であるかを表すTYPE情報、可変部分の語彙体系属性名等で構成される。語彙体系の言語としては、日本語語彙体系(J)、中国語語彙体系(C)などのように、挙げられる。
【0058】
本記実施例において、変数名情報は、共通する品詞が名詞であることを表す名詞フレーズ(例えば、名詞句の変数名;NP、変数名ID;1)、形容詞であることを表す形容詞フレーズ(例えば、形容詞句の変数名;AP、変数名ID;2)、及び副詞であることを表す副詞フレーズ(例えば、副詞句の変数名;DP、変数名ID;3)を含む。
【0059】
また、本実施例において、可変部分PVは、類別される例文間で品詞が共通する単語又は節で構成されるとして説明したが、これに限定される訳ではなく、共通する性質の内容を表す単語又は節で構成される実施例を採用できる。共通する性質の内容を表す単語又は節の具体例としては、例えば、時間、数量、地名、又は人名を表す単語又は節を挙げることができる。
【0060】
次に例文パターン対訳辞書のデータ構造例について図9を参照して説明する。同図に示すように、例文パターン対訳辞書63は、レコード1からnで構成される。レコード1からnは、第1言語で表された例文パターンT1と、例文パターンT1を第2言語に翻訳した訳文パターンとしての例文パターンT2と、例文パターンT1及び例文パターンT2のペア(組)を識別するIDと、例文パターンT1及びT2を構成する単語等である文字列の対応関係を表す対応関係情報F2とを関連付けて保存する。
【0061】
レコード1からnが保存する対応関係情報F2について説明する。ここでは、例文パターンT1が単語等である5つの文字列 a1 から a5 で構成され、かつ例文パターンT2が単語等である6つの文字列 b1 から b6 で構成されている場合を例に挙げて説明を行う。
【0062】
対応関係情報F2は、文字列が例文パターンT1及び対訳としての例文パターンT2において使用される順番を用いて文字列の対応関係を表す。
【0063】
具体的には、例文パターンT1で n 番目に使用される文字列 an が表す意味と、例文パターンT2で m 番目に使用される文字列 bm が表す意味とが同じである場合には、対応関係を「(n:m)」として表す。
【0064】
また、例文パターンT1で n 番目に使用される文字列 an が表す意味と、例文パターンT2で m 番目及び m+1 番目に使用される2つの文字列が表す意味とが同じ意味を表す場合には、「(n:m,m+1)」として表す。
【0065】
逆に、例文パターンT1で n 番目及び n+1 番目に使用される2つの文字列 an 及び an+1が表す意味と、対訳例文パターンT2で m 番目に使用される文字列 bm が表す意味とが同じ意味を表す場合には、「(n,n+1:m)」として表す。
【0066】
同様に、例文パターンT1で n 番目及び n+1 番目に使用される2つの文字列 an 及び an+1が表す意味と、例文パターンT2で m 番目及び m+1 番目に使用される2つの文字列が表す意味とが同じ意味を表す場合には、「(n,n+1:m,m+1)」として表す。
【0067】
本実施例では、例文パターンT1で使用される1つの文字列と例文パターンT2で使用される1つの文字列とが同じ意味を表す場合、1つの文字列と2つの文字列とが同じ意味を表す場合、2つの文字列と1つの文字列とが同じ意味を表す場合、2つの文字列と2つの文字列とが同じ意味を表す場合の対応関係を表す表記方法について説明したが、これに限定される訳ではない。
【0068】
例えば、j個(j>=1)の文字列とk個(k>=1)の文字列とが同じ意味を表す場合には、一般的に、「(n,n+1,…,n+j:m,m+1,…,m+k)」として表す構成を採用できる。
【0069】
更に、例文パターンT1で n 番目に使用される文字列 an が表す意味と同じ意味を表す文字列が例文パターンT2で使用されない場合には、「(n:0)」として表す。また逆に、例文パターンT2で m 番目に使用される文字列 bm が表す意味と同じ意味を表す文字列が例文パターンT1で使用されない場合には、「(0:m)」として表す。
【0070】
図10に示す具体な対応関係情報
F2(T1,T2) = { (1:1),(2:3),(3:4,5),(5:6),(4:0),(0:2) }
について説明する。対応関係情報 F2(T1,T2) は、例文パターンT1で1番目に使用される文字列 a1 の表す意味が例文パターンT2で1番目に使用される文字列 b1 の意味と同じであり、これらは対応する。同様に、例文パターンT1で2番目に使用される文字列 a2 の表す意味が例文パターンT2で3番目に使用される文字列 b3 の意味と同じであり、例文パターンT1で3番目に使用される文字列 a3 の表す意味が例文パターンT2で4番目及び5番目に使用される文字列 b4 及び b5 の意味と同じであり、例文パターンT1で5番目に使用される文字列 a5 の表す意味が例文パターンT2で6番目に使用される文字列 b6 の意味と同じであり、それぞれ対応する。さらに例文パターンT1で4番目に使用されるa4 と同じ意味を表す文字列が例文パターンT2で使用されず、かつ例文パターンT2で2番目に使用される文字列 b2 と同じ意味を表す文字列が例文パターンT1で使用されないという対応関係を表す。対応関係さえ表現できれば、どのような表現でもよく、本発明に係る翻訳装置等は、以上述べた表現に限定されない。
【0071】
図10の翻訳システム10aの構成に含む翻訳装置1001は、例文と例文パターンのマッチグ処理を行っている例文パターン翻訳装置(部)に適用できる。図10乃至図13を参照して翻訳装置1001を説明する。図11は翻訳装置1001の主要部の構成を示す詳細ブロック図である。
【0072】
まず、解析部1200は、入力装置3000から入力された第1言語の文書情報を形態素解析し、入力文を構成する単語を切り分け,単語の品詞を付与するなどの処理をする。
【0073】
検索部1300は、解析部1200の解析結果および記憶部1100の記憶内容を参照して、入力文と類似な第1言語の例文パターン候補(1または複数ある)を抽出する。
【0074】
変換部1401は、第1言語の入力文と抽出された第1言語の例文パターンの候補を用いて,入力文の節を求める。第1言語入力文を第1言語例文パターンとの間の相違を求めるために,第1言語例文パターンに基づいて第1言語入力文を変換する。第1の実施例の変換部1400との相違点は、後述する。
【0075】
算出部1500は変換部1401で変換された第1言語入力文の単語/節の列と第1言語例文パターンの候補間の相違として距離を求める。最小な相違を決める第1言語入力文の単語/節の列と、抽出された第1言語の例文パターン候補間の変換写像を求める。ここで,最小な相違値としての距離値を与える例文パターン候補が複数ある場合があるし、最小な相違値を決める例文パターン候補と入力文の単語/節の列間の変換写像が複数ある場合もある。
【0076】
抽出部1600は、第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を求める。第1言語入力文の単語/節の列と抽出された第1言語の例文パターン候補間の対応関係(写像)を求める。抽出部1600は、内部構成として、実抽出部1610(図示せず)、関係特定部1620(図示せず)および関係選択部1630を含む。実抽出部1610は、検索部1300が検索した例文パターンから1つのパターンを抽出し、算出部1500が計算した第2の指標である入力文と例文パターンとの距離が、最も近い例文パターンを抽出する。関係特定部1620は、入力文S’を構成する変換後の文字列と入力文Sを類別する例文パターンAを構成する文字列との対応関係を特定する。最終段の関係選択部1630は第1言語入力文の単語/節の列と抽出された第1言語の例文パターン候補間の対応関係が複数ある場合は,適切な対応関係を選択する。即ち、関係特定部1620から、対応関係集合を取得すると共に、変換された入力文、例文パターン、対訳例文パターン、及び対応関係情報を取得する。取得した対応関係情報から、割り当てたスコアが最大の値をとる対応関係情報を選択する。
【0077】
判定修正部1800は、判定部1810、修正部1820および最適関係選択部1830を含んで構成される。判定修正部1800は、関係選択部1630の選択結果および記憶部1100の記憶内容を参照して、選択結果を判定し、修正が必要な場合は、修正して算出部1500に戻すことにより、再度対応関係を得るものである。
【0078】
判定部1810は、関係選択部1630の選択結果について、第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を再計算するかどうかを判定する。
【0079】
修正部1820は、第1言語入力文の単語/節の列を修正して,修正後の第1言語入力文の単語/節の列と第1言語例文パターン間の相違をもう一度計算し,新しい距離値を定めるために第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を求める。
【0080】
最適関係選択部1830は、すべての例文パターンの候補と第1言語入力文の単語/節の列間の対応関係集合から,最適な対訳関係選択する。この選択により求められた例文パターン対訳ベアの番号と第1言語入力文の単語/節の列と抽出された第1言語の例文パターン間の対応関係を出力する。
【0081】
記憶部1100は、第1の実施例と同様なデータ構成を有し、記憶内容としては、例文対訳辞書および例文パターン対訳辞書を含む。例文パターン対訳辞書は、例えば、例文パターン、訳文パターン、および例文パターンと訳文パターン間の対応関係を一組として記憶している.これを例文パターン対訳ペアと呼ぶ。
【0082】
翻訳部1700は、最適関係選択部1830で選択された第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係、第1言語例文パターンとそのパターンに対応している訳語言語の例文パターン間の対応関係を用いて、第1言語入力文の単語/節の列と訳語言語の例文パターン間の対応関係を求め、可変部分を翻訳して、訳文を生成する。
【0083】
次に図12および図13のフローチャートを参照して、翻訳装置1001の要部の動作を説明する。
【0084】
形態素解析済みの入力文Sが検索部1300に入力されと、検索部1300は、入力文sに対応する例文パターン候補Aset、即ち、Dmin, F1set(S),F1set(S’), F1set(S’,A)などを初期化する(S301、S302)。更に例文パターン候補Asetから例文パターン候補Aが取り出され、変換部1401により、パターンAに対応する入力文SをS’とする(S303、S304)。この入力文S’とAの間の距離D1を算出部1500により求める。求めた距離D1がDmin最小値より小さいかどうか判断する(S306)。小さい場合には、F1set(S’,A)およびF1set(S’)をヌル値(NULL)即ち空値とし、D1をDminとした後、抽出部1600で文S’と例文パターンAの間の対応関係(写像)を求める(S307、S309)。
【0085】
更に、求めた距離値Dimを定める写像をF1set(S’,A)に格納する。選択部1630で、F1set(S’,A)にある不適切な写像を削除する(S310)。得られたF1set(S’,A)をF1set(S’)に入れる。
即ち、F1set(S’)= F1set(S’)+F1set(S’,A)
【0086】
その後、または、ステップS306で大きいと判断した場合には、Asetの候補をすべて処理したかどうかを判断し、未処理があれば、候補Aを取り出し上記処理を行い、すべて処理済みであれば、次のステップに進む。
【0087】
次に、判定部1810で、F1set(S’)の中から一つの写像F1i(S’,A)を取り出し、F1i(S’,A)に対して,再計算する必要があるかどうかを判定する(S311、S312)。再計算する必要がある場合には、修正部1820で、F1i(S’,A)と候補Aを参考して、文S’を修正し、これを修正後の文S’’とする(S313)。
即ち、F1set(S’,A)=F1set(S’,A)-F1i(S’,A)
【0088】
修正後の文S’’と候補Aの間の相違を算出部1500で求める(S314)。求めた相違としての距離値をD2とする。距離値D2が最小値Dminより小さいかどうかを判断する(S315)。小さい場合には、文S’’と候補Aの間の対応関係(写像)F1set(S’’,A)を求める(S316)。その後、Dmin=D2であれば、F1set(S)=F1set(S)+F1set(S’’,A)とし、Dmin>D2であれば、F1set(S)=F1set(S’,A)およびDmin=D2とする(S317)。
【0089】
ステップS317の処理の終了後、ステップS315で、大きいと判断した場合、およびステップS312で再計算の必要がないと判断した場合には、F1set(S’)の写像をすべて処理したかどうかを判断する(S318)。未処理があれば、ステップS312に戻り処理を行う。処理済であれば、F1set(S)がNULLであれば、F1set(S)= F1set(S’,A)とした後、最適関係選択部1830で、F1set(S)から最適な写像(対応関係)を求め、求めた写像をF1res(S,A)に入れる(S319、S320)。
【0090】
次に句翻訳部6を、異なる方式による翻訳エンジンとしての複数段の翻訳部103〜108を直列に接続した場合の詳細について説明する。図14は、そのような句翻訳部6の構成例を示すブロック図である。このような異なる翻訳方式に基づく複数段の翻訳部103〜108、およびそれらで用いられる複数の対訳辞書を記憶部110に備えており、これは入力部101に入力される第1言語の句、または文が、より簡単な翻訳からより複雑な翻訳へ移行するように構成されており、これによって翻訳の高速化および高精度化を図っている。
【0091】
句翻訳部6は、図14に示すように、入力部101、翻訳判定部102、例文マッチング翻訳部103、単語アライメント例文ベース翻訳部104、辞書ベース翻訳部105、例文パターン翻訳部106、例文集合ベース翻訳部107、単語直訳/ルールベース翻訳部108、出力部109および記憶部110を含んで構成される。
【0092】
翻訳判定部102は、入力部101より入力された句または文(以下単に句という)について、翻訳が必要かどうか判定する。ここで、第1言語が、日本語、中国語、韓国語などの場合には、非漢字、非カタカナ、非平かな、非韓国語文字の文字列なら、翻訳する必要がない。第1言語が欧米言語の場合には、数字および各種の記号からなる文字列なら、翻訳する必要がない。
【0093】
例文マッチング翻訳部103は、翻訳判定部102で入力句の翻訳が必要と判定された場合に入力句の翻訳を行う。すなわち、第1言語と言語2間の例文を対応させた記憶部110内の例文対訳辞書を用いて、入力された句Pと完全マッチングした例文があれば、その例文の訳文をPの第2言語の訳文として出力する.完全にマッチングした例文が存在しない場合は,入力された句Pを含む例文があれば、その対訳例文ペアと対応している対訳パターンペアを記憶部110内の例文パターン対訳辞書から取り出し、取り出した対訳パターンペアを用いて、句Pを翻訳する。
【0094】
例文マッチング翻訳部103において、入力された句に対する訳語が得られなかった場合、その入力された句は単語アライメントベース翻訳部104の処理の対象になる。
【0095】
単語アライメント例文ベース翻訳部104は、入力句に対する訳文候補を記憶部110内の単語アライメント対訳辞書を参照して得る。なお、ここでは、説明を簡単にするため入力句は予め形態素解析されたものとする。単語アライメント対訳辞書は、第1言語による例文とその第2言語による対訳文の組を格納したものであり、これらには単語アライメント情報、すなわち第1言語の例文における各単語と第2言語の対訳文における各単語の対応付け情報が付加されている。
【0096】
単語アライメント例文ベース翻訳部104において、入力された句に対する訳語が得られなかった場合、その入力された句は辞書ベース翻訳部105の処理の対象になる。
【0097】
辞書ベース翻訳部105は、入力された句に対して、記憶部110内の単語/句対訳辞書を検索し、一致する句が辞書内にある場合にその対訳句を出力するものである。単語/句対訳辞書内には、第1言語による単語あるいは句をキーとし、第2言語によるその対訳語あるいは句を値とする辞書セットと、第2言語による単語あるいは句をキーとし、第1言語によるその対訳語あるいは句を値とする辞書セットが収められている。辞書ベース翻訳部103は、基本的には2段階の処理を行い、最初に第1言語による単語/句をキーとして検索を行ってその対訳句の抽出を行い、それが成功しなかった場合に、今度は第2言語による単語/句をキーとして検索を行ってその対訳句の抽出を行う。
【0098】
辞書ベース翻訳部105において、入力された句に対する訳語が得られなかった場合、その入力された句は例文パターン翻訳部106の処理の対象になる。
【0099】
例文パターン翻訳部106は、記憶部101内の例文パターン対訳辞書を参照して翻訳候補を得る例文パターンベース翻訳エンジンを使用した翻訳部で、先の例文マッチング翻訳部103でも行っているが、例文マッチング翻訳部103とは、例文パターンや写像の選択基準、単語や節区切りを変えて行っても良いし、例文マッチング翻訳部103では、例文対訳辞書のみを使用した翻訳を行い、例文パターン対訳辞書によるマッチングは例文パターン翻訳部106だけで行っても良い。この際、例文パターン対訳辞書によるマッチングは既に述べた翻訳装置1001が適用できる。
【0100】
例文パターン翻訳部106において、入力された句に対する訳語が得られなかった場合、その入力された句は例文集合ベース翻訳部107の処理の対象になる。
【0101】
例文集合ベース翻訳部107は、入力された句に対する訳文候補を記憶部110内の例文対訳辞書を参照して得る。例文対訳辞書には、第1言語による例文とその第2言語による対訳文の組が多数格納される。本翻訳部における翻訳精度を向上させるためには、できるだけ多くの例文対訳組を例文対訳辞書に登録しておくことが好ましい。例文集合ベース翻訳部107は、詳細構成として、例文対訳辞書から入力された句を含む複数の例文対訳組を選択するための例文対訳ペア選択部(図示せず)と、各例文対訳組相互間の共通部分の組を抽出する句ペア抽出部(図示せず)と、抽出された複数の共通部分の組での、入力された句に対する支持度合を算出する支持度算出部(図示せず)と、算出された支持度合に基づいて訳文候補のなかから最終的な訳文を選択する訳文選択部(図示せず)を備えていてもよい。
【0102】
例文集合ベース翻訳部107で適切に翻訳されなかった句は、次段の単語直訳/ルールベース翻訳部108へ渡され、ここでの翻訳処理を受ける。
【0103】
単語直訳/ルールベース翻訳部108は、入力句に対して、記憶部110内の単語対訳辞書を参照した単語直訳の機能およびルールベースの翻訳機能のうち、少なくとも一方の翻訳機能を備える。ルールベースの翻訳機能は、第1言語の解析(形態素解析、構文・意味解析など)を行い、人手によって作成された大量のルールをベースとして、解析の結果を第2言語に変換し、さらに第2言語の訳文を生成するものである。
【0104】
次に図15のフローチャートを参照して句翻訳部の動作を説明する。
【0105】
まず、翻訳判定部102で入力部101からの入力句Pについて翻訳が必要かどうか判定され、翻訳が不要であれば、入力句Pを翻訳せず、そのまま訳文として、出力部109に転送し出力させる(S41、S49)。この場合、翻訳信憑性は1.0である。翻訳が必要であれば、入力句Pを例文マッチング翻訳部103に送り、例文マッチング翻訳部103で例文対訳辞書または例文パターン辞書を用いた翻訳が行われる(S43)。入力句の翻訳に成功すれば、翻訳結果の訳文を出力部109に転送し出力させる。この場合の翻訳信憑性は1.0である。
【0106】
入力句の翻訳に失敗した場合には、入力句は次段の単語アライメント例文ベース翻訳部104に送られ、単語アライメント対訳辞書を用いた翻訳が行われる(S44)。入力句の翻訳に成功すれば、翻訳結果の訳文を出力部109に転送し出力させる。この場合の翻訳信憑性は0.7である。
【0107】
入力句の翻訳に失敗した場合には、入力句は次段の辞書ベース翻訳部105に送られ、単語/句対訳辞書を用いた翻訳が行われる(S45)。入力句の翻訳に成功すれば、翻訳結果の訳文を出力部109に転送し出力させる。この場合の翻訳信憑性は0.7である。
【0108】
入力句の翻訳に失敗した場合には、入力句は次段の例文パターン翻訳部106に送られ、例文パターン対訳辞書を用いた翻訳が行われる(S45)。入力句の翻訳に成功すれば、翻訳結果の訳文を出力部109に転送し出力させる。この場合の翻訳信憑性は例文パターン翻訳部の信憑性である。
【0109】
入力句の翻訳に失敗した場合には、入力句は次段の例文集合ベース翻訳部107に送られ、例文対訳辞書を用いた翻訳が行われる(S45)。入力句の翻訳に成功すれば、翻訳結果の訳文を出力部109に転送し出力させる。この場合の翻訳信憑性は0.7である。
【0110】
入力句の翻訳に失敗した場合には、入力句は次段の単語直訳/ルールベース翻訳部108に送られ、単語直訳またはルールベースの翻訳が行われる(S45)。入力句の翻訳に成功すれば、翻訳結果の訳文を出力部109に転送し出力させる。この場合の翻訳信憑性は単語直訳またはルールベースの翻訳の信憑性である。
【0111】
図16は、翻訳装置の一ハードウエア構成を示すブロック図である。翻訳装置は、好ましくは、入力装置1701、表示装置1702、主記憶装置1704、記憶装置1706、中央処理装置(CPU)1708、これらを接続するバス1710を含んで構成される。
【0112】
入力装置1700は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取るスキャナ、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。表示装置1702は、ユーザの入力および翻訳結果等を表示するディスプレイ等を含む。主記憶装置1704は、ROMまたはRAMを含み、図4に示す各部の動作を制御するプログラムや演算処理されたデータ等を記憶する。記憶装置1706は、例えばハードディスク等の大容量記憶装置を含み、例文対訳辞書などの各種辞書等のデータを格納する。中央処理装置1708は、主記憶装置1704に記憶されたプログラムに従い各部を制御する。
【0113】
次に、課題の欄で述べた入力文の例に対して本実施例の翻訳装置100が対応できることを図18および図19を参照して説明する。
【0114】
追加説明の記述に条件としての接尾辞がある1番目の入力文(例1)について説明する。
【0115】
この場合の入力文Sが、図18に示すように、
文S = 3が4の右側にあることを確認する(全部品対象)
であり、前処理部3により得られた、接尾辞Pfixおよび接尾辞Pfixを削除した文S1が、
Pfix= (全部品対象) ,S1 = 3が4の右側にあることを確認する
である。句翻訳部6の翻訳部A6aによる接尾辞Pfixの訳文は、
図18に示すようになる。
【0116】
例文パターン翻訳部4により例文パターンベース翻訳エンジンを用いて文S1を翻訳するとき、文S1が、例文パターン、
“NP1 が NP2 に ある こと を 確認する”
と、完全にマッチングし、文S1の訳文は、
図18に示すようになる。
【0117】
訳文合成部7で、翻訳部A6aからの接尾辞Pfixの訳文と、例文パターン翻訳部4からの文S1の訳文を用いて、文Sの訳文を合成する。その翻訳結果は図18に示す通りであり、正しく翻訳できた。
【0118】
次に部品の追加説明としてのパターンがある2番目の入力文(例2)について説明する。
【0119】
この場合の入力文Sが、図18に示すように、
文S = 3と5のハーネス(図Aに示す)はロックしないこと
であり、前処理部3で得られる、追加説明などのパターン(切替項目)が、
T(1) =図Aに示す, T1(1) = (, T2(1)=).
S1= 3と5のハーネスT1はロックしないこと
である。
【0120】
句翻訳部6の翻訳部A6aによるT(1)の訳文は、
図18に示すようになる。
【0121】
例文パターン翻訳文部4で例文ベース翻訳エンジンを用いて文S1を翻訳するとき、文S1が、例文パターン、
“NP1 と NP2 は ロックしない こと”
と、完全にマッチングする。名詞句NP1、NP2は、
NP1= 3, NP2= 5のハーネスT1,
であり、文S1の訳文は、
図18に示すようになる。
【0122】
訳文合成部7で、T(1)の訳文, T1(1),T2(1)とS1の訳文を用いて、文Sの訳文を合成する。合成結果の訳文Sは、
図18に示すようになる。
【0123】
次に、年月日及び時間の接尾辞がある3番目の入力文(例3)について説明する。
【0124】
まず、入力文Sは、図19に示す通りであり、
前処理部3で得られた、入力文中の接尾辞Pfixは、それを削除した文S1が、
Pfix = 《2008-1-29 19:54:59》
であり、接尾辞Pfixを削除した文S1は、
図19に示すようになる。
【0125】
句翻訳部6の翻訳部A6aによる接尾辞Pfixの訳文が、
Pfixの訳文= 《2008-1-29 19:54:59》
である。
【0126】
例文パターン翻訳文部4で例文パターンベース翻訳エンジンを用いた文S1の翻訳結果は、
S1の翻訳結果= 1に異物がある
であり、使用した対訳パターン:
中国語パターン:NP1 内 有 NP2,
日本語パターン: NP1 に NP2 が ある
である。
【0127】
訳文合成部7で、翻訳部A6aからの接尾辞Pfixの訳文と例文パターン翻訳文部4からのS1の訳文を用いて、文Sの訳文を合成する。その合成結果、すなわち、入力文Sの訳文は、図19に示す通りであり、正しい翻訳が得られた。
【0128】
次に、1文中に2文含む第4番目の入力文S(例4)について説明する。
【0129】
まず、入力文Sが、図19に示すように、
S=材料メーカに追加確認すること,出荷の時に保護部材を強化して衝突損害を防止する.
である。この入力文SをS1として、例文パターン翻訳部4で翻訳が失敗する。
【0130】
次に分割部5で文S1の分割が行われ、2つの分割文S11およびS12となる。すなわち、
S11=材料メーカに追加確認すること,
S12=出荷の時に保護部材を強化して衝突損害を防止する
となる。
【0131】
次に、句翻訳部6の翻訳B6bで、分割文S11とS12を翻訳する。句翻訳部6は、例文パターン翻訳部4は句の翻訳だけではなく、文(センテンス)も翻訳できるので、上記の分割文S11とS12が例文パターン翻訳部4の例文パターンベース翻訳エンジンで翻訳可能である。もし、例文パターン対訳辞書に、次の対訳パターンがあれば、例文パターンベース翻訳エンジンが分割文S11とS12を翻訳可能である。すなわち、
“中国語パターン:図19に示す
---日本語パターン:NP1 に 追加 確認する こと”
“中国語パターン:図19に示す
---日本語パターン:NP1 の 時 に NP2 を 強化して NP3 を 防止する”
例文パターン翻訳部4の例文パターンベース句翻訳エンジンのS11とS12の翻訳は、次の通りである。すなわち、
S11とS12の翻訳:
S11の翻訳は、図19の(1)に示す通りであり、
S11の翻訳は、図19の(2)に示す通りである。
【0132】
訳文生成部8で、翻訳B6bからの分割文S11の訳文とS12の訳文を用いて、文Sの訳文を生成する。その結果は、
図19の示す通りとなり、正しく翻訳できることが分かる。
【0133】
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
【符号の説明】
【0134】
1,101:入力部 2:翻訳メモリ翻訳部
3:前処理部(抽出手段、付加手段)
4, 106:例文パターン翻訳部(第1の翻訳手段)
5:分割部(分割手段)
6:句翻訳部(第2の翻訳手段、第3の翻訳手段)
7:訳文合成部(合成手段) 8:訳文生成部
9,109:出力部 10,110:記憶部
102:翻訳判定部 103:例文マッチング翻訳部
104:単語アライメント例文ベース翻訳部 105:辞書ベース翻訳部
107:例文集合ベース翻訳部 108:単語直訳/ルールベース翻訳部
100,1001:翻訳装置 1200:解析部
1300:検索部 1401:変換部
1500:算出部 1600:抽出部
1630:関係選択部
1700:翻訳部 1800:判定修正部
1810:判定部 1820:修正部
1830:最適関係選択部
2000:出力装置 3000:入力装置
1701:入力装置
1702:表示装置 1704:主記憶装置
1706:記憶装置 1708:中央処理装置(CPU)
1710:バス
【技術分野】
【0001】
本発明は、翻訳装置及び翻訳プログラムに関する。
【背景技術】
【0002】
特許文献1には、原文中に一つの固まりであった単語列に、下線のような属性情報としての付加情報が付与された文に対して翻訳処理を行った結果、言語の構造の違いにより語順が変わり、複数に分離してしまう問題に対し、入力文からタグ情報を取り除いたテキスト文を翻訳した後、訳文にタグ情報を挿入し、このタグ情報の訳文への復元の際に、本来1つのものが分離されても、文字列と付加情報との関係情報からまとまりを認識することで対処することが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平9ー293073号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の目的とするところは、追加説明文などが文書に含まれていても、正しく翻訳することが可能な翻訳装置及び翻訳プログラムを提供することにある。
【課題を解決するための手段】
【0005】
本発明の請求項1に係る翻訳装置は、入力文から追加説明部分を抽出する抽出手段と、入力文から前記抽出手段で追加説明部分が抽出され前記追加説明部分が除かれた文に、当該追加説明部分の位置を示す管理情報を付加する付加手段と、前記追加説明部分が除かれた文を翻訳する第1の翻訳手段と、前記抽出手段で抽出された追加説明部分を翻訳する第2の翻訳手段と、前記管理情報に基づいて、前記第1及び第2の翻訳手段の翻訳結果を合成する合成手段と、を具備することを特徴とするものである。
【0006】
上記構成において、前記第1の翻訳手段が適切に翻訳できないときに、当該入力文を分割する分割手段と、前記分割手段で分割された各文を翻訳する第3の翻訳手段を具備することを特徴とするものである。
【0007】
上記構成において、前記第1の翻訳手段は、第1言語の例文パターンとその対訳である第2言語の対訳例文パターンを例文パターン対訳組として記憶する例文パターン辞書を有し、前記例文パターン辞書を参照し、翻訳対象の文と前記例文パターンとをマッチングさせて翻訳する例文パターン翻訳装置であり、前記第2の翻訳手段は、第1の言語の単語とその対訳である第2の言語の単語を単語組として記憶する単語対訳辞書、第1言語の例文とその対訳である第2言語の対訳例文を例文対訳組として記憶する例文辞書、第1言語の句パターンとその対訳である第2言語の対訳句パターンを句パターン対訳組として記憶する句パターン対訳辞書及び前記例文パターン辞書の少なくとも1つを参照して翻訳を行う句翻訳装置であることを特徴とするものである。
【0008】
本発明の請求項4に係る翻訳プログラムは、コンピュータを、入力文から前処理として追加説明部分を抽出する抽出手段と、入力文から前記抽出手段で追加説明部分が抽出され追加説明部分が除かれた文を翻訳する第1の翻訳手段と、前記抽出手段で抽出された追加説明部分を翻訳する第2の翻訳手段と、前記第1及び第2の翻訳手段の翻訳結果を合成する合成手段として機能させることを特徴とするものである。
【発明の効果】
【0009】
請求項1の構成によれば、追加説明などを含んだ入力文書についても、本構成を有しない場合に比較して、正しく翻訳できる。
【0010】
請求項2の構成によれば、1つの文に複数の文を含んだ入力文書についても、本構成を有しない場合に比較して、正しく翻訳できる。
【0011】
請求項3の構成によれば、比較的簡単な辞書で、追加説明などを含んだ入力文書についても、本構成を有しない場合に比較して、正しく翻訳できる。
【0012】
請求項4の構成によれば、追加説明などを含んだ入力文書についても、本構成を有しない場合に比較して、正しく翻訳できる。
【図面の簡単な説明】
【0013】
【図1】本実施例の翻訳装置の機能的な構成例を示すブロック図である。
【図2】翻訳装置の処理手順を示すフローチャートである。
【図3】前処理部の処理手順前段を示すフローチャートである。
【図4】前処理部の処理手順後段を示すフローチャートである。
【図5】分割部の処理手順を示すフローチャートである。
【図6】(a)訳文合成部、(b)訳文生成部の処理手順を示すフローチャートである。
【図7】例文対訳辞書のデータ構造を示す説明図である。
【図8】例文パターンのデータ構造を示す説明図である。
【図9】例文パターン対訳辞書のデータ構造を示す説明図である。
【図10】例文パターン翻訳部に利用可能な翻訳装置の全体構成を示すブロック図である。
【図11】翻訳装置1001の主要部の詳細構成を示すブロック図である。
【図12】翻訳装置の主要部処理手順前段を示すフローチャートである。
【図13】翻訳装置の主要部処理手順後段を示すフローチャートである。
【図14】句翻訳部の詳細構成を示すブロック図である。
【図15】句翻訳部の処理手順を示すフローチャートである。
【図16】翻訳装置の一ハードウエア構成を示すブロック図である。
【図17】課題を入力文例で示す説明図である。
【図18】例1、例2の入力文例の場合における処理例を示す説明図である。
【図19】例3、例4の入力文例の場合における処理例を示す説明図である。
【発明を実施するための形態】
【0014】
まず、本発明を実施するための最良の形態を、具体な入力文例を挙げて説明する。
【0015】
まず、文の最後に追加説明(例1)や途中に追加説明(例2)のパターンがある場合である。
例1:“ 3が4の右側にあることを確認する(全部品対象) ”
例2:“ 3と5のハーネス(図Aに示す)はロックしないこと ”
ここで、例文パターンベース翻訳エンジンを用いて、文(センテンス)を翻訳するとする。例1の場合最適な例文パターンが、
“NP1 が NP2 に ある こと を 確認する”
であるが、例文1の入力文と完全にマッチングできない。つまり、“(全部品対象)”がマッチングできない。もし、マッチングの距離値がパターンベース翻訳エンジンのマッチング閾値を越えると、上記例文パターンは、翻訳用候補として抽出されない。
例2の場合に例文パターンとして、たとえば、
(1)“NP1 に 示す NP2 は ロックしない こと”
(2)“NP1 と NP2 は ロックしない こと”
の二つを挙げられる。しかし、例文パターン(1)は、例文2の入力文と完全にマッチングできない。もちろん、最適な例文パターン(2)にも完全にマッチング可能である。しかし、最適な例文パターン(2)のマッチング項目数(6個)が、例文パターン(1)のマッチング項目数(7個)より1個少ないので、最適な例文パターン(2)は選ばれない。
文の最後に追加説明がある別の場合として、次の例3の入力文がある。
例3:
この場合について図17を参照して説明する。
中国文;図17に示す、
日本語訳文;1に異物がある《2008-1-29 19:54:59》
ここで、《2008-1-29 19:54:59》はトラブル発見したときの時刻を示す。
この例3の場合に、例文パターンとして、
中国語パターン;NP1 内 有 NP2,
日本語パターン; NP1 に NP2 が ある
が挙げられ、翻訳結果は、
1に異物《2008-1-29 19:54:59》がある
となってしまい、正確に翻訳できない。
【0016】
次に、議事録などで、1つの文にコンマや読点などで区切られて複数の文(センテンス)を含む入力文例を説明する。
【0017】
この場合の入力文の具体例として、例4を挙げる。
例4:“材料メーカに追加確認すること,出荷の時に保護部材を強化して衝突損害を防止する”
このように、実際の文書には、センテンス単位が正しく表記されていない場合があり、翻訳が難しくなる。
【0018】
なお、本書において「句」の語は、二つ以上の単語からなる句、句を内在する句を含むものとする。言語学上、文が節、句を含み、節が句を含む、句が句を含まない。本明細書には、句の定義が言語学上の定義ではない、二つ以上の単語からなる単語列、かつ、句が句を含んでもよいと定義する。
【0019】
以下、本発明を実施するための最良の形態を、図に示す実施例を参照して説明する。
【実施例】
【0020】
図1は本発明の実施例に係る翻訳装置の機能的な構成を示すブロック図である。本実施例の翻訳装置100は、異なる方式による複数の翻訳エンジンとしての翻訳部を直列に複数段設けたものである。翻訳装置100は、入力部1、翻訳メモリ翻訳部2、前処理部3、例文パターン翻訳部4、分割部5、句翻訳部6、訳文合成部7、訳文生成部8、出力部9及び記憶部10を含んで構成される。
【0021】
入力部1は、翻訳対象の文を入力する。翻訳メモリ翻訳部2は、入力された文Sと記憶部10に記憶された例文対訳辞書とを照合して一致または類似する例文の訳文を出力する。翻訳が成功した場合には、出力部9へ送り、失敗した場合には、入力文を次段に送る。なお、翻訳メモリ翻訳装置の詳細としては、例えば、特開2008−65395に開示されたものがある。
【0022】
前処理部3は、翻訳メモリ翻訳部2で翻訳が失敗した場合に入力された文Sの前処理を行い、追加説明部分(T(n)、接尾辞Pfix)と、追加説明部分の位置などを示す管理情報としてダミー変数Tiを付加した文S1とに振り分け、前者を句翻訳部6へ、後者を例文パターン翻訳部4へ送る。詳細は後述する。
【0023】
例文パターン翻訳部4は、前処理部3から入力された文Sと、記憶部10に記憶された例文パターン対訳辞書とを照合して翻訳結果の入力文S1の訳文を出力する。詳細構成は後述する。
【0024】
分割部5は、例文パターン翻訳部4で翻訳が失敗したとき、入力文を分割し、分割文をバッファメモリ(図示せず)に一時的に記憶する。
【0025】
句翻訳部6は、入力句や文を記憶部10内の辞書を参照して翻訳する翻訳エンジンであり、前処理部3からの追加説明部分(T(n)、接尾辞Pfix)を翻訳する翻訳部A6aと、分割部5で分割された分割文S1mを翻訳する翻訳部A6bとを備え、翻訳結果をバッファメモリ(図示せず)に一時的に記憶する。
【0026】
訳文合成部7は、翻訳部A6aからの追加説明部分(T(n)、Pfix)の訳と、例文パターン翻訳部4からの文S1の訳文とを合成して入力文Sの訳文を作成する。訳文生成部8は、追加説明部分(T(n)、接尾辞Pfix)の訳を用いて分割文S1mを切り替え、入力文Sの訳文を作成する。
【0027】
出力部9は、翻訳メモリ翻訳部2、訳文合成部7および訳文生成部8からの文Sの訳文を出力する。例えば、表示部への入力文Sの訳文の可視表示または可聴表示や、画像形成装置や外部装置などへの出力を行う。
【0028】
記憶部10は、翻訳辞書として、単語対訳辞書、例文対訳辞書、句対訳辞書、例文パターン対訳辞書、句パターン対訳辞書などを備える。単語対訳辞書は、第1の言語の単語とその対訳である第2の言語の単語を単語組として記憶する。句対訳辞書は、第1言語の句とその対訳である第2言語の対訳句を句対訳組として記憶する。例文辞書は、第1言語の例文とその対訳である第2言語の対訳例文を例文対訳組として記憶する。句パターン対訳辞書は、第1言語の句パターンとその対訳である第2言語の対訳句パターンを句パターン対訳組として記憶する。例文パターン辞書は、第1言語の例文パターンとその対訳である第2言語の対訳例文パターンを例文パターン対訳組として記憶する。
【0029】
図2のフローチャートを参照して本実施例の翻訳装置100の動作を説明する。
【0030】
まず、入力部1から入力された文Sが翻訳メモリ翻訳部2で記憶部10の例文対訳辞書と照合して翻訳される(S1、S2)。ここで、翻訳が成功すれば、その翻訳結果は、出力部9に送られて出力される(S10)。この場合、翻訳の信頼性は例えば1.0である。翻訳に失敗すれば、入力文Sは、前処理部3に送られる。前処理部3では、入力文S対して所定のパターンを抽出するなどの前処理を行う。詳細は後述する。前処理後の文S1、追加説明などの切り替え項目T(1),T(2),…T(n)、接尾辞Pfix及び句読点Kを生成する(S3)。生成された文S1は、例文パターン翻訳部4に送られ、追加説明部分の切り替え項目T(1),T(2),…T(n),Pfix及び句読点Kは、句翻訳部6の句翻訳エンジンとしての翻訳部A6aへ送られる。翻訳部A6aでは、記憶部10の例文パターン対訳辞書や句例文パターン対訳辞書などを参照して切り替え項目T(1),T(2),…T(n)、接尾辞Pfixをそれぞれ翻訳する(S4)。
【0031】
例文パターン翻訳部4では、例文パターンベース翻訳エンジンを用いて例文パターン対訳辞書を照合し文S1を翻訳する(S5)。ここで、翻訳に成功すれば、訳文合成部7で、T(1),T(2),…T(n)の訳文を用いて、文S1の訳文の中にあるT1,T2,…Tn変数をそれぞれ切り替え、接尾辞Pfixの訳文と句読点Kを文Sの最後に追加し,文Sの訳文を生成する(S6)。
【0032】
例文パターン翻訳部4で翻訳に失敗すれば、分割部5で、文S1を分割して、分割文S11,S12,…S1mを生成する(S7)。その後、句翻訳部6の句翻訳エンジンとしての翻訳部B6bを用いて分割文S11,S12,…S1mをそれぞれ翻訳する(S8)。その後、訳文生成部8で、追加説明T(1),T(2),…T(n)の訳文を用いて、 S11,S12,…S1mの訳文の中にあるT1,T2,…Tn変数をそれぞれ切り替え、接尾辞Pfixの訳文と句読点KをS1mの最後に追加し、文Sの訳文を生成する(S9)。
【0033】
ステップS2、S6、S9で、文Sの訳文が生成されると、訳文は出力部9に送られて出力される(S10)。
【0034】
次に図3、図4のフローチャートを参照して前処理部3の詳細処理を説明する。
【0035】
前処理部3で、文Sに、もし、特定パターンの範囲を示す括弧などの、ある引用記号ペアの内に他の引用記号を含んだ場合は、一番外側の引用記号ペアを抽出する。通常は、左から右へ入力文Sを走査して判定を行うものとし、入力文に半角記号と全角記号が混在する場合、半角記号と全角記号を事前に統一して行うものとする。
【0036】
まず、入力文Sが前段の翻訳メモリ翻訳部2から前処理部3に入力されると、前処理部3は、i=1とする(S11)。入力された文Sの中に、もし、追加説明などを示す特定のパターン”xxx”(引用パターンとも呼ぶ)があれば、T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号、”Ti”とし、これらでSの引用パターン”xxx”を切り替える(S12a)。次に、文Sの中に、同様の特定のパターン[xxx]があれば、iを更新し(i++;iに1を増やす、以下同じ意味を表す)、T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、Sの特定のパターン[xxx]を切り替える(S12b)。
【0037】
以下同様に、文Sの中に、特定のパターン(xxx)があれば,i++;T(i)=xxx, T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン(xxx)を切り替える(S12c)。文Sの中に、特定のパターン(xxx)があれば、i++;T(i)=xxx, T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン(xxx)を切り替える(S12c)。文Sの中に、特定のパターン《xxx》があれば、i++;T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン《xxx》を切り替える(S12d)。文Sの中に、特定のパターン〈xxx〉があれば、i++;T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン〈xxx〉を切り替える(S12e)。文Sの中に、特定のパターン<xxx>があれば、i++;T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン<xxx>を切り替える(S12f)。文Sの中に、特定のパターン『xxx』があれば、 i++; T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン『xxx』を切り替える(S12g)。文Sの中に、特定のパターン「xxx」があれば、 i++; T(i)=xxx,T1(i)=左側の引用記号, T2(i)=右側の引用記号,”Ti”で、文S中の特定のパターン「xxx」を切り替える(S12h)。
【0038】
もし、文の右から連続な特定のパターン(xxx), 《yyy》…があれば、
Pfix= (xxx), 《yyy》…
とし、文Sから接尾辞Pfixを削除する。また、文の最後に句読点があれば、その句読点も変数Kに保存し、文Sから句読点を削除する(S13)。
【0039】
次に、連続記号列S(スペース記号を含む)を抽出し、
Ei=yyy xxx 12%+2=6
とする(S14)。
【0040】
特定のパターンがT1,T2,…,TnやE1,E2,…Emで切り替えられ、接尾辞Postfixや句読点が削除された文S1をこれらの切り替えられたダミー変数などの管理情報と共に次段の例文パターン翻訳部4に出力すると共に、特定のパターンや接尾辞を次段の句翻訳部6に出力する(S15)。
【0041】
次に図5のフローチャートを参照して分割部5の詳細手順について説明する。
【0042】
まず、文S1が入力され、入力された文S1を半角の記号, ; : 、スペース記号及び全角の記号, ; : 、スペース記号を用いて分割する(S21、S22)。分割された文をS11,S12,…S1mとしてバッファメモリ(図示せず)にそれぞれ格納し、対応する翻訳エンジンとしての句翻訳部6の翻訳部B6bに分割文S11,S12,…S1mの格納終了を通知する(S23)。
【0043】
次に図6(a)のフローチャートを参照して訳文合成部7の詳細手順について説明する。
【0044】
まず、前段の句翻訳部6の翻訳A6aが翻訳した追加説明などのT(1),T(2),…T(n)の訳文や接尾辞Pfixの訳文をバッファメモリ(図示せず)から取得すると共に、同様に、前段の例文パターン翻訳部4から文S1の訳文を取得する(S31)。次に、取得した追加説明などのT(1),T(2),…T(n)の訳文を用いて、文S1の訳文の中にあるT1,T2,…Tn変数をそれぞれ切り替え、接尾辞Pfixの訳文と句読点Kを文Sの最後に追加し、文Sの訳文を合成し、合成結果を出力部9に転送する(S32、S33)。
【0045】
次に図6(b)のフローチャートを参照して訳文生成部8の詳細手順について説明する。
【0046】
まず、句翻訳部6の翻訳A6aが翻訳した追加説明などのT(1),T(2),…T(n)の訳文や接尾辞Pfixの訳文をバッファメモリ(図示せず)から取得すると共に、翻訳B6bが翻訳したS11,S12,…S1mの訳文を取得する(S35)。次にT(1),T(2),…T(n)の訳文を用いて、 S11,S12,…S1mの訳文の中にあるT1,T2,…Tn変数をそれぞれ切り替え、接尾辞Pfixの訳文と句読点Kを分割文S1mの最後に追加し、文Sの訳文を生成し、生成結果の訳文Sを出力部9に転送する(S36、S37)。
【0047】
次に例文パターン翻訳部4および句翻訳部6の詳細について述べる。
【0048】
まず、各翻訳部の詳細を説明する前に、記憶部10の例文対訳辞書及び例文パターン対訳辞書のデータ構造の一例について述べる。
【0049】
図7に例文対訳辞書のデータ構造例を示す。複数のレコードから成り、各レコードは、第1言語の例文T1と、この例文T1の訳文となる第2言語の例文T2とを含む。
【0050】
次に例文パターン対訳辞書のデータ構造について説明する。図8に例文パターンのデータ構造例を示す。同図において、例文パターンPEは、例文SE1からSE4を類別するパターンである。
【0051】
例文パターンPEは、類別される例文に共通な単語、又は節で構成される固定部分PFと、固定部分PFではない単語又は節であるが、類別される例文間で品詞が共通する単語又は節で構成される可変部分PVとで構成される。可変部分PVは、それらの品詞が共通する単語又は節を、例えば、V1及びV2といった記号を用いて表す。
【0052】
よって、例文パターンPEは類別される例文に共通な文字列で構成され、可変部分PVは類別される例文に共通しない文字列を表す記号(以下単に、非共通文字列という)で構成される。つまり、非共通文字列は、例文パターンを構成する共通文字列以外の文字列をいう。
【0053】
ここで、節とは、文法上、従位接続詞や関係詞が導く文であって、主語と述語とが一組になり完結した文をいう。しかし本実施例では、動詞、形容詞、及び形容動詞である単語とそれらに付随して使用される助詞、助動詞、及び補助動詞である単語とを合わせて節といい、それぞれ動詞節、形容詞節、及び形容動詞節という。また、節の品詞とは、動詞節、形容詞節、及び形容動詞節のいずれかへ節を分類した区分けをいう。
【0054】
具体的には、図8に示すように、「渡してください」という節SC1から4及びPCは、「渡す」という動詞である単語、「て」という接助詞である単語、及び「くださる」という補助動詞である単語で構成される。
【0055】
また、動詞である単語「渡す」とそれに付随して使用される単語「て」及び「くださる」とで構成される節SC1から4及びPCの品詞を動詞節という。
【0056】
固定部分PFは、例文に共通な単語又は節のみならず、その同義語を表すFIX内容情報、可変部分であるか固定部分であるかを表すTYPE情報、並びに固定部分を構成する単語の品詞を表す品詞情報、固定部分を構成する単語が属している語彙体系を表す情報である言語体系属性名等で構成される。
【0057】
可変部分PVは、共通する品詞を表す情報である変数名情報、及び可変部分であるか固定部分であるかを表すTYPE情報、可変部分の語彙体系属性名等で構成される。語彙体系の言語としては、日本語語彙体系(J)、中国語語彙体系(C)などのように、挙げられる。
【0058】
本記実施例において、変数名情報は、共通する品詞が名詞であることを表す名詞フレーズ(例えば、名詞句の変数名;NP、変数名ID;1)、形容詞であることを表す形容詞フレーズ(例えば、形容詞句の変数名;AP、変数名ID;2)、及び副詞であることを表す副詞フレーズ(例えば、副詞句の変数名;DP、変数名ID;3)を含む。
【0059】
また、本実施例において、可変部分PVは、類別される例文間で品詞が共通する単語又は節で構成されるとして説明したが、これに限定される訳ではなく、共通する性質の内容を表す単語又は節で構成される実施例を採用できる。共通する性質の内容を表す単語又は節の具体例としては、例えば、時間、数量、地名、又は人名を表す単語又は節を挙げることができる。
【0060】
次に例文パターン対訳辞書のデータ構造例について図9を参照して説明する。同図に示すように、例文パターン対訳辞書63は、レコード1からnで構成される。レコード1からnは、第1言語で表された例文パターンT1と、例文パターンT1を第2言語に翻訳した訳文パターンとしての例文パターンT2と、例文パターンT1及び例文パターンT2のペア(組)を識別するIDと、例文パターンT1及びT2を構成する単語等である文字列の対応関係を表す対応関係情報F2とを関連付けて保存する。
【0061】
レコード1からnが保存する対応関係情報F2について説明する。ここでは、例文パターンT1が単語等である5つの文字列 a1 から a5 で構成され、かつ例文パターンT2が単語等である6つの文字列 b1 から b6 で構成されている場合を例に挙げて説明を行う。
【0062】
対応関係情報F2は、文字列が例文パターンT1及び対訳としての例文パターンT2において使用される順番を用いて文字列の対応関係を表す。
【0063】
具体的には、例文パターンT1で n 番目に使用される文字列 an が表す意味と、例文パターンT2で m 番目に使用される文字列 bm が表す意味とが同じである場合には、対応関係を「(n:m)」として表す。
【0064】
また、例文パターンT1で n 番目に使用される文字列 an が表す意味と、例文パターンT2で m 番目及び m+1 番目に使用される2つの文字列が表す意味とが同じ意味を表す場合には、「(n:m,m+1)」として表す。
【0065】
逆に、例文パターンT1で n 番目及び n+1 番目に使用される2つの文字列 an 及び an+1が表す意味と、対訳例文パターンT2で m 番目に使用される文字列 bm が表す意味とが同じ意味を表す場合には、「(n,n+1:m)」として表す。
【0066】
同様に、例文パターンT1で n 番目及び n+1 番目に使用される2つの文字列 an 及び an+1が表す意味と、例文パターンT2で m 番目及び m+1 番目に使用される2つの文字列が表す意味とが同じ意味を表す場合には、「(n,n+1:m,m+1)」として表す。
【0067】
本実施例では、例文パターンT1で使用される1つの文字列と例文パターンT2で使用される1つの文字列とが同じ意味を表す場合、1つの文字列と2つの文字列とが同じ意味を表す場合、2つの文字列と1つの文字列とが同じ意味を表す場合、2つの文字列と2つの文字列とが同じ意味を表す場合の対応関係を表す表記方法について説明したが、これに限定される訳ではない。
【0068】
例えば、j個(j>=1)の文字列とk個(k>=1)の文字列とが同じ意味を表す場合には、一般的に、「(n,n+1,…,n+j:m,m+1,…,m+k)」として表す構成を採用できる。
【0069】
更に、例文パターンT1で n 番目に使用される文字列 an が表す意味と同じ意味を表す文字列が例文パターンT2で使用されない場合には、「(n:0)」として表す。また逆に、例文パターンT2で m 番目に使用される文字列 bm が表す意味と同じ意味を表す文字列が例文パターンT1で使用されない場合には、「(0:m)」として表す。
【0070】
図10に示す具体な対応関係情報
F2(T1,T2) = { (1:1),(2:3),(3:4,5),(5:6),(4:0),(0:2) }
について説明する。対応関係情報 F2(T1,T2) は、例文パターンT1で1番目に使用される文字列 a1 の表す意味が例文パターンT2で1番目に使用される文字列 b1 の意味と同じであり、これらは対応する。同様に、例文パターンT1で2番目に使用される文字列 a2 の表す意味が例文パターンT2で3番目に使用される文字列 b3 の意味と同じであり、例文パターンT1で3番目に使用される文字列 a3 の表す意味が例文パターンT2で4番目及び5番目に使用される文字列 b4 及び b5 の意味と同じであり、例文パターンT1で5番目に使用される文字列 a5 の表す意味が例文パターンT2で6番目に使用される文字列 b6 の意味と同じであり、それぞれ対応する。さらに例文パターンT1で4番目に使用されるa4 と同じ意味を表す文字列が例文パターンT2で使用されず、かつ例文パターンT2で2番目に使用される文字列 b2 と同じ意味を表す文字列が例文パターンT1で使用されないという対応関係を表す。対応関係さえ表現できれば、どのような表現でもよく、本発明に係る翻訳装置等は、以上述べた表現に限定されない。
【0071】
図10の翻訳システム10aの構成に含む翻訳装置1001は、例文と例文パターンのマッチグ処理を行っている例文パターン翻訳装置(部)に適用できる。図10乃至図13を参照して翻訳装置1001を説明する。図11は翻訳装置1001の主要部の構成を示す詳細ブロック図である。
【0072】
まず、解析部1200は、入力装置3000から入力された第1言語の文書情報を形態素解析し、入力文を構成する単語を切り分け,単語の品詞を付与するなどの処理をする。
【0073】
検索部1300は、解析部1200の解析結果および記憶部1100の記憶内容を参照して、入力文と類似な第1言語の例文パターン候補(1または複数ある)を抽出する。
【0074】
変換部1401は、第1言語の入力文と抽出された第1言語の例文パターンの候補を用いて,入力文の節を求める。第1言語入力文を第1言語例文パターンとの間の相違を求めるために,第1言語例文パターンに基づいて第1言語入力文を変換する。第1の実施例の変換部1400との相違点は、後述する。
【0075】
算出部1500は変換部1401で変換された第1言語入力文の単語/節の列と第1言語例文パターンの候補間の相違として距離を求める。最小な相違を決める第1言語入力文の単語/節の列と、抽出された第1言語の例文パターン候補間の変換写像を求める。ここで,最小な相違値としての距離値を与える例文パターン候補が複数ある場合があるし、最小な相違値を決める例文パターン候補と入力文の単語/節の列間の変換写像が複数ある場合もある。
【0076】
抽出部1600は、第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を求める。第1言語入力文の単語/節の列と抽出された第1言語の例文パターン候補間の対応関係(写像)を求める。抽出部1600は、内部構成として、実抽出部1610(図示せず)、関係特定部1620(図示せず)および関係選択部1630を含む。実抽出部1610は、検索部1300が検索した例文パターンから1つのパターンを抽出し、算出部1500が計算した第2の指標である入力文と例文パターンとの距離が、最も近い例文パターンを抽出する。関係特定部1620は、入力文S’を構成する変換後の文字列と入力文Sを類別する例文パターンAを構成する文字列との対応関係を特定する。最終段の関係選択部1630は第1言語入力文の単語/節の列と抽出された第1言語の例文パターン候補間の対応関係が複数ある場合は,適切な対応関係を選択する。即ち、関係特定部1620から、対応関係集合を取得すると共に、変換された入力文、例文パターン、対訳例文パターン、及び対応関係情報を取得する。取得した対応関係情報から、割り当てたスコアが最大の値をとる対応関係情報を選択する。
【0077】
判定修正部1800は、判定部1810、修正部1820および最適関係選択部1830を含んで構成される。判定修正部1800は、関係選択部1630の選択結果および記憶部1100の記憶内容を参照して、選択結果を判定し、修正が必要な場合は、修正して算出部1500に戻すことにより、再度対応関係を得るものである。
【0078】
判定部1810は、関係選択部1630の選択結果について、第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を再計算するかどうかを判定する。
【0079】
修正部1820は、第1言語入力文の単語/節の列を修正して,修正後の第1言語入力文の単語/節の列と第1言語例文パターン間の相違をもう一度計算し,新しい距離値を定めるために第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を求める。
【0080】
最適関係選択部1830は、すべての例文パターンの候補と第1言語入力文の単語/節の列間の対応関係集合から,最適な対訳関係選択する。この選択により求められた例文パターン対訳ベアの番号と第1言語入力文の単語/節の列と抽出された第1言語の例文パターン間の対応関係を出力する。
【0081】
記憶部1100は、第1の実施例と同様なデータ構成を有し、記憶内容としては、例文対訳辞書および例文パターン対訳辞書を含む。例文パターン対訳辞書は、例えば、例文パターン、訳文パターン、および例文パターンと訳文パターン間の対応関係を一組として記憶している.これを例文パターン対訳ペアと呼ぶ。
【0082】
翻訳部1700は、最適関係選択部1830で選択された第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係、第1言語例文パターンとそのパターンに対応している訳語言語の例文パターン間の対応関係を用いて、第1言語入力文の単語/節の列と訳語言語の例文パターン間の対応関係を求め、可変部分を翻訳して、訳文を生成する。
【0083】
次に図12および図13のフローチャートを参照して、翻訳装置1001の要部の動作を説明する。
【0084】
形態素解析済みの入力文Sが検索部1300に入力されと、検索部1300は、入力文sに対応する例文パターン候補Aset、即ち、Dmin, F1set(S),F1set(S’), F1set(S’,A)などを初期化する(S301、S302)。更に例文パターン候補Asetから例文パターン候補Aが取り出され、変換部1401により、パターンAに対応する入力文SをS’とする(S303、S304)。この入力文S’とAの間の距離D1を算出部1500により求める。求めた距離D1がDmin最小値より小さいかどうか判断する(S306)。小さい場合には、F1set(S’,A)およびF1set(S’)をヌル値(NULL)即ち空値とし、D1をDminとした後、抽出部1600で文S’と例文パターンAの間の対応関係(写像)を求める(S307、S309)。
【0085】
更に、求めた距離値Dimを定める写像をF1set(S’,A)に格納する。選択部1630で、F1set(S’,A)にある不適切な写像を削除する(S310)。得られたF1set(S’,A)をF1set(S’)に入れる。
即ち、F1set(S’)= F1set(S’)+F1set(S’,A)
【0086】
その後、または、ステップS306で大きいと判断した場合には、Asetの候補をすべて処理したかどうかを判断し、未処理があれば、候補Aを取り出し上記処理を行い、すべて処理済みであれば、次のステップに進む。
【0087】
次に、判定部1810で、F1set(S’)の中から一つの写像F1i(S’,A)を取り出し、F1i(S’,A)に対して,再計算する必要があるかどうかを判定する(S311、S312)。再計算する必要がある場合には、修正部1820で、F1i(S’,A)と候補Aを参考して、文S’を修正し、これを修正後の文S’’とする(S313)。
即ち、F1set(S’,A)=F1set(S’,A)-F1i(S’,A)
【0088】
修正後の文S’’と候補Aの間の相違を算出部1500で求める(S314)。求めた相違としての距離値をD2とする。距離値D2が最小値Dminより小さいかどうかを判断する(S315)。小さい場合には、文S’’と候補Aの間の対応関係(写像)F1set(S’’,A)を求める(S316)。その後、Dmin=D2であれば、F1set(S)=F1set(S)+F1set(S’’,A)とし、Dmin>D2であれば、F1set(S)=F1set(S’,A)およびDmin=D2とする(S317)。
【0089】
ステップS317の処理の終了後、ステップS315で、大きいと判断した場合、およびステップS312で再計算の必要がないと判断した場合には、F1set(S’)の写像をすべて処理したかどうかを判断する(S318)。未処理があれば、ステップS312に戻り処理を行う。処理済であれば、F1set(S)がNULLであれば、F1set(S)= F1set(S’,A)とした後、最適関係選択部1830で、F1set(S)から最適な写像(対応関係)を求め、求めた写像をF1res(S,A)に入れる(S319、S320)。
【0090】
次に句翻訳部6を、異なる方式による翻訳エンジンとしての複数段の翻訳部103〜108を直列に接続した場合の詳細について説明する。図14は、そのような句翻訳部6の構成例を示すブロック図である。このような異なる翻訳方式に基づく複数段の翻訳部103〜108、およびそれらで用いられる複数の対訳辞書を記憶部110に備えており、これは入力部101に入力される第1言語の句、または文が、より簡単な翻訳からより複雑な翻訳へ移行するように構成されており、これによって翻訳の高速化および高精度化を図っている。
【0091】
句翻訳部6は、図14に示すように、入力部101、翻訳判定部102、例文マッチング翻訳部103、単語アライメント例文ベース翻訳部104、辞書ベース翻訳部105、例文パターン翻訳部106、例文集合ベース翻訳部107、単語直訳/ルールベース翻訳部108、出力部109および記憶部110を含んで構成される。
【0092】
翻訳判定部102は、入力部101より入力された句または文(以下単に句という)について、翻訳が必要かどうか判定する。ここで、第1言語が、日本語、中国語、韓国語などの場合には、非漢字、非カタカナ、非平かな、非韓国語文字の文字列なら、翻訳する必要がない。第1言語が欧米言語の場合には、数字および各種の記号からなる文字列なら、翻訳する必要がない。
【0093】
例文マッチング翻訳部103は、翻訳判定部102で入力句の翻訳が必要と判定された場合に入力句の翻訳を行う。すなわち、第1言語と言語2間の例文を対応させた記憶部110内の例文対訳辞書を用いて、入力された句Pと完全マッチングした例文があれば、その例文の訳文をPの第2言語の訳文として出力する.完全にマッチングした例文が存在しない場合は,入力された句Pを含む例文があれば、その対訳例文ペアと対応している対訳パターンペアを記憶部110内の例文パターン対訳辞書から取り出し、取り出した対訳パターンペアを用いて、句Pを翻訳する。
【0094】
例文マッチング翻訳部103において、入力された句に対する訳語が得られなかった場合、その入力された句は単語アライメントベース翻訳部104の処理の対象になる。
【0095】
単語アライメント例文ベース翻訳部104は、入力句に対する訳文候補を記憶部110内の単語アライメント対訳辞書を参照して得る。なお、ここでは、説明を簡単にするため入力句は予め形態素解析されたものとする。単語アライメント対訳辞書は、第1言語による例文とその第2言語による対訳文の組を格納したものであり、これらには単語アライメント情報、すなわち第1言語の例文における各単語と第2言語の対訳文における各単語の対応付け情報が付加されている。
【0096】
単語アライメント例文ベース翻訳部104において、入力された句に対する訳語が得られなかった場合、その入力された句は辞書ベース翻訳部105の処理の対象になる。
【0097】
辞書ベース翻訳部105は、入力された句に対して、記憶部110内の単語/句対訳辞書を検索し、一致する句が辞書内にある場合にその対訳句を出力するものである。単語/句対訳辞書内には、第1言語による単語あるいは句をキーとし、第2言語によるその対訳語あるいは句を値とする辞書セットと、第2言語による単語あるいは句をキーとし、第1言語によるその対訳語あるいは句を値とする辞書セットが収められている。辞書ベース翻訳部103は、基本的には2段階の処理を行い、最初に第1言語による単語/句をキーとして検索を行ってその対訳句の抽出を行い、それが成功しなかった場合に、今度は第2言語による単語/句をキーとして検索を行ってその対訳句の抽出を行う。
【0098】
辞書ベース翻訳部105において、入力された句に対する訳語が得られなかった場合、その入力された句は例文パターン翻訳部106の処理の対象になる。
【0099】
例文パターン翻訳部106は、記憶部101内の例文パターン対訳辞書を参照して翻訳候補を得る例文パターンベース翻訳エンジンを使用した翻訳部で、先の例文マッチング翻訳部103でも行っているが、例文マッチング翻訳部103とは、例文パターンや写像の選択基準、単語や節区切りを変えて行っても良いし、例文マッチング翻訳部103では、例文対訳辞書のみを使用した翻訳を行い、例文パターン対訳辞書によるマッチングは例文パターン翻訳部106だけで行っても良い。この際、例文パターン対訳辞書によるマッチングは既に述べた翻訳装置1001が適用できる。
【0100】
例文パターン翻訳部106において、入力された句に対する訳語が得られなかった場合、その入力された句は例文集合ベース翻訳部107の処理の対象になる。
【0101】
例文集合ベース翻訳部107は、入力された句に対する訳文候補を記憶部110内の例文対訳辞書を参照して得る。例文対訳辞書には、第1言語による例文とその第2言語による対訳文の組が多数格納される。本翻訳部における翻訳精度を向上させるためには、できるだけ多くの例文対訳組を例文対訳辞書に登録しておくことが好ましい。例文集合ベース翻訳部107は、詳細構成として、例文対訳辞書から入力された句を含む複数の例文対訳組を選択するための例文対訳ペア選択部(図示せず)と、各例文対訳組相互間の共通部分の組を抽出する句ペア抽出部(図示せず)と、抽出された複数の共通部分の組での、入力された句に対する支持度合を算出する支持度算出部(図示せず)と、算出された支持度合に基づいて訳文候補のなかから最終的な訳文を選択する訳文選択部(図示せず)を備えていてもよい。
【0102】
例文集合ベース翻訳部107で適切に翻訳されなかった句は、次段の単語直訳/ルールベース翻訳部108へ渡され、ここでの翻訳処理を受ける。
【0103】
単語直訳/ルールベース翻訳部108は、入力句に対して、記憶部110内の単語対訳辞書を参照した単語直訳の機能およびルールベースの翻訳機能のうち、少なくとも一方の翻訳機能を備える。ルールベースの翻訳機能は、第1言語の解析(形態素解析、構文・意味解析など)を行い、人手によって作成された大量のルールをベースとして、解析の結果を第2言語に変換し、さらに第2言語の訳文を生成するものである。
【0104】
次に図15のフローチャートを参照して句翻訳部の動作を説明する。
【0105】
まず、翻訳判定部102で入力部101からの入力句Pについて翻訳が必要かどうか判定され、翻訳が不要であれば、入力句Pを翻訳せず、そのまま訳文として、出力部109に転送し出力させる(S41、S49)。この場合、翻訳信憑性は1.0である。翻訳が必要であれば、入力句Pを例文マッチング翻訳部103に送り、例文マッチング翻訳部103で例文対訳辞書または例文パターン辞書を用いた翻訳が行われる(S43)。入力句の翻訳に成功すれば、翻訳結果の訳文を出力部109に転送し出力させる。この場合の翻訳信憑性は1.0である。
【0106】
入力句の翻訳に失敗した場合には、入力句は次段の単語アライメント例文ベース翻訳部104に送られ、単語アライメント対訳辞書を用いた翻訳が行われる(S44)。入力句の翻訳に成功すれば、翻訳結果の訳文を出力部109に転送し出力させる。この場合の翻訳信憑性は0.7である。
【0107】
入力句の翻訳に失敗した場合には、入力句は次段の辞書ベース翻訳部105に送られ、単語/句対訳辞書を用いた翻訳が行われる(S45)。入力句の翻訳に成功すれば、翻訳結果の訳文を出力部109に転送し出力させる。この場合の翻訳信憑性は0.7である。
【0108】
入力句の翻訳に失敗した場合には、入力句は次段の例文パターン翻訳部106に送られ、例文パターン対訳辞書を用いた翻訳が行われる(S45)。入力句の翻訳に成功すれば、翻訳結果の訳文を出力部109に転送し出力させる。この場合の翻訳信憑性は例文パターン翻訳部の信憑性である。
【0109】
入力句の翻訳に失敗した場合には、入力句は次段の例文集合ベース翻訳部107に送られ、例文対訳辞書を用いた翻訳が行われる(S45)。入力句の翻訳に成功すれば、翻訳結果の訳文を出力部109に転送し出力させる。この場合の翻訳信憑性は0.7である。
【0110】
入力句の翻訳に失敗した場合には、入力句は次段の単語直訳/ルールベース翻訳部108に送られ、単語直訳またはルールベースの翻訳が行われる(S45)。入力句の翻訳に成功すれば、翻訳結果の訳文を出力部109に転送し出力させる。この場合の翻訳信憑性は単語直訳またはルールベースの翻訳の信憑性である。
【0111】
図16は、翻訳装置の一ハードウエア構成を示すブロック図である。翻訳装置は、好ましくは、入力装置1701、表示装置1702、主記憶装置1704、記憶装置1706、中央処理装置(CPU)1708、これらを接続するバス1710を含んで構成される。
【0112】
入力装置1700は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取るスキャナ、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。表示装置1702は、ユーザの入力および翻訳結果等を表示するディスプレイ等を含む。主記憶装置1704は、ROMまたはRAMを含み、図4に示す各部の動作を制御するプログラムや演算処理されたデータ等を記憶する。記憶装置1706は、例えばハードディスク等の大容量記憶装置を含み、例文対訳辞書などの各種辞書等のデータを格納する。中央処理装置1708は、主記憶装置1704に記憶されたプログラムに従い各部を制御する。
【0113】
次に、課題の欄で述べた入力文の例に対して本実施例の翻訳装置100が対応できることを図18および図19を参照して説明する。
【0114】
追加説明の記述に条件としての接尾辞がある1番目の入力文(例1)について説明する。
【0115】
この場合の入力文Sが、図18に示すように、
文S = 3が4の右側にあることを確認する(全部品対象)
であり、前処理部3により得られた、接尾辞Pfixおよび接尾辞Pfixを削除した文S1が、
Pfix= (全部品対象) ,S1 = 3が4の右側にあることを確認する
である。句翻訳部6の翻訳部A6aによる接尾辞Pfixの訳文は、
図18に示すようになる。
【0116】
例文パターン翻訳部4により例文パターンベース翻訳エンジンを用いて文S1を翻訳するとき、文S1が、例文パターン、
“NP1 が NP2 に ある こと を 確認する”
と、完全にマッチングし、文S1の訳文は、
図18に示すようになる。
【0117】
訳文合成部7で、翻訳部A6aからの接尾辞Pfixの訳文と、例文パターン翻訳部4からの文S1の訳文を用いて、文Sの訳文を合成する。その翻訳結果は図18に示す通りであり、正しく翻訳できた。
【0118】
次に部品の追加説明としてのパターンがある2番目の入力文(例2)について説明する。
【0119】
この場合の入力文Sが、図18に示すように、
文S = 3と5のハーネス(図Aに示す)はロックしないこと
であり、前処理部3で得られる、追加説明などのパターン(切替項目)が、
T(1) =図Aに示す, T1(1) = (, T2(1)=).
S1= 3と5のハーネスT1はロックしないこと
である。
【0120】
句翻訳部6の翻訳部A6aによるT(1)の訳文は、
図18に示すようになる。
【0121】
例文パターン翻訳文部4で例文ベース翻訳エンジンを用いて文S1を翻訳するとき、文S1が、例文パターン、
“NP1 と NP2 は ロックしない こと”
と、完全にマッチングする。名詞句NP1、NP2は、
NP1= 3, NP2= 5のハーネスT1,
であり、文S1の訳文は、
図18に示すようになる。
【0122】
訳文合成部7で、T(1)の訳文, T1(1),T2(1)とS1の訳文を用いて、文Sの訳文を合成する。合成結果の訳文Sは、
図18に示すようになる。
【0123】
次に、年月日及び時間の接尾辞がある3番目の入力文(例3)について説明する。
【0124】
まず、入力文Sは、図19に示す通りであり、
前処理部3で得られた、入力文中の接尾辞Pfixは、それを削除した文S1が、
Pfix = 《2008-1-29 19:54:59》
であり、接尾辞Pfixを削除した文S1は、
図19に示すようになる。
【0125】
句翻訳部6の翻訳部A6aによる接尾辞Pfixの訳文が、
Pfixの訳文= 《2008-1-29 19:54:59》
である。
【0126】
例文パターン翻訳文部4で例文パターンベース翻訳エンジンを用いた文S1の翻訳結果は、
S1の翻訳結果= 1に異物がある
であり、使用した対訳パターン:
中国語パターン:NP1 内 有 NP2,
日本語パターン: NP1 に NP2 が ある
である。
【0127】
訳文合成部7で、翻訳部A6aからの接尾辞Pfixの訳文と例文パターン翻訳文部4からのS1の訳文を用いて、文Sの訳文を合成する。その合成結果、すなわち、入力文Sの訳文は、図19に示す通りであり、正しい翻訳が得られた。
【0128】
次に、1文中に2文含む第4番目の入力文S(例4)について説明する。
【0129】
まず、入力文Sが、図19に示すように、
S=材料メーカに追加確認すること,出荷の時に保護部材を強化して衝突損害を防止する.
である。この入力文SをS1として、例文パターン翻訳部4で翻訳が失敗する。
【0130】
次に分割部5で文S1の分割が行われ、2つの分割文S11およびS12となる。すなわち、
S11=材料メーカに追加確認すること,
S12=出荷の時に保護部材を強化して衝突損害を防止する
となる。
【0131】
次に、句翻訳部6の翻訳B6bで、分割文S11とS12を翻訳する。句翻訳部6は、例文パターン翻訳部4は句の翻訳だけではなく、文(センテンス)も翻訳できるので、上記の分割文S11とS12が例文パターン翻訳部4の例文パターンベース翻訳エンジンで翻訳可能である。もし、例文パターン対訳辞書に、次の対訳パターンがあれば、例文パターンベース翻訳エンジンが分割文S11とS12を翻訳可能である。すなわち、
“中国語パターン:図19に示す
---日本語パターン:NP1 に 追加 確認する こと”
“中国語パターン:図19に示す
---日本語パターン:NP1 の 時 に NP2 を 強化して NP3 を 防止する”
例文パターン翻訳部4の例文パターンベース句翻訳エンジンのS11とS12の翻訳は、次の通りである。すなわち、
S11とS12の翻訳:
S11の翻訳は、図19の(1)に示す通りであり、
S11の翻訳は、図19の(2)に示す通りである。
【0132】
訳文生成部8で、翻訳B6bからの分割文S11の訳文とS12の訳文を用いて、文Sの訳文を生成する。その結果は、
図19の示す通りとなり、正しく翻訳できることが分かる。
【0133】
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
【符号の説明】
【0134】
1,101:入力部 2:翻訳メモリ翻訳部
3:前処理部(抽出手段、付加手段)
4, 106:例文パターン翻訳部(第1の翻訳手段)
5:分割部(分割手段)
6:句翻訳部(第2の翻訳手段、第3の翻訳手段)
7:訳文合成部(合成手段) 8:訳文生成部
9,109:出力部 10,110:記憶部
102:翻訳判定部 103:例文マッチング翻訳部
104:単語アライメント例文ベース翻訳部 105:辞書ベース翻訳部
107:例文集合ベース翻訳部 108:単語直訳/ルールベース翻訳部
100,1001:翻訳装置 1200:解析部
1300:検索部 1401:変換部
1500:算出部 1600:抽出部
1630:関係選択部
1700:翻訳部 1800:判定修正部
1810:判定部 1820:修正部
1830:最適関係選択部
2000:出力装置 3000:入力装置
1701:入力装置
1702:表示装置 1704:主記憶装置
1706:記憶装置 1708:中央処理装置(CPU)
1710:バス
【特許請求の範囲】
【請求項1】
入力文から追加説明部分を抽出する抽出手段と、
入力文から前記抽出手段で追加説明部分が抽出され前記追加説明部分が除かれた文に、当該追加説明部分の位置を示す管理情報を付加する付加手段と、
前記追加説明部分が除かれた文を翻訳する第1の翻訳手段と、
前記抽出手段で抽出された追加説明部分を翻訳する第2の翻訳手段と、
前記管理情報に基づいて、前記第1及び第2の翻訳手段の翻訳結果を合成する合成手段と、
を具備することを特徴とする翻訳装置。
【請求項2】
前記第1の翻訳手段が適切に翻訳できないときに、当該入力文を分割する分割手段と、
前記分割手段で分割された各文を翻訳する第3の翻訳手段を具備することを特徴とする請求項1記載の翻訳装置。
【請求項3】
前記第1の翻訳手段は、第1言語の例文パターンとその対訳である第2言語の対訳例文パターンを例文パターン対訳組として記憶する例文パターン辞書を有し、前記例文パターン辞書を参照し、翻訳対象の文と前記例文パターンとをマッチングさせて翻訳する例文パターン翻訳装置であり、前記第2の翻訳手段は、第1の言語の単語とその対訳である第2の言語の単語を単語組として記憶する単語対訳辞書、第1言語の例文とその対訳である第2言語の対訳例文を例文対訳組として記憶する例文辞書、第1言語の句パターンとその対訳である第2言語の対訳句パターンを句パターン対訳組として記憶する句パターン対訳辞書及び前記例文パターン辞書の少なくとも1つを参照して翻訳を行う句翻訳装置であることを特徴とする請求項1記記載の翻訳装置。
【請求項4】
コンピュータを、
入力文から追加説明部分を抽出する抽出手段と、
入力文から前記抽出手段で追加説明部分が抽出され前記追加説明部分が除かれた文に、当該追加説明部分の位置を示す管理情報を付加する付加手段と、
前記追加説明部分が除かれた文を翻訳する第1の翻訳手段と、
前記抽出手段で抽出された追加説明部分を翻訳する第2の翻訳手段と、
前記管理情報に基づいて、前記第1及び第2の翻訳手段の翻訳結果を合成する合成手段として機能させることを特徴とする翻訳プログラム。
【請求項1】
入力文から追加説明部分を抽出する抽出手段と、
入力文から前記抽出手段で追加説明部分が抽出され前記追加説明部分が除かれた文に、当該追加説明部分の位置を示す管理情報を付加する付加手段と、
前記追加説明部分が除かれた文を翻訳する第1の翻訳手段と、
前記抽出手段で抽出された追加説明部分を翻訳する第2の翻訳手段と、
前記管理情報に基づいて、前記第1及び第2の翻訳手段の翻訳結果を合成する合成手段と、
を具備することを特徴とする翻訳装置。
【請求項2】
前記第1の翻訳手段が適切に翻訳できないときに、当該入力文を分割する分割手段と、
前記分割手段で分割された各文を翻訳する第3の翻訳手段を具備することを特徴とする請求項1記載の翻訳装置。
【請求項3】
前記第1の翻訳手段は、第1言語の例文パターンとその対訳である第2言語の対訳例文パターンを例文パターン対訳組として記憶する例文パターン辞書を有し、前記例文パターン辞書を参照し、翻訳対象の文と前記例文パターンとをマッチングさせて翻訳する例文パターン翻訳装置であり、前記第2の翻訳手段は、第1の言語の単語とその対訳である第2の言語の単語を単語組として記憶する単語対訳辞書、第1言語の例文とその対訳である第2言語の対訳例文を例文対訳組として記憶する例文辞書、第1言語の句パターンとその対訳である第2言語の対訳句パターンを句パターン対訳組として記憶する句パターン対訳辞書及び前記例文パターン辞書の少なくとも1つを参照して翻訳を行う句翻訳装置であることを特徴とする請求項1記記載の翻訳装置。
【請求項4】
コンピュータを、
入力文から追加説明部分を抽出する抽出手段と、
入力文から前記抽出手段で追加説明部分が抽出され前記追加説明部分が除かれた文に、当該追加説明部分の位置を示す管理情報を付加する付加手段と、
前記追加説明部分が除かれた文を翻訳する第1の翻訳手段と、
前記抽出手段で抽出された追加説明部分を翻訳する第2の翻訳手段と、
前記管理情報に基づいて、前記第1及び第2の翻訳手段の翻訳結果を合成する合成手段として機能させることを特徴とする翻訳プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【公開番号】特開2011−22924(P2011−22924A)
【公開日】平成23年2月3日(2011.2.3)
【国際特許分類】
【出願番号】特願2009−169223(P2009−169223)
【出願日】平成21年7月17日(2009.7.17)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成23年2月3日(2011.2.3)
【国際特許分類】
【出願日】平成21年7月17日(2009.7.17)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]