説明

機械翻訳システム及び機械翻訳プログラム

【課題】翻訳速度の高速化が可能で、しかも精度の高い翻訳結果を得ることができる機械翻訳システムを提供することである。
【解決手段】原文分割部29は入力装置20から入力された第一言語の原文を特定の単位で分割し、翻訳部30は辞書部34の情報を使って原文分割部29で得られた複数の分割原文を並列して翻訳するとともに、原文翻訳の過程で判断される翻訳情報のうち一つに特定できた翻訳情報を翻訳情報蓄積部32に蓄積する。そして、訳文結合部31は翻訳部30で翻訳された分割原文の分割訳文を結合する際に、分割訳文の中に翻訳部30で一つに特定できなかった翻訳情報がある場合には、翻訳情報蓄積部32に蓄積された翻訳情報に一致するように翻訳結果の訳語の置き換えを行い、翻訳部30で翻訳された分割訳文を結合する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、第一言語を第二言語に翻訳する機械翻訳システム及び機械翻訳プログラムに関する。
【背景技術】
【0002】
一般に、第一言語を第二言語に翻訳する機械翻訳においては、解析、変換、生成の3つの処理が実施される。解析処理では、入力された第一言語の文(以下、原文という)を単語単位に分割し、それぞれの単語の品詞などの文法属性を認識し、単語間の係り受けなどの関係を抽出する。変換処理では、解析処理の結果を受けて各単語を対訳語に置き換え、第一言語から第二言語への構造変換を行う。そして、生成処理では、変換処理の結果を受けて単語の語順を決定したり単語の活用処理などを行い、第二言語の文(以下、訳文という)を生成する。
【0003】
このように機械翻訳においては、解析処理、変換処理、生成処理が行われ、これらの処理は複雑な処理であるため、翻訳に多くの時間を要する。このため、翻訳速度の高速化が望まれている。また、ユーザが訳文を完成するための編集作業を軽減しても、精度の高い翻訳結果が得られるようにすることが望まれている。
【0004】
機械翻訳の精度の高い翻訳結果を得るものとして、翻訳処理時に発生する曖昧性を処理対象文書中の処理対象文以外の部分から抽出した情報を使用し、翻訳精度を上げるようにしたものがある(例えば、特許文献1参照)。これは、当該文以外から得られた原文の解析や訳語の決定に変わる情報を当該文の翻訳上の曖昧性解消に利用することで、翻訳精度の高い訳文を得られるほか、語句の解釈のされ方や訳し方が文書全体で統一されるというものである。
【0005】
また、機械翻訳の翻訳速度の高速化を行うものとして、複数の翻訳実施手段を備え翻訳の並行処理が行えるようにしたものがある(例えば、特許文献2参照)。これは、入力文書を文単位に分割し、複数の原文を複数の翻訳実施手段で同時に並行して翻訳するものであり、システムの負荷分散を効率良く行い、平均的にみて翻訳結果を高速に得ることができるようにしたものである。
【特許文献1】特開平2−308370号公報
【特許文献2】特許3167193号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1のものでは、他の文の翻訳に得られる原文の解析や訳語の決定に変わる情報を用いて、1文書内の訳語の曖昧性を解消し、より精度の高い翻訳結果を得ることができるが、訳文出力時に訳語の曖昧性解消処理を行う必要があるので、1文書の翻訳に、より多くの時間がかかってしまう。
【0007】
一方、特許文献2のものでは、1文書を文単位に分割し、複数の翻訳実施手段で翻訳することでシステムの負荷分散を効率良く行うものであるが、翻訳処理は分割された文単位で独立に行われ、個々の文の翻訳から得られる構文・意味解析情報、訳語の決定に関わる情報を他の文の翻訳に生かすことができない。
【0008】
本発明の目的は、翻訳速度の高速化が可能で、しかも精度の高い翻訳結果を得ることができる機械翻訳システム及び機械翻訳プログラムを提供することである。
【課題を解決するための手段】
【0009】
本発明の機械翻訳システムは、機械翻訳プログラム、翻訳に必要な語彙・規則を蓄積した辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文をデータとして入力する入力装置と、翻訳後の第二言語の訳文を出力する出力装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳システムにおいて、前記入力装置から入力された第一言語の原文を特定の単位で分割し分割原文を得る原文分割部と、前記辞書部の情報を使って前記原文分割部で得られた複数の分割原文を並列して翻訳する翻訳部と、前記記憶装置内に形成され前記翻訳部による原文翻訳の過程で判断される翻訳情報のうち前記翻訳部で一つに特定できた翻訳情報を蓄積する翻訳情報蓄積部と、前記翻訳部で翻訳された分割原文の分割訳文を結合する際に前記分割訳文の中に前記翻訳部で一つに特定できなかった翻訳情報がある場合には前記翻訳情報蓄積部に蓄積された翻訳情報に一致するように翻訳結果の訳語の置き換えを行い前記翻訳部で翻訳された分割訳文を結合する訳文結合部とを備えたことを特徴とする。
【発明の効果】
【0010】
本発明によれば、翻訳速度の高速化が可能で、しかも精度の高い翻訳結果を得ることができる。
【発明を実施するための最良の形態】
【0011】
図1は本発明の実施の形態に係る機械翻訳システムのハードウエア構成を示すブロック構成図である。機械翻訳システム11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
【0012】
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には翻訳に関する機械翻訳プログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置17である表示装置18に表示出力され、また、通信制御装置19を介して通信ネットワークに出力される。
【0013】
入力装置20は演算制御装置12に情報を入力するものであり、例えば、マウス21、キーボード22、ディスクドライブ23、通信制御装置19から構成され、例えば、マウス21やキーボード22は表示装置18を介して演算制御装置12に各種指令を入力し、キーボード22、ディスクドライブ23、通信制御装置19は翻訳対象の原文を入力する。
【0014】
すなわち、ディスクドライブ23は翻訳対象の原文のファイルを記憶媒体に入出力するものであり、通信制御装置19は機械翻訳システム11をインターネットやLANなどの通信ネットワークに接続するものである。通信制御装置19はLANカードやモデムなどの装置であり、通信制御装置19を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置12に送受信される。さらに、演算制御装置12の演算結果や翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)24が設けられている。
【0015】
図2は本発明の実施の形態に係わる機械翻訳システム11の機能ブロック図である。図2に示す演算制御装置12内の各機能ブロックは、上述の機械翻訳プログラム15を構成する各プログラムに対応する。すなわち、プロセッサ13が機械翻訳プログラム15を構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ24の記憶領域に対応する。
【0016】
機械翻訳システム11は、システム全体の制御を行う制御部26、外部との入力のインターフェースを行う入力部27、外部との出力のインターフェースを行う出力部28、入力部27から入力された第一言語の原文を特定の単位で分割し分割原文を得る原文分割部29、原文分割部29で分割された分割原文を第二言語に翻訳するための翻訳部30、翻訳部30で翻訳された分割原文の分割訳文を結合して訳文を得る訳文結合部31、翻訳部30による原文翻訳の過程で判断される翻訳情報のうち翻訳部30で一つに特定できた翻訳情報を蓄積する翻訳情報蓄積部32、翻訳部30で一つに特定できなかった翻訳情報に関する語の語彙情報を蓄積する語彙情報蓄積部33、翻訳に必要な語彙・規則を蓄積した辞書部34によって構成されている。翻訳情報は、例えば、原文の構成要素の品詞、係り受け情報、見出し語の分野情報などであり、また、複数の訳語候補を含む語に対して曖昧性が解消された情報(共起情報によりいずれかの訳語が選択されたという情報)である。
【0017】
制御部26は、全体の動きを制御するためのものであり、入力部27、出力部28、原文分割部29、翻訳部30、訳文結合部31を制御する。入力部27は、入力装置20から入力される各種コマンドや翻訳対象である第一言語の原文の入力を受け付けるものである。
【0018】
原文分割部29は、入力部27より入力された原文を特定の単位で原文を切り出すためのものである。特定の単位への分割は、1文の終了を示すピリオド/句点の後としたり、改行記号、空行、所定の文字列(ユーザが文の区切りとして入力する文字列、例えば、/、|)などの出現位置としたり、所定の文字数を閾値として定め閾値に達した文までを1単位としたり、所定の文数を1単位としたり、特定の文字列(例えば[])の特定回目の出現箇所までを1単位としたり、あるいはこれらの条件のうちのいずれかを組み合わせて先にいずれかの条件が成立したときとしたりできる。この分割規則は、辞書部の規則に予め定めておく。なお、図2では分割規則の図示を省略している。
【0019】
翻訳部30は、原文分割部29より切り出された翻訳対象原文を辞書部34に記録されている語彙・規則を用いて翻訳し第二言語の訳文を出力するものであり、複数の翻訳処理手段35を有している。図2では、3個の翻訳処理手段35a、35b、35cを有した場合を示しており、原文分割部29で分割された分割原文を複数の翻訳処理手段35a、35b、35cで並列して翻訳処理行う。具体的には、翻訳部30の各々の翻訳処理手段35a、35b、35cは、辞書部34の語彙部34a、形態素解析規則34b、構文・意味解析規則34cを用いて形態素解析、構文・意味解析を行い、第一言語のデータ構造を得る。続いて、得られたデータ構造に対して個々の要素に対する第二言語の訳語を決定し、変換規則34dを用いて第二言語のデータ構造への変換を行い、構文生成規則34e、形態素生成規則34fを用いて訳文を生成する。
【0020】
この過程で、原文を解析した後に訳語を決定する際に、一つになった翻訳情報は翻訳情報蓄積部に記録する。また、曖昧性がある翻訳情報に関する語の語彙情報を語彙情報蓄積部33に蓄積する。例えば、翻訳対象原文の分野や品詞の解釈に曖昧性がある語を訳語候補と共に語彙情報蓄積部33に蓄積するとともに、解釈に曖昧性がある文節間の係り受け情報を語彙情報蓄積部33に蓄積する。
【0021】
辞書部34は、翻訳部30での翻訳処理に必要な各種の語彙・規則を収容するもので、語彙部34a、形態素解析規則34b、構文・意味解析規則34c、変換規則34d、構文生成規則34e、形態素生成規則34fなどからなる。例えば、語彙部34aは、第一言語の単語・熟語と第二言語の訳語とを対応づけて記録するとともに、両者の品詞情報、活用情報、概念情報などの各種情報を記録している。
【0022】
訳文結合部31は、原文分割部29によって分割された特定の単位(分割原文)ごとに翻訳された結果を1原文に結合するためのものである。その結合時に、語彙情報蓄積部33の情報を元に訳語の置き換えを行う。詳細は後述する。
【0023】
語彙情報蓄積部33は、翻訳部30によって翻訳する際に曖昧性がある翻訳情報に関する語の語彙情報を蓄積するものである。曖昧性がある翻訳情報は、前述したように、例えば、翻訳対象原文の分野や品詞が複数あり、その解釈に曖昧性がある語句及びその訳語候補、解釈に曖昧性がある文節間の係り受け情報などである。
【0024】
出力部28は、各種コマンドに対する制御部26からの応答や翻訳結果を出力装置17に出力するもので、例えば、表示装置18であるCRTディスプレイやプラズマ・ディスプレイ、液晶ディスプレイ等に表示出力する。
【0025】
翻訳情報蓄積部32は、翻訳部30の処理によって、一つになった翻訳情報を記録するものである。翻訳情報は、例えば、原文の構成要素の品詞、係り受け情報、見出し語の分野情報などであり、また、複数の訳語候補を含む語に対して曖昧性が解消された翻訳情報(共起情報によりいずれかの訳語が選択されたという情報)である。
【0026】
以下、第一言語の原文が英語であり第二言語が日本語であり、翻訳情報が分野情報である場合について説明する。図3は、本発明の実施の形態に係わる機械翻訳システムの動作を示すフローチャートである。入力装置20から表1に示すような第一言語の原文Aが入力されたとすると、入力部27はこの原文Aの入力を受け付ける(S11)。
【表1】

【0027】
制御部26は原文Aの入力を確認すると原文分割部29を起動し、これにより原文分割部29は原文Aをより小さな単位(分割原文)に分割する。例えば、原文Aをn個に分割する(S12)。この原文分割部29により原文を分割する位置は、1文の終了を示すピリオド/句点の後であるとする。これにより、表2に示すように、複数の分割原文A−0、A−1、A−2…が得られる。
【表2】

【0028】
制御部26は、複数に分割された分割原文A−nを翻訳部30の複数の翻訳処理手段35a、35b、35cに割り振る。この場合、分割原文の数nが翻訳処理手段35の個数mを超える場合には、翻訳処理手段35は、複数回にわたって翻訳処理を行うことになる。例えば、制御部26は、分割原文A−0を翻訳部30の翻訳処理手段35aに、分割原文A−1を翻訳部30の翻訳処理手段35bに、分割原文A−2を翻訳部30の翻訳処理手段35cへそれぞれ渡し、分割原文A−4があるときは翻訳処理手段35aに、分割原文A−5があるときは翻訳処理手段35bに、順次割り振っていく。これにより、各々の翻訳処理手段35a、35b、35cは、割り振られた分割原文A−nに対して解析を行う(S13)。
【0029】
翻訳部30の複数の翻訳処理手段35aによる分割原文A−0の解析結果のデータ構造と第二言語への変換後のデータ構造の一例を表3に示す。
【表3】

【0030】
翻訳部30の複数の翻訳処理手段35bによる分割原文A−1の解析結果のデータ構造と第二言語への変換後のデータ構造の一例を表4に示す。
【表4】

【0031】
翻訳部30の複数の翻訳処理手段35cによる分割原文A−2の解析結果のデータ構造と第二言語への変換後のデータ構造の一例を表5に示す。
【表5】

【0032】
翻訳部30の翻訳処理手段35aにて分割原文A−0を処理する場合について説明する。翻訳部30の翻訳処理手段35aは、辞書部34の情報を用いて、分割原文A−0である「Hideki Okajima is a famous reliever who plays an active part in the major leagues.」に対して、形態素解析や構文解析等の解析を行うと、分割原文A−0の見出し語に対して表3のように解析される。翻訳部30の翻訳処理手段35aは、分割原文A−0の見出し語に対して、訳語を付与する前に、見出し語インデックスmをm=0とし(S14)、見出し語インデックスmを初期化する。そして、見出し語Tm{T0(Hideki Okajima)}の分野情報が特定できるか否かを判定する(S15)。この判定は、辞書部34の語彙部34aを参照することにより行われる。いま、辞書部34の語彙部34aに表6に示すような語彙情報が格納されているとする。
【表6】

【0033】
表6では、見出し語(Hideki Okajima)は分野情報としてスポーツのみが付与されている場合を示している。従って、翻訳部30の翻訳処理手段35aは、見出し語T0(Hideki Okajima)は分野情報が一つに特定できると判断し、辞書部34の語彙部34aの「Hideki Okajima」の見出し語の分野情報である「スポーツ」を翻訳情報蓄積部32に記憶する(S16)。そして、インデックスmに1を加算(m=m+1)し(S17)、次の見出し語Tmが存在するかどうかを判定し(S18)、存在する場合にはステップS15に戻る。
【0034】
一方、ステップS15の判定で見出し語Tmの分野情報が特定できない場合には、見出し語Tmが分野情報を持っているかどうかを判定し(S19)、見出し語Tmが分野情報を持っている場合には、語彙情報蓄積部33に見出し語Tmの情報を蓄積する(S20)。すなわち、翻訳部30の翻訳処理手段35で一つに特定できなかった分野情報に関する語の語彙情報を蓄積する。そして、インデックスmに1を加算(m=m+1)し(S17)、次の見出し語Tmが存在するかどうかを判定し(S18)、存在する場合にはステップS15に戻る。また、ステップS19の判定で見出し語Tmが分野情報を持っていないと判定されたときは、ステップS17に移行し、次の見出し語Tmが存在するかどうかを判定し(S18)、存在する場合にはステップS15に戻る。これを見出し語Tmが存在するまで繰り返す。
【0035】
このようにして分割原文A−0を翻訳したときは、表6に示すように、「Hideki Okajima」、「major league」の分野情報であるスポーツが翻訳情報蓄積部32に蓄積され、見出し語「reliever」は分野情報を有するが分野情報を特定できなかった語彙として語彙情報蓄積部33に蓄積される。
【0036】
分割原文A−nのすべての見出し語Tmについて分野情報の判定が完了すると、翻訳部30の翻訳処理手段35は、分割訳文Y−nを生成する(S21)。この場合、翻訳情報蓄積部32に分野情報が記憶されている場合には、翻訳情報蓄積部32を参照し、記憶されている分野と同じ訳語を出力するように翻訳結果の訳語の置き換えを行う。例えば、翻訳部30の翻訳処理手段35aは、翻訳情報蓄積部32に記憶されているスポーツという分野情報を参照し、表3の訳語列に示すように、スポーツの分野情報の訳語が付与する。従って、翻訳部30の翻訳処理手段35aは、分割訳文Y−0として「岡島秀樹はメジャーリーグで活躍する有名なリリーフ投手です。」を生成する。
【0037】
ここで、分割原文A−1である、「He did not make any error at all in this game.」を翻訳部30の翻訳処理手段35bにて辞書部34の情報を用いて、形態素解析や構文解析を行い訳語を付与することになる。この場合、表4に示すように、この分割原文A−1の見出し語Tmの中には、表6に示す辞書部34の語彙部34aにおいて、分野情報が特定できるものがないため、翻訳部30の翻訳処理手段35bは、訳語を選択する際に分野情報として一般のものを優先して訳出することになる。従って、分割訳文T−2は、表4の右欄に示すように生成される。その結果、結合前の訳文としては、「彼は、このゲームでまったく間違いをしませんでした。」となる。なお、訳文生成時に、複数の分野情報が付与されている「error」、「game」は語彙情報蓄積部33に蓄積される。
【0038】
また、同様に翻訳部30の翻訳処理手段35cにて分割原文A−2を処理するが、訳部30の翻訳処理手段35cは、分割原文A−2を分割原文A−0、A−1と同様に処理する。その結果、表5に示すように訳文生成され、「average」が語彙情報蓄積部33に蓄積される。「game」については、既に語彙情報蓄積部33に蓄積されているため、蓄積してもよいし蓄積しなくてもよい。
【0039】
このように、分割原文A−0を翻訳したときは、見出し語「reliever」は分野情報を有するが分野情報を特定できなかった語彙として語彙情報蓄積部33に蓄積される。同様に、分割原文A−1を翻訳したときは、「error」、「game」が語彙情報蓄積部33に蓄積され、分割原文A−2を翻訳したときは、「average」が語彙情報蓄積部33に蓄積される。表7は、この場合の語彙情報蓄積部33に蓄積された語彙情報を表している。
【表7】

【0040】
次に、制御部26は、分割したすべての分割原文A−nの翻訳が完了した段階で、訳文結合部31へ分割原文A−nの翻訳結果を渡す。訳文結合部31は、原文分割部29で分割された順番で訳文を結合させるべく、訳文インデックスnをn=0とする(S22)。これにより、訳文インデックスnは初期化される。
【0041】
訳文結合部31は、分割原文A−n及び分割訳文Y−nに語彙情報蓄積部33に蓄積されている語が含まれるかどうかを判定する(S23)。含まれている場合は、この含まれていた第一言語の見出し語をBとすると、語彙情報蓄積部33を参照し、見出し語Bに翻訳情報蓄積部32に記憶している分野情報に一致する訳語が存在するかどうかを判定する(S24)。存在する場合は、分割訳文Y−n中の訳語を置き換える(S25)。具体的には、分割訳文Y−n中の見出し語Bに一致する訳語を語彙情報蓄積部33中の当該分野情報が付与された訳語と置き換える(S25)。これを分割原文A−nと訳文Y−nの全構成要素に対して行い、最終的に分割訳文Y−n内の訳語の再置き換えを終える。
【0042】
その後、処理された分割訳文Y−nを訳文Yに結合する(S26)。すべての分割訳文Y−nを処理するため、訳文インデックスnに1を加算(n=n+1)し(S27)、分割訳文Y−nが存在するかどうかを判定し(S28)、分割訳文Y−nが存在するときはステップS23に戻り、分割訳文Y−nが存在しないときは訳文Yを出力する(S29)。これにより、エンドユーザに対し訳文Yを出力し処理を終了する。
【0043】
例えば、訳文インデックスnがn=0の場合、訳文結合部31は、分割原文A−0及び訳文Y−0に、語彙情報蓄積部33に蓄積されている語が含まれるかどうかを判定する(S23)。この場合、語彙情報蓄積部33には、「reliever」が含まれているので、訳文結合部31は、この第一言語の見出し語「reliever」の分野情報を参照し、翻訳情報蓄積部32に記憶している分野情報を参照し、「reliever」の分野情報の中に翻訳情報蓄積部32に記憶している分野情報(スポーツ)があるかどうかを判定する。つまり、訳文結合部31は、見出し語「reliever」に翻訳情報蓄積部32に記憶している分野情報(スポーツ)に対応する訳語が存在するかどうかを判定する(S24)。
【0044】
見出し語「reliever」に翻訳情報蓄積部32に記憶している分野情報(スポーツ)に一致する訳語が存在するので、訳文結合部31は、分割訳文Y−0中の見出し語「reliever」の訳語を置き換える。具体的には、分割訳文Y−0中の見出し語「reliever」に対応する訳語を語彙情報蓄積部33中の当該分野情報が付与された訳語と置き換える(S25)。これを分割原文A−n(0〜3)と訳文Y−n(0〜3)との全構成要素に対して行い、最終的に分割訳文Y−0〜Y−3内の訳語の再置き換えを終える。
【0045】
この過程で、例えば、分割原文A−1の場合は、分割訳文Y−1が「彼は、このゲームでまったく間違いをしませんでした。」となっているため、訳文結合部31は、この分割訳文Y−1中に、語彙情報蓄積部33のデータと一致するものがあるかどうかをそれぞれ比較する。その結果、表7の「ゲーム」、「間違い」が一致する。「ゲーム」を訳語とする見出し語は「game」であり、この「game」という見出し語には、分野情報「スポーツ」の訳語として「試合」が登録されている。また、「間違い」については、「error」が見出し語であり、分野情報「スポーツ」の訳語として「エラー」が登録されている。そこで、訳文結合部31は、分割原文A−1を「彼は、この試合でまったくエラーをしませんでした。」という訳文を置き換えて、訳語Yに結合する。
【0046】
分割訳文A−2の場合も同様に、結合先の分野情報と同じ訳語を置き換え、「また、チーム全体の平均が高く、ゲームに勝ちました。」を「また、チーム全体の打率が高く、試合に勝ちました。」と訳文を置き換えて結合する。これら分割原文A−0〜A−2までを結合すると、「岡島秀樹はメジャーリーグで活躍する有名なリリーフ投手です。彼は、この試合でまったくエラーをしませんでした。また、チーム全体の打率が高く、試合に勝ちました。」という翻訳結果になり、通常、原文分割部29を持たない機械翻訳システムと同等の翻訳結果を得ることができる。
【0047】
以上の説明では、第一言語と第二言語との情報を対で語彙情報蓄積部33に蓄積するようにしたが、語彙情報蓄積部33のような独立した蓄積部を設けなくてもよい。例えば、第二言語へ変換した後の第二言語のデータ構造中に、複数の訳語候補を格納するようにし、分割訳文Y−nの結合時に複数の訳語候補の中から適した訳語を選択するようにしてもよい。
【0048】
図4は語彙情報蓄積部33を設けない場合の機械翻訳システムの動作を示すフローチャートである。図3と同一ステップには同一符号を付し重複する説明は省略する。図4において、図3のステップS23に代えて、分割訳文Y−nの中に複数の訳語候補のある語句が存在するかどうかを判定し(S23’)、存在する場合は、図3のステップS24に代えて、翻訳情報蓄積部32に記憶している分野情報に一致する訳語が存在するかどうかを判定する(S24’)。そして、ステップS24’の判定で、翻訳情報蓄積部32に記憶している分野情報に一致する訳語が存在する場合は、図3の場合と同様に、分割訳文Y−n中の訳語を置き換える(S25)。これにより、語彙情報蓄積部33のような独立した蓄積部を設けなくても、図3と同様な処理を行える。
【0049】
また、語彙情報蓄積部33には、翻訳部30で一つに特定できなかった複数の分野情報を持つ語の語彙情報として、表7に示すように、見出し語、分野情報、訳語情報を蓄積するようにしたが、表8に示すように、これらに追加して、見出し語を抽出した抽出元情報(抽出元原文または抽出元訳文のいずれか一又は双方)を蓄積するようにしてもよい。
【表8】

【0050】
図5は、語彙情報蓄積部33に見出し語を抽出した抽出元情報を追加して蓄積した場合の機械翻訳システムの動作を示すフローチャートである。図3と同一ステップには同一符号を付し重複する説明は省略する。図5において、図3のステップS23に代えて、語彙情報蓄積部33の抽出元情報は分割訳文Y−nまたは分割原文A−nと一致するかどうかを判定する(S23”)。
【0051】
すなわち、分割訳文Y−nの中に翻訳部30で一つに特定できなかった分野情報を含む語が存在するかどうかを検索するにあたり、当該分割訳文Y−nまたは当該分割原文A−nと語彙情報蓄積部33の抽出元情報とを比較し、当該分割訳文Y−n(分割原文A−n)と抽出元情報とが一致する見出し語を検索する。
【0052】
そして、抽出元情報と一致する場合には、図3の場合と同様に、見出し語に翻訳情報蓄積部32に記憶している分野情報に一致する訳語が存在するかどうかを判定し(S24)、翻訳情報蓄積部32に記憶している分野情報に一致する訳語が存在する場合は、分割訳文Y−n中の訳語を置き換える(S25)。
【0053】
このように、図3のステップS23を語彙情報蓄積部33の抽出元情報は分割訳文Y−nまたは分割原文A−nに一致するかどうかの判定に変更したものである。この判定処理によって、訳文結合部31は語彙情報蓄積部33のデータをすべて照合する必要がなく、分割訳文Y−n(分割原文A−n)が抽出元情報に一致するデータのみを照合すればよくなり、訳語の置き換え処理の高速化を行うことができる。
【0054】
また、語彙情報蓄積部33の抽出元情報に加え、見出し語の抽出元に対応する分割訳文Y−nの語彙の位置情報も蓄積することで訳語の検索を高速化できる。すなわち、訳語を分野情報にあったものに置き換える際に、いち早く置き換える場所を特定することも可能であるので、高速化が可能となる。
【0055】
ここで、訳文結合部31は、分割原文A−0、A−1、A−2をそれぞれ翻訳した分割訳文Y−0、Y−1、Y−2を翻訳情報蓄積部32の情報を元に、語彙情報蓄積部33の情報を用いて訳語を置き換えていくが、原文によっては、分野情報が一つになることにより、品詞の解釈が異なる場合が発生する。そのため、ただ単に訳語を置き換える処理では、適切な訳文構造にすることができなくなり再度翻訳を行う必要がある。
【0056】
そこで、語彙情報蓄積部33に、翻訳部30で一つに特定できなかった複数の分野情報を持つ語の語彙情報に分野情報ごとの品詞情報を追加して蓄積し、訳文結合部31は、翻訳情報蓄積部32に蓄積された分野情報に一致するように訳語の置き換えを行う際に、分野情報が一致する分割訳文Y−n中の訳語の品詞と、語彙情報蓄積部33に蓄積された語の品詞とが一致する場合は分割訳文Y−nの訳語を置き換え、品詞が一致しない場合には翻訳情報蓄積部32の分野情報を用いて分割原文を再度翻訳し分割訳文を再生成するようにする。
【0057】
図6は、語彙情報蓄積部33に品詞情報を備えた場合の図3のステップS25の訳語の置き換え処理の詳細内容を示すフローチャートである。分野情報が一致する分割訳文Y−n中の訳語の品詞と、語彙情報蓄積部33に蓄積された語の品詞とが一致するかどうかを判定し(S25a)、品詞が一致する場合には、分割訳文Y−nの訳語を置き換える。すなわち、分割訳文Y−nの訳語を語彙情報蓄積部33に蓄積された語に訳語に置き換える(S25b)。これにより、分野情報の一致した訳文が得られる。一方、品詞が一致しない場合には、翻訳情報蓄積部32の分野情報を用いて分割原文A−nを再度翻訳し分割訳文Y−nを再生成する(S25c)。これにより、品詞情報の解釈が異なる場合にも対応できる。
【0058】
例えば、通常の英語原文では動詞としての用法しかない語であっても、特定の分野では名詞として用いられる語について、原文全体から得られる分野情報を使って解釈し直すことができるので、翻訳精度向上につながる。また、分野による使用法の違いはない語であっても、多品詞語の場合、文によっては正しい品詞が適切に判定できない場合がある。例えば、タイトル文では限られた単語数で簡潔な表現が用いられており、解釈が曖昧になることが多い。しかし、原文全体の中で他に同じ語が用いられている文があり、かつ、その文の構成から特定の品詞として解釈することが正しいと判定できる場合がある。このような他の文の解析結果で確定された品詞情報を他の文の翻訳に生かすことができる。
【0059】
さらに、品詞情報だけでなく、係り受けの情報や、複数の訳語候補を含む語に対して曖昧性が解消された翻訳情報等の個々の語の意味の解析結果についても同様であり、原文全体でこのような情報を共有でき、訳文中の解釈、訳語の統一を図り精度を向上することができる。
【0060】
分割訳文を結合する際に、例えば、「bank」が「銀行」と「土手」という訳語を持っている場合に、分割箇所によって、「銀行」と訳出されたり、「土手」と訳出されたりする場合がある。この場合、共起情報を用いて「お金」や「金額」に対しては、「bank」の曖昧性が解消した「銀行」と訳出された情報を翻訳情報蓄積部32に蓄積する。訳文結合部31は翻訳情報蓄積部32に蓄積されたこの翻訳情報を用いて、他の訳語を合わせ訳語の統一を図ることができる。
【図面の簡単な説明】
【0061】
【図1】本発明の実施の形態に係る機械翻訳システムのハードウエア構成を示すブロック構成図。
【図2】本発明の実施の形態に係わる機械翻訳システムの機能ブロック図。
【図3】本発明の実施の形態に係わる機械翻訳システムの動作の一例を示すフローチャート。
【図4】本発明の実施の形態に係わる機械翻訳システムの動作の他の一例を示すフローチャート。
【図5】本発明の実施の形態に係わる機械翻訳システムの動作の別の他の一例を示すフローチャート。
【図6】図3のステップS25の訳語の置き換え処理の詳細内容の一例を示すフローチャート。
【符号の説明】
【0062】
11…機械翻訳システム、12…演算制御装置、13…プロセッサ、14…メモリ、15…プログラム、16…作業エリア、17…出力装置、18…表示装置、19…通信制御装置、20…入力装置、21…マウス、22…キーボード、23…ディスクドライブ、24…ハードディスクドライブ、25…記憶装置、26…制御部、27…入力部、28…出力部、29…原文分割部、30…翻訳部、31…訳文結合部、32…訳文情報蓄積部、33…語彙情報蓄積部、34…辞書部、35…翻訳処理手段

【特許請求の範囲】
【請求項1】
機械翻訳プログラム、翻訳に必要な語彙・規則を蓄積した辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文をデータとして入力する入力装置と、翻訳後の第二言語の訳文を出力する出力装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳システムにおいて、前記入力装置から入力された第一言語の原文を前記辞書部に予め定められた規則に基づいて特定の単位で分割し分割原文を得る原文分割部と、前記辞書部の情報を使って前記原文分割部で得られた複数の分割原文を並列して翻訳する翻訳部と、前記記憶装置内に形成され前記翻訳部による原文翻訳の過程での訳語決定の際に判断される前記辞書部の語彙部に格納された翻訳情報のうち前記翻訳部で一つに特定できた翻訳情報を蓄積する翻訳情報蓄積部と、前記翻訳部で翻訳された分割原文の分割訳文を結合する際に前記分割訳文の中に前記翻訳部で一つに特定できなかった翻訳情報がある場合には前記翻訳部で一つに特定できなかった翻訳情報と前記翻訳情報蓄積部に蓄積された翻訳情報とが一致するように翻訳結果の訳語の置き換えを行い前記翻訳部で翻訳された分割訳文を結合して訳文を得る訳文結合部とを備えたことを特徴とする機械翻訳システム。
【請求項2】
前記翻訳情報は前記翻訳部の語彙集に記憶された第一言語の見出し語の分野情報であり、前記翻訳部による原文翻訳の過程での訳語決定の際に判断される見出し語の分野情報が前記翻訳部で一つに特定できなかった複数の分野情報を持つ語の見出し語、分野情報及び訳語情報を語彙情報として蓄積する語彙情報蓄積部を前記記憶装置内に形成し、前記翻訳情報蓄積部には前記翻訳部による原文翻訳の過程での訳語決定の際に一つに特定できた見出し語の分野情報を蓄積し、前記訳文結合部は、前記翻訳部で翻訳された分割訳文を結合する際に、前記分割訳文の中に前記翻訳部で一つに特定できなかった分野情報を含む語が存在するかどうかを前記語彙情報蓄積部を参照して検索し、前記翻訳部で一つに特定できなかった分野情報を含む語が前記分割訳文の中に存在する場合には、前記翻訳情報蓄積部に蓄積された分野情報に一致するように訳語の置き換えを行い前記翻訳部で翻訳された分割訳文を結合することを特徴とする請求項1記載の機械翻訳システム。
【請求項3】
前記語彙情報蓄積部は、前記翻訳部で一つに特定できなかった複数の分野情報を持つ語の語彙情報にその見出し語を抽出した分割原文またはその分割訳文を抽出元情報として追加して蓄積し、前記訳文結合部は、前記語彙情報蓄積部を参照して前記分割訳文の中に前記翻訳部で一つに特定できなかった分野情報を含む語が存在するかどうかを検索する際に、前記語彙情報蓄積部の抽出元情報を参照し前記分割訳文またはその分割原文が抽出元となっている見出し語の訳語のみを検索し、前記翻訳情報蓄積部に蓄積された分野情報に一致するように訳語の置き換えを行い、前記翻訳部で翻訳された分割訳文を結合することを特徴とする請求項2記載の機械翻訳システム。
【請求項4】
前記語彙情報蓄積部は、前記翻訳部で一つに特定できなかった複数の分野情報を持つ語の語彙情報に分野情報ごとの品詞情報を追加して蓄積し、前記訳文結合部は、前記翻訳情報蓄積部に蓄積された分野情報に一致するように訳語の訳語の置き換えを行う際に、分野情報が一致する分割訳文中の訳語の品詞と前記語彙情報蓄積部に蓄積された語の品詞とが一致するか否かを判定し、品詞が一致する場合は分割訳文の訳語を置き換え、品詞が一致しない場合には前記翻訳情報蓄積部の分野情報を用いて分割原文を再度翻訳し分割訳文を再生成することを特徴とする請求項3記載の機械翻訳システム。
【請求項5】
機械翻訳プログラム、翻訳に必要な語彙・規則を蓄積した辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文をデータとして入力する入力装置と、翻訳後の第二言語の訳文を出力する出力装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えたコンピュータに用いられる機械翻訳プログラムにおいて、前記コンピュータに、前記入力装置から入力された第一言語の原文を前記辞書部に予め定められた規則に基づいて特定の単位で分割し分割原文を得る手順と、前記辞書部の情報を使って前記原文分割部で得られた複数の分割原文を並列して翻訳する手順と、前記翻訳の手順による原文翻訳の過程での訳語決定の際に判断される前記辞書部の語彙部に格納された翻訳情報のうち前記翻訳の手順で一つに特定できた翻訳情報を前記記憶装置に蓄積する手順と、前記翻訳の手順で翻訳された分割原文の分割訳文を結合する際に前記分割訳文の中に前記翻訳の手順で一つに特定できなかった翻訳情報がある場合には前記翻訳の手順で一つに特定できなかった翻訳情報と前記翻訳の手順で一つに特定できた翻訳情報が一致するように翻訳結果の訳語の置き換えを行い前記翻訳の手順で翻訳された分割訳文を結合して訳文を得る手順とを実行させるための機械翻訳プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2010−86143(P2010−86143A)
【公開日】平成22年4月15日(2010.4.15)
【国際特許分類】
【出願番号】特願2008−252359(P2008−252359)
【出願日】平成20年9月30日(2008.9.30)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】