説明

対訳情報作成装置、機械翻訳装置及びプログラム

【課題】対訳データベースを用いて翻訳する場合に対訳ペアの使用される状況が翻訳対象文とそぐわない翻訳を回避することである。
【解決手段】文分割部24は、入力処理部23を介して記憶装置22に記憶された対訳文書のデータの第一言語の原文文書及び第二言語の訳文文書についてそれぞれ文単位に分割し、文対応付け部27は、文単位に分割された原文と訳文とを対応付けて対訳ペアとし、その対訳ペアに対して、原文・訳文対応関係解析部28は原文と訳文とを構成する語の対応関係を解析し、訳文中付加情報検出部29は対訳ペアにおいて訳文中に存在し原文中に存在しない付加情報の有無を検出し、置き換え訳文生成部30は、この付加情報の存在が検出された訳文の該当部分を対応する原文に忠実な訳語で置き換えた追加訳文を生成し対訳ペアとして対訳データベースに記憶する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、第一言語の原文と第二言語の訳文とを対とした対訳ペアを対訳データベースとして作成する対訳情報作成装置、機械翻訳装置及びプログラムに関する。
【背景技術】
【0002】
国際化の進行に伴い、外国語を用いた迅速な情報交換へのニーズが高まっており、機械翻訳は、かかる情報交換のツールとして大いに期待されている。現在の機械翻訳技術による翻訳結果は、人手による手直しが全く不要なレベルにあるとはいえず、翻訳精度の更なる向上が求められている。そこで、新たに翻訳を行う際に、過去に人手により作成された翻訳文を参考にして訳文を作成する翻訳支援装置が提案され翻訳精度の向上を図るようにしている(例えば、特許文献1参照)。
【0003】
かかる翻訳支援装置においては、原文と、過去に翻訳済みの当該原文の訳文とをユーザが文単位で対応付けし(以下、対訳ペアと呼ぶ)、あらかじめデータベース(以下、対訳データベースと呼ぶ)に保存しておく。そして、新たに翻訳を行う際に対訳データベースを検索し、翻訳対象文と類似した原文が存在すれば、機械翻訳により訳文を生成する代わりに当該対訳メモリ中の訳文を「下訳」として採用する。「下訳」は必要に応じて修正を行い、訳文として完成させる。翻訳対象文と100%一致した原文が存在すれば、対応する訳文の修正を行わず、そのまま完成した訳文として使用することもできる。
【0004】
このように、機械翻訳を用いて翻訳を行う際に、人手により過去に作成された訳文を検索・参照する技術を併用することにより、機械翻訳による翻訳結果だけを利用する場合に比べて、訳文の手直しに要する労力と時間とを軽減することができる。
【0005】
さらに、従来の翻訳支援装置の中では、対訳ペアに対して、対訳ペアの表現が使用される「状況を説明する情報」を付与し、対訳ペアの文意を検索結果に反映させる方法が提案されている(例えば、特許文献2参照)。この「状況を説明する情報」には、文、画像、音声などが用いられ、例えば「電車はどのくらいかかるか」という原文と「How long will the train take」という訳文の対訳ペアに対しては、「どのくらい時間がかかるか」という状況説明文が対応付けられ、同原文と「How much will the train cost」という訳文の対訳ペアに対しては、「どのくらいお金がかかるか」という状況説明文が対応付けられている。対訳メモリの検索結果に、このような状況説明文も表示され、翻訳対象文の文脈に即した訳文をユーザが選択することができる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平10−63669号公報
【特許文献2】特開2000−242642号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、従来のものでは、対訳データベースに保存された原文が翻訳対象文と100%一致しているにも関わらず、その訳文が翻訳対象文の文脈にそぐわず、訳文としてそのまま使用すると誤訳になる場合がある。すなわち、原文の文字列は同じでも、文脈によってその意味する内容や指し示す対象が異なる場合があるため、このような問題が起こり得る。例えば、上述した特許文献2で示された例の「電車はどのくらいかかるか」という原文には、「かかる」の主語が省略されているが、その訳文には”How long”、”cost”というように、省略された内容(前者の場合は時間、後者の場合は運賃)が補われて明示的に訳出されている。
【0008】
また、次の例は、原文には省略や前後関係に依存する語が含まれており、訳文には原文に書かれていない内容が補われている対訳ペアの例であり、その対訳ペアを用いて翻訳した例を示している。すなわち、原文2の原文中には、前の文(原文1)の語(the International Olympic Committee)の一部を指している語(committee )があり、訳文2においてはその語(committee )の指す内容が補われて「IOC」として訳出されている対訳ペアである場合を示している。
【0009】
(対訳データベースに登録されたデータ)
原文1:Seventeen members of the International Olympic Committee are scheduled to tour 29 sports and other facilities ….
訳文1:国際オリンピック委員会の委員17名は、29の運動施設他の視察を予定しており、…
原文2:In addition, the committee will visit the beach near Kansai International Airport,
訳文2:さらに、IOCは関西国際空港近辺の海岸地域を訪問する予定で、…
そして、このような対訳ペアを有した対訳データベースを用いて、次の翻訳対象文を翻訳した場合には、望ましい翻訳文に対して、対訳ペアが適用された不適切な訳文が得られることになる。
【0010】
(翻訳対象文)
Construction Work Disputes Committee are scheduled to inspect 29 sports facilities …. In addition, the committee will visit the beach near Kansai International Airport,
(望ましい翻訳文)
国土交通省は、29の運動施設他の視察を予定しており、…。さらに、同省は関西国際空港近辺の海岸地域を訪問する予定で、
(対訳ペアの訳文2が適用された訳文:不適切)
国土交通省は、29の運動施設他の視察を予定しており、…。さらに、IOCは関西国際空港近辺の海岸地域を訪問する予定で、…
このように、省略や前後関係に依存する語が原文に含まれており、原文に書かれていない内容が補われて訳出されている対訳ペアの場合、その対訳ペアが作られた文脈と異なる文脈の翻訳対象文に訳文を適用すると、不適切な結果となることがある。
【0011】
特許文献2のもので想定されているように、対訳データベースの検索結果をユーザが逐一確認し、検索結果を取捨選択することができる状況であれば、このような問題は発生しない。
【0012】
しかしながら、翻訳結果が即時的に必要な場合、翻訳に費用をあまり割けない場合など機械翻訳装置による翻訳結果を手直しせずに使用したい状況も多々ある。また、機械翻訳装置による翻訳結果を人手で確認・修正する場合においても、翻訳対象文と100%一致している対訳ペアの訳文は、人手による確認の優先順位が他の訳文より通常低く設定される。このような状況において、翻訳対象文と100%一致している対訳ペアのうち、そのまま使用して問題ないものとそうでないものの区別が付いていないのは問題である。
【0013】
特許文献2のものにて開示されている対訳データベースには、対訳ペアに「状況を説明する情報」が付与されているため、翻訳対象文の文脈に即した対訳ペアを優先的に検索結果とすることが技術的には可能と考えられる。しかしながら、翻訳対象文と100%一致している対訳ペアが一つしか存在しない場合には、その対訳ペアの使用される状況が翻訳対象文とそぐわなくとも、検索結果として選択されてしまう。
【0014】
本発明の目的は、翻訳対象文と対訳ペアの原文が一致していても、翻訳対象文の文脈によっては不適切になる可能性のある対訳ペアの訳文を検出し、原文を辞書部を参照して翻訳した際に得られる訳文を生成して原文に対応付けて対訳データベースに格納することができる対訳情報作成装置、機械翻訳装置及びプログラムを提供することである。
【課題を解決するための手段】
【0015】
本発明の対訳情報作成装置は、対訳データベース作成プログラム、対訳データベース、辞書部を記憶する記憶装置と、第一言語の原文文書と第二言語の訳文文書とからなる対訳文書のデータを入力する入力装置と、前記対訳データベース作成プログラムを演算実行する演算制御装置とを備えた対訳情報作成装置において、前記入力装置から入力された前記対訳文書のデータを入力処理して前記記憶装置に記憶する入力処理部と、前記記憶装置に記憶された前記対訳文書のデータの第一言語の原文文書及び第二言語の訳文文書についてそれぞれ文単位に分割し前記記憶装置に記憶する文分割部と、前記文分割部により文単位に分割された原文及び訳文に対して前記辞書部を参照して文の解析または翻訳を行う文解析・翻訳部と、前記文解析・翻訳部で得られた解析・翻訳結果を基に前記文分割部にて文単位に分割された原文と前記文分割部にて文単位に分割された訳文とを対応付けた対訳ペアを対訳情報として前記対訳データベースに記憶する文対応付け部と、前記文対応付け部により対応付けられた対訳ペアに対して原文と訳文とを構成する語の対応関係を解析する原文・訳文対応関係解析部と、前記原文・訳文対応関係解析部にて解析された結果に基づいて対訳ペアにおいて訳文中に存在し原文中に存在しない付加情報の有無を検出する訳文中付加情報検出部と、前記訳文中付加情報検出部により前記付加情報の存在が検出された訳文の前記付加情報部分の語句を対応する原文を前記辞書部を参照して翻訳した際に得られる訳語で置き換えた追加訳文を生成し対訳情報として前記対訳データベースに記憶する置き換え訳文生成部とを備えたことを特徴とする。
【発明の効果】
【0016】
本発明によれば、翻訳対象文と対訳ペアの原文が一致していても、翻訳対象文の文脈によっては不適切になる可能性のある対訳ペアの訳文を検出し、原文を辞書部を参照して翻訳した際に得られる訳文を生成して原文に対応付けて対訳データベースに格納することができる。
【図面の簡単な説明】
【0017】
【図1】本発明の実施の形態に係わる対訳情報作成装置の機能ブロック図。
【図2】本発明の実施の形態に係わる対訳情報作成装置のハードウエア構成を示すブロック構成図。
【図3】本発明の実施の形態に係わる対訳情報作成装置の処理のうち対訳文書のデータを入力から対訳ペアの原文と訳文との対応付けを行うまでの処理を示したフローチャート。
【図4】本発明の実施の形態に係わる対訳情報作成装置の処理のうち1文単位で対応付けられた原文と訳文との対(対訳ペア)に対してそれぞれを構成する語どうしの対応関係を解析する処理から原文を辞書部を参照して翻訳した際に得られる訳語で置き換えた追加訳文を生成し対訳ペアとして対訳データベースに記憶するまでの処理を示したフローチャート。
【図5】本発明の実施の形態に係わる対訳情報作成装置の処理にて原文3の例について原文解析処理で得られた結果の構文ツリー構造図。
【図6】本発明の実施の形態に係わる対訳情報作成装置の処理にて訳文3の例について訳文解析処理で得られた結果の構文ツリー構造図。
【図7】本発明の実施の形態に係わる対訳情報作成装置の処理にて原文4の例について原文解析処理で得られた結果の構文ツリー構造図。
【図8】本発明の実施の形態に係わる対訳情報作成装置の処理にて訳文4の例について訳文解析処理で得られた結果の構文ツリー構造図。
【図9】本発明の実施の形態に係わる機械翻訳装置の機能ブロック構成図。
【発明を実施するための形態】
【0018】
図1は本発明の実施の形態に係わる対訳情報作成装置の機能ブロック図、図2は本発明の実施の形態に係わる対訳情報作成装置のハードウエア構成を示すブロック構成図である。
【0019】
まず、図2を参照して、本発明の実施の形態に係わる対訳情報作成装置のハードウエア構成について説明する。図2において、対訳情報作成装置11は、例えば一般的なコンピュータに、第一言語の原文と第二言語の訳文とを対とした対訳ペアを対訳データベースとして作成する対訳データベース作成プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ18において実行されることにより実現される。
【0020】
演算制御装置12には、表示装置13、マウス14、キーボード15、ディスクドライブ16及び補助記憶装置17が接続されている。表示装置13は、演算制御装置12の演算結果等を表示する出力装置である。マウス14やキーボード15等の入力装置は、表示装置13を介して演算制御装置12に対する各種指令の入力に用いられる。
【0021】
また、キーボード15から第一言語の原文文書と第二言語の訳文文書とからなる対訳文書のデータが入力される。ディスクドライブ16は、第一言語の原文文書と第二言語の訳文文書とからなる対訳文書などのファイルを記憶媒体に入出力するものであり、第一言語の原文文書と第二言語の訳文文書とからなる対訳文書のデータを入力する入力装置としても使用される。
【0022】
補助記憶装置17は、演算制御装置12の演算結果や翻訳辞書や対訳データベース等を記憶するものであり、例えば、複数個のハードディスクドライブ(HDD)で構成される。演算制御装置12は、プロセッサ18とメモリ19とを含んで構成されている。メモリ19には、データ検索に関連するプログラム20が記憶されると共に、プロセッサ18により演算処理が実行される際に使用される作業エリア21が設けられている。
【0023】
次に、本発明の実施の形態に係わる対訳情報作成装置11の機能構成について説明する。図1に示すように、演算制御装置12内の各機能ブロックは、上述のプログラム20を構成する各プログラムに対応する。すなわち、プロセッサ18がプログラム20を構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置22は、演算制御装置12内のメモリ19及び補助記憶装置17の記憶領域に対応する。
【0024】
図1において、入力処理部23は、キーボード15などの入力装置から入力された第一言語の原文文書と第二言語の訳文文書とからなる対訳文書のデータを入力処理し記憶装置22に記憶するものである。なお、図1ではこの記憶エリアの図示を省略している。例えば、これらの原文と訳文との対訳ペアがユーザ自身によりキーボード15等から直接入力されたり、記憶媒体を介してディスクドライブ16から入力されたときに、入力処理部23は、入力された原文と訳文との対訳ペアを演算制御装置12内のメモリ19や補助記憶装置17内に入力し記憶するものである。なお、原文と訳文との対訳ペアの入力方式については、データ入力が行える入力装置を用いて適宜の入力方式の選択可能である。
【0025】
文分割部24は、入力処理部23から入力された原文文書と訳文文書とからなる対訳文書をそれぞれ文単位に分割し、メモリ19の作業エリア21に格納するものである。1文単位で分割された原文及び訳文は、後述する制御部25に受け渡され、その後、後述する文解析・翻訳部26に送られる。
【0026】
制御部25は、後述する文解析・翻訳部26、文対応付け部27、原文・訳文対応関係解析部28、訳文中付加情報検出部29、置き換え訳文生成部30、出力処理部31を制御するものである。
【0027】
文解析・翻訳部26は、入力処理部23から入力され、文分割部24によって1文単位に分割された原文または既存の訳文に対して、辞書部33を参照しながら文の解析または翻訳を行うものである。
【0028】
文対応付け部27は、文分割部24にて1文単位に分割された原文に対して、文解析・翻訳部26で得られた解析結果を基にして、同じく1文単位に分割された訳文の中から対応する訳文を選出して関連付けるものである。そして、文単位に分割された原文と文単位に分割された訳文との対訳ペアを対訳情報として記憶装置22の対訳データベース32に記憶する。
【0029】
原文・訳文対応関係解析部28は、文対応付け部27にて対応付けられた対訳ペアの原文と訳文とに対して、文解析・翻訳部26で得られた解析結果を基にして、原文及び訳文をそれぞれ構成する語句どうしの対応関係の解析を行うものである。
【0030】
訳文中付加情報検出部29は、原文・訳文対応関係解析部28にて対応付けられた原文と訳文とを構成する語句に対して、訳文において原文にはない情報が付加されている語句の対訳ペアがあればそれを検出し、その対訳ペアに対して、付加情報が検出されたことを示す識別情報を付与して、その識別情報を対訳情報として対訳データベース32に記憶する。
【0031】
置き換え訳文生成部30は、訳文中付加情報検出部29にて検出された語句の対訳ペアに対して、原文を辞書部を参照して翻訳した際に得られる訳語(以下、原文に忠実な訳語という)に置き換えた追加訳文を生成するものである。生成された追加訳文は、該当する原文と訳文との対訳ペアに関連付けて対訳情報として対訳データベース32に格納される。また、追加訳文を生成したときは、その対訳ペアに対して、追加訳文が対応付けられていることを示す識別情報を付与して対訳情報として対訳データベース32に記憶する。
【0032】
辞書部33は、入力した第一言語の原文から第二言語の訳文への翻訳に必要な語彙・規則を格納するものであり、記憶装置22内に形成されている。翻訳に必要な語彙・規則は、辞書部33の語彙部33a、形態素解析処理部33b、構文解析規則部33c、変換規則部33d、生成規則部33eに格納されている。
【0033】
出力処理部31は、文解析・翻訳部26によって生成された翻訳の結果を出力装置に出力するものである。例えば、出力装置としての表示装置13に表示出力する。出力装置31は表示装置13だけでなく、表示装置13による出力に代え、あるいは、表示装置13による出力に加えて、音声により音声出力装置に出力するようにしてもよいし、印刷装置に印刷出力するようにしてもよい。
【0034】
次に、本発明の実施の形態に係わる対訳情報作成装置11での対訳データベース作成処理について、日英翻訳及び英日翻訳を例にして説明する。なお、ここに挙げた日英翻訳や英日翻訳の例に限らず、他の言語間での翻訳、例えば中日翻訳や日中翻訳にも適用可能であることは言うまでもない。
【0035】
図3は、本発明の実施の形態に係わる対訳情報作成装置11の入力処理部23、文分割部24、文解析・翻訳部26、文対応付け部27の処理内容を示すフローチャートであり、対訳文書を入力から対訳ペアの原文と訳文との対応付けを行うまでの処理を示している。ユーザが入力装置から原文文書と訳文文書とからなる対訳文書のデータを入力すると、まず、入力処理部23は、原文文書の入力を受け付け原文文書を入力処理する(S31)。入力処理された原文文書は記憶装置22であるメモリ19または補助記憶装置17に記憶される。同様に、入力処理部23は、訳文文書の入力を受け付け訳文文書を入力処理する(S32)。入力した訳文文書も、記憶装置であるメモリ19または補助記憶装置17に記憶される。原文文書及び訳文文書が入力された後、文分割部24は、メモリ19または補助記憶装置17から原文文書及び訳文文書を読み出して、それぞれを1文単位に分割する(S33)。
【0036】
次に、文解析・翻訳部26は、辞書部33を参照して、1文単位に分割された原文解析処理を行い(S34)、訳文解析処理を行う(S35)。すなわち、文解析・翻訳部26が語彙部33a及び形態素解析規則部31bを参照して原文及び訳文それぞれの形態素解析処理を行い、構文解析規則部33cを参照して構文解析処理を行い、原文と訳文とをそれぞれ構成する各語の品詞や構文に関する情報を取得する。さらに、文解析・翻訳部26は、語彙部33a及び変換規則部33dを参照して、原文は訳文言語への変換処理を受け、訳文は原文言語への変換処理を受けて、互いの言語に変換した場合の訳語候補が取得される。ここで用いている原文解析処理及び訳文解析処理の技術は、言語解析や機械翻訳に関わる一般的な技術である。原文解析処理や訳文解析処理の具体的な内容については、後で例を用いて説明する。
【0037】
文対応付け部27は、原文と訳文との文対応付けを行う(S36)。そして、対応付けた対訳ペアを対訳情報として対訳データベース32に記憶する。すなわち、文書の段落などの構成情報、レイアウト情報、文解析・翻訳部26にて取得済みの訳語どうしの対応関係等を用いて、原文と対応する訳文の関連付けを行い、対応付けた対訳ペアを対訳情報として対訳データベース32に記憶する。文対応付けの技術は、既存の技術を用いることができる。
【0038】
図4は、本発明の実施の形態に係わる対訳情報作成装置11の制御部25、原文・訳文対応関係解析部28、訳文中付加情報検出部29、置き換え訳文生成部30の処理内容を示すフローチャートであり、1文単位で対応付けられた原文と訳文との対(対訳ペア)に対してそれぞれを構成する語どうしの対応関係を解析する処理から原文に忠実な訳語で置き換えた追加訳文を生成し対訳ペアとして対訳データベースに記憶するまでの処理を示している。
【0039】
まず、制御部25は、変数iに「1」をセットし(S41)、i番目の対訳ペアを取り出す(S42)。すなわち、i番目の対訳ペアの原文と訳文との対を取り出す。i番目の原文と訳文の対はメモリ19の作業エリア21に取り出される。
【0040】
次に、原文・訳文対応関係解析部28は、i番目の原文と訳文の対に対して、原文・訳文対応関係解析処理を行う。すなわち、原文と訳文とを構成する各語どうしの対応関係の解析を行う(S43)。解析に必要な情報は、文対応付け部27による処理を行う際に取得済みの品詞、構文、訳語に関する情報である。このステップS43以降の処理の詳細な内容は、後で例を用いて説明する。
【0041】
続いて、訳文中付加情報検出部29は、訳文中付加情報検出処理を行う(S44)。訳文中付加情報検出処理は、対応関係が解析されている原文と訳文の間で、訳文において原文にはない情報が付加されている語句があればそれを検出する処理である。訳文において原文にはない情報が付加されている語句がある対訳ペアを検出したときは、その対訳ペアに対して、付加情報が検出されたことを示す識別情報を付与して、その識別情報を対訳データベース32に記憶する。
【0042】
さらに、置き換え訳文生成部30は、置き換え訳文生成処理を行う(S45)。置き換え訳文生成処理は、訳文にて情報が付加された部分に対して、原文に忠実な訳語に置き換えた訳文を生成する処理である。そして、置き換え訳文生成部30は、生成された訳文を追加訳文として対訳データベース32に格納する(S46)。また、追加訳文を生成したときは、その対訳ペアに対して、追加訳文が対応付けられていることを示す識別情報を付与して対訳データベース32に記憶する。
【0043】
ここで、訳文中付加情報検出部29あるいは置き換え訳文生成部30で付与する識別情報は、対訳ペアの訳文は文脈によっては不適切になる可能性のある訳文であることを示すためのものであるので、付与するのはいずれか一方でもよい。
【0044】
最後に、すべての対訳ペアの原文と訳文との対に対する全処理が終了したかどうかを判定し(S47)、全ての対訳ペアの原文と訳文との対に対する処理が終了している場合は対訳データベース作成処理を終了する。全ての対訳ペアの原文と訳文との対に対する処理が終了していない場合には、変数iに「1」を加算して(i=i+1)とし(S48)、ステップS42に戻る。
【0045】
以下の日英翻訳の対訳ペアの原文3と訳文3との対の例を用いて、文対応付け部27による原文解析処理(S34)及び訳文解析処理(S35)、原文・訳文対応関係解析部28による原文・訳文対応関係解析処理(S43)、訳文中付加情報検出部29による訳文中付加情報検出処理(S44)、置き換え訳文生成部30による置き換え訳文生成処理(S45)の内容を説明する。
【0046】
原文3:電車はどのくらいかかるか。
訳文3:How long will the train take?
図5は原文3について原文解析処理(S34)で得られた結果の構文ツリー構造図であり、図6は訳文3について訳文解析処理(S35)で得られた結果の構文ツリー構造図である。
【0047】
これらの解析結果を用いて、原文・訳文対応関係解析部28は、名詞「電車」と名詞「(the) train」、副詞句「どのくらい」と副詞句「How (long)」、動詞「かかる」と動詞「(will) take」、疑問詞「か」と疑問符「?」が対応していることを求める。
【0048】
具体的には、原文・訳文対応関係解析部28は、原文を構成する各語句と、訳語を構成する各語句との間で、品詞、他の語との構文上の関係(動詞の主語、副詞句など)、及び互いの言語に翻訳した際の訳語候補の一致度を総当り的に計算し、その総和である文全体としての一致度が最大になる原文語句と訳文語句との対応を選出する。
【0049】
語句の一致度を計算する単位は、一語レベルではなく、構文を構成する骨格となる自立語を中心とし、自立語とその自立語に付随する付属語とを一塊とした語句のレベルを対象とする。また、品詞、構文上の関係の一致度の重みを、訳語候補の一致度の重みより大きく設定し、構文としての一致をより重視する。訳語候補の一致度の計算の際には、自立語の一致度の重みを大きくし、付属語の一致度の重みは小さくする。この例では、自立語は、「電車」、「どのくらい」、「かかる」、「How」、「long」、「train」、「take」であり、付属語は、「か」、「will」、「the」である。
【0050】
続いて、訳文中付加情報検出部29は、原文・訳文対応関係解析部28にて語句どうしの対応関係が解析されている原文と訳文の間で、原文にはない情報が訳文で付加されている語句のペアの検出を行う。検出の条件として、「原文中の語句に対応する訳語候補と訳文中の語句との一致度が特定の値以下になっている」が設定されている。
【0051】
図5の例では、「どのくらい」の訳語候補である「How much」と、図6の訳語中の「How long」との一致度が低く、「どのくらい」−「How long」のペアが検出される。訳文中付加情報検出部29が一致度の計算を行う際には、訳語候補と訳語を構成する各語どうしの一致度を総当り的に計算し、その総和である語句全体としての一致度が最大になる組み合わせを求める。
【0052】
ただし、上記の総和を計算する際に、各語の一致度に対して係数が設定されており、特定の語に対しては、係数の値が小さく設定されている。例えば、原文中の「電車」に対する訳語候補「train」と訳文中の訳語「the train」との間では、訳語中の冠詞「the」は、訳語候補中に相当する語が存在しないため一致度はゼロとなるが、「the」に関する一致度を総和に加算する際の係数にはゼロまたは0.1などの非常に小さい値が設定してあるため、語句全体としての一致度を大きく下げることはない。係数が小さく設定されているのは、日本語には冠詞の概念がないため、日本語中に対応する語が存在しない場合が多いという翻訳上の知識を基にしているためである。
【0053】
このような翻訳に関する知識と、係数の値に関する情報は、辞書部33の語彙部33aに格納してあり、訳文中付加情報検出部29によって参照される。また、「かかる」と「will take」の対応に関しては、訳語中の助動詞「will」は、訳語候補中に相当する語が存在しないが、この場合も小さな係数が設定されている。これには、英語の「will」は意思/推量を表す場合は日本語の「〜しよう/だろう」などの語に対応するが、構文や同時に使用される共起語との組み合わせによっては、「will」「〜しよう/だろう」がある場合とない場合とで意味がほとんど同じになる場合がある、という翻訳上の知識が基になっている。これらの知識は、構文や共起語に関する条件部と、各条件ごとの係数値として語彙部33aに格納してある。
【0054】
図5の原文3の構文ツリーの中の「文要素の省略」は、文の構成要素に省略があることを示す。すなわち、「どのくらい」が「かかる」に接続する場合、本来、「何が」という文の構成要素が必須なはずだが、日本語では、文脈で「何が」が自明な場合には、省略される場合がある。これに対して英語では、このような構文上必須な要素の省略は文法上許されないため、内容を補った訳語が使用され、訳文における付加情報が発生する。
【0055】
言語間で省略に対するこのような違いがあることを考慮して、訳文中付加情報検出部29での検出の条件として、上記に挙げた「原文中の語に対応する訳語候補と訳文中の語とが一致しない」の他に、「原文中において、文要素の省略がある」ことを追加することもできる。このような条件を追加することで、辞書に登録されている訳語候補の中に訳文中の語がたまたま存在しないが、訳語としては実は適切である「望ましくない検出結果」を減少することができる。
【0056】
文要素の省略があるかどうかの判断は、訳文中付加情報検出部29が語彙部33a及び変換規則部33dに格納された規則を参照して行う。すなわち、この例で説明すると、語彙部33aに格納された「かかる」のエントリーに、「かかる」に「どのくらい」が接続している場合には、「何が」が間接的または直接的に接続している必要がある、という規則が格納されている。訳文中付加情報検出部29が訳文を解析し、先の規則が満たされない場合には、文要素の省略があると判断する。
【0057】
最後に、置き換え訳文生成部30は、訳文中付加情報検出部29にて検出された語句のペアに対して、原文中の語に忠実な訳語で置き換えた訳文を生成する。この例でいうと、「どのくらい」に対する訳語である「How long」を「How much」で置き換えた「How much will the train take?」という追加訳文を生成する。生成された追加訳文は、該当する対訳ペアに関連付けて対訳データベース32に格納される(S46)。
【0058】
以上説明したように、本発明の実施の形態に係わる対訳情報作成装置を用いると、データベースに登録する原文と訳文との対訳ペア中に、原文には存在しない付加情報が訳文にて付加されている語句を含む対訳ペアがあればそれを検出し、原文中の語に忠実な訳語で置き換えた訳文を生成して、検出された対訳ペアに関連付けてデータベース32に格納することができる。
【0059】
次に、以下の英日翻訳の対訳ペアの原文4と訳文4との対、及び新たに生成されて対訳データベース32に登録された追加訳文4aの例を用いて、本発明の実施の形態に係わる対訳情報作成装置の処理内容を説明する。
【0060】
(対訳データベースに登録されているデータ)
原文4:In addition, the committee will visit the beach near Kansai International Airport.
訳文4:さらに、IOCは関西国際空港近辺の海岸地域を訪問する予定である。
(新たに生成されて対訳データベースに登録されたデータ)
訳文4a:「さらに、同委員会は関西国際空港近辺の海岸地域を訪問する予定である。」
(翻訳対象文)
Construction Work Disputes Committee are scheduled to inspect 29 sports facilities …. In addition, the committee will visit the beach near Kansai International Airport,
(望ましい翻訳文)
国土交通省は、29の運動施設他の視察を予定しており、…。さらに、同省は関西国際空港近辺の海岸地域を訪問する予定で、
(訳文4が適用された訳文:不適切)
国土交通省は、29の運動施設他の視察を予定しており、…。さらに、IOCは関西国際空港近辺の海岸地域を訪問する予定で、…。
(追加訳文4aが適用された訳文:適切)
国土交通省は、29の運動施設他の視察を予定しており、…。さらに、同委員会は関西国際空港近辺の海岸地域を訪問する予定で、…。
【0061】
図7は原文4について原文解析処理(S34)で得られた結果の構文ツリー構造図であり、図8は訳文4について訳文解析処理(S35)で得られた結果の構文ツリー構造図である。
【0062】
原文・訳文対応関係解析部28は、前述の日英翻訳の例で示したものと同様な処理を行い(S43)、類似度が高い以下の組み合わせをまず対応付ける。すなわち、副詞句「(In) addition」と副詞句「さらに」、目的語の名詞「(the) beach」と目的語の名詞「海岸地域」、目的語にかかる名詞句中の名詞「near」と目的語の名詞にかかる修飾語中の名詞「近辺」、目的語にかかる名詞句中の名詞「Kansai International Airport」と目的語の名詞にかかる修飾語中の名詞「関西国際空港」とを対応付ける。
【0063】
次に、名詞「(the) committee」と名詞「IOC」とは品詞が一致していること、動詞「will visit」と動詞「訪問する」及び補助用言「予定である」とは、それぞれ品詞の一致度が高いことからまず仮の対応付けを行う。続いて、変換規則部33dを参照して、エントリ「予定」に記述された以下の規則を適用する。すなわち、英語では「未来において〜する」という動詞を使って表現する内容を、日本語では「動作を表す名詞」「予定」「である」という名詞+名詞+助動詞という組み合わせで表現する場合がある、という翻訳上の知識が規則化されたものを使用して、一致度の計算を行う。この規則を用いて計算した、動詞「will visit」と動詞「訪問する」及び補助用言「予定である」との一致度が所定の閾値を超えていることをもって、原文・訳文対応関係解析部28は、前述の仮の対応付けを確定する。
【0064】
訳文中付加情報検出部29は、前述の日英翻訳の例で示したものと同様な処理を行い(S44)、「IOC」が、原文になく、訳文中で付加されている情報であるとして、「the committee」−「IOC」の対を検出する。すなわち、原文の「the committee」に対応する訳語候補である「委員会、委員」のいずれとも一致しない「IOC」が、原文にない情報と判断される。なお、このような付加情報の付加が行われたのは、この原文が含まれていた原文文書において「the committee」が指していた固有名詞の略語である「IOC」が、内容を補足してより分かりやすい訳文を作成するために使用されたためと考えられる。
【0065】
このように、原文中で繰り返しを避けるために簡略化された表現に対して、意味を補った訳語が用いられている場合があることを考慮して、訳文中付加情報検出部29での検出の条件として「原文中に“the 一般名詞”が含まれる」ことを追加して、望ましくない検出結果を削減することもできる。この他の条件として、「原文中に代名詞が含まれる」ことを追加することもできる。この条件は、原文中の「our principle」という表現に対して、「当社の理念」「本校の理念」などという、「our」にはない情報が付加された訳が付けられた対訳ペアを想定している。
【0066】
置き換え訳文生成部30は、「the committee」に対する訳語を「IOC」を「同委員会」で置き換えた「さらに、同委員会は関西国際空港近辺の海岸地域を訪問する予定である。」という追加訳文4aを生成し(S45)、該当する原文と訳文に関連付けて対訳データベース32に格納する(S46)。
【0067】
本発明の実施の形態に係わる対訳情報作成装置によれば、対訳ペアの原文が翻訳対象文と100%一致していても、対訳ペアの訳文をそのまま翻訳結果とすると問題を起こしうる対訳ペアを検出し、より原文に忠実な訳文に変換した追加訳文を作成し、対訳データベース32に記憶するので、対訳データベース32を用いて翻訳する場合に、対訳ペアの使用される状況が翻訳対象文とそぐわない翻訳を回避できる。
【0068】
また、対訳ペアの訳文をそのまま翻訳結果とすると問題を起こしうる対訳ペアとして、対訳ペアの原文中で語の省略がある場合、冠詞付の一般名詞や代名詞がその原文に含まれない語の訳語と対応している場合とするので、対訳ペアの訳文をそのまま翻訳結果とすると問題を起こしうる対訳ペアの検出が容易に行える。
【0069】
また、訳文中付加情報検出部29あるいは置き換え訳文生成部30で識別情報を付与するので、文脈によっては不適切になる可能性のある訳文であることを識別情報によって識別することができる。これにより、原文に忠実な追加訳文を容易に検索できる。
【0070】
次に、本発明の実施の形態に係わる機械翻訳装置について説明する。本発明の実施の形態に係わる機械翻訳装置のハードウエア構成は、図1に示した対訳情報作成装置と同一であるので、その説明は省略する。図9は本発明の実施の形態に係わる機械翻訳装置の機能ブロック構成図である。
【0071】
図9において、記憶装置22の辞書部33は、入力した第一言語の原文から第二言語の訳文への翻訳に必要な語彙・規則を格納するものであり、記憶装置22内に形成されている。翻訳に必要な語彙・規則は、辞書部33の語彙部33a、形態素解析処理部33b、構文解析規則部33c、変換規則部33d、生成規則部33eに格納されている。
【0072】
また、対訳データベース32は、原文と訳文とを対にした対訳ペアを記憶するものであり、追加訳文を有する対訳ペアも併せて記憶する。また、訳文において原文にはない情報が付加されている語句の対訳ペアであることを示す識別情報や、追加訳文を有する対訳ペアであることを示す識別情報が記憶される。
【0073】
演算制御装置12の入力処理部23は、キーボード15などの入力装置から入力された翻訳対象の第一言語の原文文書を入力処理し記憶装置22に記憶するものである。なお、図1ではその記憶エリアの図示を省略している。
【0074】
制御部25は、全体の処理動作を制御するものであり、入力処理部23、出力処理部31、翻訳部34、対訳データベース検索部35を制御する。
【0075】
対訳データベース検索部35は、記憶装置22に記憶された翻訳対象の原文を取り出し、対訳データベース32から翻訳対象の原文と訳文とが対となった対訳ペアを検索する。そして、検索した対訳ペアが追加訳文を有するときは、その追加訳文を第1の訳文候補として提示するものである。
【0076】
翻訳部34は、記憶装置22に記憶された翻訳対象の第一言語の原文文書を辞書部33を参照して第二言語に翻訳するものである。なお、対訳データベース検索部35で検索された対訳ペアの訳文が翻訳として採用されるときは、翻訳部34は、その対訳データベース検索部35で検索された対訳ペアの訳文に対応する原文の翻訳は省略する。この場合には、翻訳部34は、記憶装置22に記憶された原文のうち、対訳データベース検索部35で訳文が検索されなかった原文を翻訳することになる。
【0077】
出力処理部31は、対訳データベース検索部35で検索された訳文及び翻訳部34で翻訳された訳文を出力装置、例えば表示装置に出力処理するものである。
【0078】
ここで、対訳データベース32を有した機械翻訳装置によって、前述の翻訳対象文例の「Construction Work Disputes Committee are scheduled to inspect 29 sports facilities …. In addition, the committee will visit the beach near Kansai International Airport,」の第2文「In addition, the committee will visit the beach near Kansai International Airport,」を翻訳する場合、対訳データベース検索部35は、翻訳対象文をキーとして対訳データベース32の検索を行う。
【0079】
その結果、対訳データベース検索部35は、原文4が100%一致した対訳ペアを検出する。対訳データベース検索部35は、検出された対訳ペアに、生成された追加訳文(訳文4a)が存在する場合には、生成された追加訳文(訳文4a)を第1候補として出力処理部31を介して表示装置に表示出力する。
【0080】
同時に、対訳データベース検索部35は、表示された訳文が生成されたものであることを示す識別情報も表示する。このような識別情報が表示されていると、ユーザが翻訳結果を編集する場合に、優先的にチェックすべき箇所として容易に認識することができる。
【0081】
以上説明したように、本発明の実施の形態に係わる機械翻訳装置によれば、別途作成済みの対訳データベース32の対訳ペアの中に、翻訳対象文と原文とが100%一致しているものがあっても、翻訳対象文の文脈によっては不適切になる可能性のある訳文が含まれている場合、その旨をユーザに対して表示できる。さらに、原文に忠実な訳文に変換された追加訳文をデフォルトの訳文として提示することができる。さらに、変換された訳文を表示していることを表す識別情報を表示するので、翻訳結果を編集する場合に優先的にチェックすべき箇所の認識が容易になる。
【符号の説明】
【0082】
11…対訳情報作成装置、12…演算制御装置、13…表示装置、14…マウス、15…キーボード、16…ディスクドライブ、17…補助記憶装置、18…プロセッサ、19…メモリ、20…プログラム、21…作業エリア、22…記憶装置、23…入力処理部、24…文分割部、25…制御部、26…文解析・翻訳部、27…文対応付け部、28…原文・訳文対応関係解析部、29…訳文中付加情報検出部、30…置き換え訳文生成部、31…出力処理部、32…対訳データベース、33…辞書部、34…翻訳部、35…対訳データベース検索部

【特許請求の範囲】
【請求項1】
対訳データベース作成プログラム、対訳データベース、辞書部を記憶する記憶装置と、第一言語の原文文書と第二言語の訳文文書とからなる対訳文書のデータを入力する入力装置と、前記対訳データベース作成プログラムを演算実行する演算制御装置とを備えた対訳情報作成装置において、
前記入力装置から入力された前記対訳文書のデータを入力処理して前記記憶装置に記憶する入力処理部と、
前記記憶装置に記憶された前記対訳文書のデータの第一言語の原文文書及び第二言語の訳文文書についてそれぞれ文単位に分割し前記記憶装置に記憶する文分割部と、
前記文分割部により文単位に分割された原文及び訳文に対して前記辞書部を参照して文の解析または翻訳を行う文解析・翻訳部と、
前記文解析・翻訳部で得られた解析・翻訳結果を基に前記文分割部にて文単位に分割された原文と前記文分割部にて文単位に分割された訳文とを対応付けた対訳ペアを対訳情報として前記対訳データベースに記憶する文対応付け部と、
前記文対応付け部により対応付けられた対訳ペアに対して原文と訳文とを構成する語の対応関係を解析する原文・訳文対応関係解析部と、
前記原文・訳文対応関係解析部にて解析された結果に基づいて対訳ペアにおいて訳文中に存在し原文中に存在しない付加情報の有無を検出する訳文中付加情報検出部と、
前記訳文中付加情報検出部により前記付加情報の存在が検出された訳文の前記付加情報部分の語句を対応する原文を前記辞書部を参照して翻訳した際に得られる訳語で置き換えた追加訳文を生成し対訳情報として前記対訳データベースに記憶する置き換え訳文生成部とを備えたことを特徴とする対訳情報作成装置。
【請求項2】
前記訳文中付加情報検出部が検出対象とする対訳ペアは、前記原文・訳文対応関係解析部での原文と訳文とを構成する語の対応関係の解析結果により、訳文の必須構成要素でありながら省略されている原文中の語句、または冠詞が付いた一般名詞、または代名詞を含んでいる原文であると解析された対訳ペアであることを特徴とする請求項1に記載の対訳情報作成装置。
【請求項3】
前記訳文中付加情報検出部は、前記付加情報が検出された対訳ペアに対して、前記付加情報が検出されたことを示す識別情報を付与して前記対訳データベースに記憶することを特徴とする請求項1または2に記載の対訳情報作成装置。
【請求項4】
前記置き換え訳文生成部は、前記追加訳文を生成したときは、前記対訳ペアに対して、追加訳文が対応付けられていることを示す識別情報を付与して前記対訳データベースに記憶することを特徴とする請求項1または2に記載の対訳情報作成装置。
【請求項5】
機械翻訳プログラム、辞書部及び請求項1乃至4のいずれかの対訳情報作成装置で作成された対訳データベースを記憶する記憶装置と、翻訳対象の第一の言語の原文を入力する入力装置と、翻訳後の第二の言語の訳文を出力する出力装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置において、
前記入力装置から入力された第一の言語の原文のデータを入力処理して前記記憶装置に記憶する入力処理部と、
前記記憶装置に記憶された前記原文を取り出し前記対訳データベースから前記原文と訳文とが対となった対訳ペアを検索するとともに前記対訳ペアが請求項1の前記置き換え訳文生成部によって生成された追加訳文を有するときは前記追加訳文を第1の訳文候補として検索する対訳データベース検索部と、
前記記憶装置に記憶された前記原文のうち前記対訳データベース検索部で訳文が検索されなかった原文に対して前記辞書部を参照して訳文に翻訳する翻訳部と、
前記対訳データベース検索部で検索された訳文及び前記翻訳部で翻訳された訳文や前記追加訳文を前記出力装置に出力処理する出力処理部とを備えたことを特徴とする機械翻訳装置。
【請求項6】
前記対訳データベース検索部は、前記追加訳文を第1の訳文候補として検索した際に前記追加訳文を検索したことを示す識別情報を前記出力装置に出力することを特徴とする請求項5記載の機械翻訳装置。
【請求項7】
対訳データベース作成プログラム、対訳データベース、辞書部を記憶する記憶装置と、第一言語の原文文書と第二言語の訳文文書とからなる対訳文書のデータを入力する入力装置と、前記対訳データベース作成プログラムを演算実行する演算制御装置とを備えた対訳情報作成装置として機能させるコンピュータに用いられるプログラムにおいて、
前記コンピュータに、
前記入力装置から入力された前記対訳文書のデータを入力処理して前記記憶装置に記憶する手順と、
前記記憶装置に記憶された前記対訳文書のデータの第一言語の原文文書及び第二言語の訳文文書についてそれぞれ文単位に分割し前記記憶装置に記憶する手順と、
前記文単位に分割された原文及び訳文に対して前記辞書部を参照して文の解析または翻訳を行う手順と、
得られた文の解析・翻訳結果を基に前記文単位に分割された原文と前記文単位に分割された訳文とを対応付けた対訳ペアを対訳情報として前記対訳データベースに記憶する手順と、
前記対応付けられた対訳ペアに対してそれぞれを構成する語の対応関係を解析する手順と、
前記語の対応関係の解析結果に基づいて対訳ペアにおいて訳文中に存在し原文中に存在しない付加情報の有無を検出する手順と、
前記付加情報の存在が検出された訳文の前記付加情報部分の語句を対応する原文を前記辞書部を参照して翻訳した際に得られる訳語で置き換えた追加訳文を生成し対訳情報として前記対訳データベースに記憶する手順とを実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2010−182261(P2010−182261A)
【公開日】平成22年8月19日(2010.8.19)
【国際特許分類】
【出願番号】特願2009−27688(P2009−27688)
【出願日】平成21年2月9日(2009.2.9)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】