説明

機械翻訳装置、機械翻訳方法および機械翻訳プログラム

【課題】原言語文の多様性に対応することができる機械翻訳装置を低コストで開発することである。
【解決手段】本実施形態の機械翻訳装置は、第1言語による原言語文を第2言語による目的言語文に翻訳する機械翻訳装置であって、原言語文変換手段と翻訳手段と命題文変換手段とを備える。原言語文変換手段は、第1言語による原言語文から表現素性を抽出し、前記原言語文を、前記表現素性を含まない原言語命題文に変換する。翻訳手段は、前記原言語命題文を前記第2言語による目的言語命題文に翻訳する。命題文変換手段は、前記表現素性に基づいて、前記目的言語命題文を第2言語による目的言語文に変換する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、機械翻訳装置、機械翻訳方法および機械翻訳プログラムに関する。
【背景技術】
【0002】
近年、自然言語処理技術の進展により、第1言語で表現された原言語文を、所望する第2言語で表現された目的言語文に翻訳する機械翻訳装置が開発されている。機械翻訳装置には、互いに翻訳関係にある原言語文と目的言語文からなる対訳用例を基に翻訳するデータ駆動型、文法規則や翻訳規則などの規則を基に翻訳する規則ベース型などがある。特に、前述の2つの手法は広く実用に供されており、データ駆動型には訳出結果が自然な表現になるという利点が、規則ベース型には訳出文の一貫性が高いという利点がある。
【0003】
しかしながら、これらの手法で原言語文の多様性に対応するためには、データ駆動型では大量な対訳用例ベースが、規則ベース型では種々の規則の整備が必要になり、開発コストが高くなるという問題があった。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−328483号公報
【特許文献2】特開2009−217360号公報
【特許文献3】特開平5−35784号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
発明が解決しようとする課題は、原言語文の多様性に対応することができる機械翻訳装置を低コストで開発することである。
【課題を解決するための手段】
【0006】
本実施形態の機械翻訳装置は、第1言語による原言語文を第2言語による目的言語文に翻訳する機械翻訳装置であって、原言語文変換手段と翻訳手段と命題文変換手段とを備える。原言語文変換手段は、第1言語による原言語文から表現素性を抽出し、前記原言語文を、前記表現素性を含まない原言語命題文に変換する。翻訳手段は、前記原言語命題文を前記第2言語による目的言語命題文に翻訳する。命題文変換手段は、前記表現素性に基づいて、前記目的言語命題文を第2言語による目的言語文に変換する。
【図面の簡単な説明】
【0007】
【図1】第1の実施形態の機械翻訳装置を示すブロック図。
【図2】実施形態の機械翻訳装置のハードウェア構成を示す図。
【図3】実施形態の解析候補集合の一例を示す図。
【図4】実施形態の形態素辞書の一例を示す図。
【図5】実施形態の翻訳候補集合の一例を示す図。
【図6】実施形態の機械翻訳装置のフローチャート。
【図7】実施形態の改変表現情報の一例を示す図。
【図8】変形例の機械翻訳装置を示すブロック図。
【図9】変形例の機械翻訳装置を示すブロック図。
【発明を実施するための形態】
【0008】
以下、本発明の実施形態について図面を参照しながら説明する。
【0009】
(第1の実施形態)
第1の実施形態の機械翻訳装置は、第1言語で表現された原言語文を所望する第2言語で表現された目的言語文に翻訳する装置である。本実施形態では、第1言語を英語、第2言語を日本語とした場合について説明をするが、対象言語はこれら2言語に限られない。
【0010】
図1は、第1の実施形態にかかる機械翻訳装置100を示すブロック図である。本実施形態の機械翻訳装置は、英語で表現された原言語文を取得する取得部101と、原言語文から表現素性を抽出し、原言語文を、表現素性を含まない原言語命題文に変換する原言語文変換部102と、原言語命題文を日本語の目的言語命題文に翻訳する翻訳部103と、翻訳部103において最も翻訳スコアが高かった目的言語命題文とその表現素性の組み合わせを選択する最尤候補選択部104と、最尤候補選択部104で選択された表現素性を編集する素性編集部105と、素性編集部105で編集された表現素性に基づいて、最尤候補選択部104で選択された目的言語命題文を日本語の目的言語文に変換する命題文変換部106と、日本語の目的言語文をユーザに提示する提示部107とを備える。
【0011】
ここで、表現素性とは、原言語文における話し手の命題に対する主観的認識や発話態度を表すものであり、本実施形態では、時制、相、法、態などを用いる。また、命題文とは、表現素性を含まない客観的事物を表す文である。原言語命題文は、英語で表現された命題文であり、原言語文と比べて多様性が取り除かれた表現になる。目的言語命題文は、英語の原言語命題文を翻訳して得られた日本語の命題文である。
【0012】
本実施形態の機械翻訳装置は、翻訳対象となる原言語文から表現素性を抽出し、原言語文を、表現素性を含まない原言語命題文に変換する。そして、この原言語命題文を翻訳部で目的言語命題文に翻訳する。原言語命題文は多様性が取り除かれていることから、これを翻訳する翻訳部の開発コストを下げることができる。
【0013】
また、本実施形態の機械翻訳装置は、編集された表現素性に基づいて、目的言語命題文を目的言語文に変換する。これにより、原言語文が持っていた多様性を反映し、かつ、ユーザ所望の表現を伴った目的言語文を生成することができる。
【0014】
(ハードウェア構成)
本実施形態の機械翻訳装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と、外部装置との通信を制御する通信部205と、ユーザの発声を取得するマイク206と、音声波形を再生して再生音を発生させるスピーカ207と、映像を表示するディスプレイ209と、これらを接続するバス208とを備えている。
【0015】
このようなハードウェア構成において、制御部201がROM等の記憶部202や外部記憶部203に記憶された各種プログラムを実行することにより以下の機能が実現される。
【0016】
(入力部)
取得部101は、英語で表現された原言語文を取得する。ユーザは、操作部204のキーボードを介して、原言語文を入力することができる。また、マイク206で取得したユーザの音声を認識して、原言語文を取得してもよい。この他にも、手書き文字認識により原言語文を取得してもよいし、通信部205を介して接続された外部装置から原言語文を取得してもよい。
【0017】
(原言語文変換部)
原言語文変換部102は、取得部101で取得された原言語文から表現素性を抽出し、原言語文を、この表現素性を含まない原言語命題文に変換する。原言語文変換部102は、形態素解析技術、構文解析技術、照応解析技術などを用いて原言語文を解析する。そして、この解析結果を用いて、原言語文から複数の表現素性を抽出すると共に、原言語文を複数の原言語命題文に変換する。ここで、形態素解析技術には、接続コストに基づく解析手法、統計的言語モデルに基づく解析手法などが、構文解析技術には、CYK法、一般化LR法などがある。
【0018】
本実施形態では、時制、相、法、態などを表現素性として抽出し、これらを原言語文から分離した文を原言語命題文とする。ここで、原言語命題文は、原言語文と比較して多様性が取り除かれた表現となっている。これにより、原言語命題文を翻訳する翻訳部103の開発コストを下げることができる。
【0019】
図3は、原言語文変換部102における表現素性と原言語命題文の一例を示す図である。本実施形態の原言語文変換部102は、表現素性およびそれに関する情報(表現情報)と、この表現素性を含まない原言語命題文とからなる複数の組み合わせを解析候補集合として出力する。図3では、「Shall I have him call you back when returns?」という原言語文309から、301〜303に示す3つの組み合わせが生成されている。組み合わせ301では、304が原言語命題文を、305が表現情報をそれぞれ表している。表現情報305は、表現素性308と、表現素性308が原言語命題文304のどの形態素に対応付けられているかを示す識別子306と、識別子306が示す原言語命題文の形態素307とからなる。識別子306は、原言語命題文304において先頭の形態素を1とした場合の形態素の位置を表している。この例では、表現素性308「(現在)(使役 (対象 he))(提案 (主語 I))(疑問)」が、形態素307「calls」に対応付けられている。
【0020】
原言語文変換部102は、図4に示すような形態素辞書、および構文情報に基づいて表現素性を抽出する。例えば、「解析された」という文は、図4の辞書を参照すれば、「解析・する・れる・た」と解析できるので、この文から「解析する」という命題文と「(受動)(過去)」という表現素性を生成できる。また、例えば「Shall I have him call you back when returns?」という英語の原言語文においては、「Shall I」が「Shall N」に相当すると解析できるので(提案 (主語 I))という表現素性が、「have him call」が「have N V」に相当すると解析できるので(使役 (対象 he))という表現素性が、それぞれ抽出できる。なお、Nは名詞を、Vは動詞を表す。
【0021】
(翻訳部)
翻訳部103は、英語の原言語命題文を日本語の目的言語命題文に翻訳する。翻訳部103により行われる翻訳処理は、一般的な規則ベース型の翻訳手法であるトランスファ方式や、データ駆動型の翻訳手法である用例ベース方式や統計ベース方式などを用いることができる。
【0022】
本実施形態の翻訳部103は、原言語文変換部102が生成した解析候補集合に属する全ての原言語命題文に対して翻訳処理を実行し、各原言語命題文を翻訳した目的言語命題文およびその翻訳スコアを得る。そして、原言語命題文、表現情報、目的言語命題文および翻訳スコアの組み合わせからなる翻訳候補を生成する。
【0023】
ここで、翻訳スコアとは翻訳品質を表す指標であり、用例ベース方式であれば入力文字列と用例との類似度を、統計ベース方式であれば言語モデルに基づく翻訳の生成確率を、規則ベース型の翻訳方式であれば構文の尤度、用いられた規則の優先度に基づく値を用いることができる。
【0024】
図5は、翻訳部103が出力する翻訳候補の集合(翻訳候補集合)の一例を示している。この図では、501〜503の3つの翻訳候補がある。翻訳候補501において、504が翻訳スコアを、506が原言語命題文304を翻訳した目的言語命題文をそれぞれ表している。各翻訳候補には、原言語文変換部102で抽出された表現情報が付加される。
【0025】
本実施形態の翻訳部103は、多様性が取り除かれた原言語命題文を翻訳するものであるため、その開発コストを下げることができる。データ駆動型の手法であれば、収集する対訳用例の量を少なくすることができ、規則ベース型の手法であれば、記述する規則を原言語命題文に関する知識のみに限定することができる。
【0026】
(最尤候補選択部)
最尤候補選択部104は、翻訳部103で計算された翻訳スコアに基づいて、翻訳候補集合に属する表現情報と目的言語命題文の組み合わせの中から、最も高い翻訳スコアをもつ組み合わせを選択する。選択された組み合わせにおける表現情報および目的言語命題文を、それぞれ最尤表現素性および最尤目的言語命題文と呼ぶ。
【0027】
(素性編集部)
素性編集部105は、最尤表現素性を編集する。素性編集部105は、操作部204からのユーザの指示に応じて、表現素性を追加したり、削除したり、変更したりすることができる。編集後の表現素性を改編表現素性と呼ぶ。
【0028】
このように、本実施形態の素性編集部105は、表現素性をユーザの指示に応じて編集する。これにより、後述する命題文変換部106において、ユーザが所望する文体で統一した目的言語文を生成することができる。
【0029】
(命題文変換部)
命題文変換部106は、改編表現素性に基づいて、最尤目的言語命題文を日本語の目的言語文に変換する。本実施形態の命題文変換部106は、生成文法に基づいて最尤目的言語命題文を目的言語文に変換するようにしているが、他にも広く使われる言語生成方法を用いることもできる。命題文変換部106の詳細は後述する。
【0030】
このように、本実施形態の命題文変換部106は、改編表現素性に基づいて、最尤目的言語命題文を目的言語文に変換する。これにより、原言語文が持っていた多様性を反映し、かつ、ユーザ所望の表現を伴った目的言語文を生成することができる。
【0031】
(出力部)
提示部107は、命題文変換部106で生成された日本語の目的言語文をユーザに提示する。提示部107は、目的言語文をディスプレイ209に表示したり、通信部205で接続されたプリンタで印字出力したりすることができる。この他にも、目的言語文を音声合成により音声波形に変換して、スピーカ207から再生することもできる。
【0032】
(フローチャート)
図6のフローチャートを利用して、本実施形態にかかる機械翻訳装置の処理を説明する。
【0033】
まず、ステップS1では、取得部101は、英語の原言語文Sを取得する。本実施形態では、図3の原言語文309「Shall I have him call you back when returns?」が取得されたものとする。
【0034】
ステップS2では、原言語文変換部102は、原言語文Sを解析して、表現情報Fと原言語命題文Psとの組み合わせを要素とする解析候補集合Csを抽出する。図3の301〜303が解析候補集合Csを表している。
【0035】
ここで、原言語命題文Psは、原言語文Sと比べて多様性が取り除かれた表現となっている。これにより、原言語命題文を翻訳する翻訳部103の開発コストを下げることができる。つまり、データ駆動型の手法であれば、収集する対訳用例の量を少なくすることができ、規則ベース型の手法であれば、記述する規則を原言語命題文に関する知識のみに限定することができる。
【0036】
ステップS3では、翻訳部103は、原言語命題文Psを翻訳して目的言語命題文Ptとその翻訳スコアVを取得する。そして、原言語命題文Ps、表現情報F、目的言語命題文Ptおよび翻訳スコアVの組み合わせからなる翻訳候補の集合(翻訳候補集合Ct)を生成する。図5の501〜503が、翻訳候補集合Ctに含まれる各翻訳候補を表している。
【0037】
ステップS4では、最尤候補選択部104は、翻訳候補集合Ctから、最も高い翻訳スコアをもつ目的言語命題文Ptおよびその表現情報Fをそれぞれ最尤目的言語命題文Pptおよび最尤表現情報Fpとして選択する。図5の例では、翻訳スコア504が0.95で最も高い値となるため、最尤目的言語命題文Pptとして304が、最尤表現情報Fpとして305がそれぞれ選択される。
【0038】
ステップS5では、素性編集部105は、最尤表現情報Fpを編集して改変表現情報Feを得る。素性編集部105は、ユーザの指示に応じて最尤表現情報Fpを編集することができる。また、素性編集部105は、予め設定した表現素性を自動的に設定するようにしてもよい。例えば、原言語文Sが文書として与えられている場合、文書全体の表現統一を図るために、適当な表現素性を追加することができる。
【0039】
図7は、改変表現情報Feの一例を示す図である。この例では、新たな表現素性として、703に示す「(丁寧)」の表現素性と、704に示す「(主語 he)」という表現素性が追加されている。表現素性703は、対応付けられている形態素の識別子702が「1−5」となっている。つまり、「(丁寧)」という表現素性が最尤対訳命題文Ppt全体に影響を与えることを表している。また、表現素性704は、形態素「returns」に対応付けられており、同形態素の「主語」として「he」が補われることを表している。
【0040】
ステップS6では、命題文変換部106は、改変表現情報Feに基づいて、最尤目的言語命題文Pptを日本語の目的言語文Tに変換する。ここで、目的言語文Tは、原言語文Sから生成した原言語命題文Psおよび改編表現素性Feを全て変換した結果といえる。図7では、706の改変表現情報Feに基づいて、705の最尤目的言語命題文Ppt「彼が折り返し電話する。戻る。」が、701の目的言語文T「彼が戻りましたら、彼に折り返しお電話をさせましょうか?」に変換される。
【0041】
本実施形態において、命題文変換部106は、原言語文変換部102における処理の逆変換として動作させることにより、目的言語文を生成する様にしている。例えば、図7において、原言語命題文「He calls you back. Returns」の第2番目の単語「calls」に対して、表現素性「(現在)(使役 (対象 he))(提案 (主語 I))(疑問)」が付与されている。ここで、第2番目の単語が「calls」は、「電話する」と訳されていると仮定すると、命題文変換部106は、表現素性「(現在)」を用いて、これを「電話する」に変換し、同「(使役 (対象 he))」を用いて「電話させる」に、同「(提案 (主語 I))」を用いて「電話させます」に、同「(疑問)」を用いて「電話させますか」にそれぞれ変換する。更に、原言語命題文全体に付与された表現素性「(丁寧)」を用いて「電話させましょうか」を生成する。また、原言語命題文の第5番目の単語「Returns」についても同様に変換することで、「彼が戻りましたら」を生成する。
【0042】
ところで、命題文変換部106における目的言語文の生成には、ここで説明した方法以外にも、生成文法を用いた自然言語生成技術や、マルコフモデルを用いた統計的な自然言語生成技術等を用いてもよい。
【0043】
最後に、ステップS7では、提示部107は、ステップS6で生成された目的言語文Tをユーザに提示する。
【0044】
(変形例)
本実施形態の機械翻訳装置を、図8あるいは図9のような構成に変更することも可能である。
【0045】
図8の機械翻訳装置800は、最尤候補選択部104および素性編集部105を有していない点が、図1の機械翻訳装置100と異なる。この機械翻訳装置800では、翻訳部103が最尤の翻訳スコアをもつ翻訳候補を1つだけ出力することにより、機械翻訳装置100と同様な処理を実行することができる。
【0046】
図9の機械翻訳装置900は、素性編集部105を有していない点が、図1の機械翻訳装置100と異なる。この場合も、翻訳部103が最尤の翻訳スコアをもつ翻訳候補を1つだけ出力することにより、あるいは、素性編集部105が、最尤の翻訳スコアをもつ翻訳候補における表現情報を編集対象にすることにより、機械翻訳装置100と同様な処理を実行することができる。
【0047】
(効果)
本実施形態の機械翻訳装置は、翻訳対象となる原言語文から表現素性を抽出し、原言語文を、表現素性を含まない原言語命題文に変換する。そして、この原言語命題文を翻訳部で目的言語命題文に翻訳する。原言語命題文は多様性が取り除かれていることから、これを翻訳する翻訳部の開発コストを下げることができる。
【0048】
また、本実施形態の機械翻訳装置は、編集された表現素性に基づいて、目的言語命題文を目的言語文に変換する。これにより、原言語文が持っていた多様性を反映し、かつ、ユーザ所望の表現を伴った目的言語文を生成することができる。
【0049】
なお、以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理により実現可能である。
【0050】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0051】
100、800、900 機械翻訳装置
101 取得部
102 原言語文変換部
103 翻訳部
104 最尤候補選択部
105 素性編集部
106 命題文変換部
107 提示部
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 マイク
207 スピーカ
208 バス
301〜303 表現情報と原言語命題文の組み合わせ
304 原言語命題文
305 表現情報
308、703、704 表現素性
306、702 識別子
501〜503 翻訳候補
504 翻訳スコア
506 目的言語命題文
701 目的言語文
706 改変表現情報
705 最尤目的言語命題文

【特許請求の範囲】
【請求項1】
第1言語による原言語文を第2言語による目的言語文に翻訳する機械翻訳装置であって、
第1言語による原言語文から表現素性を抽出し、前記原言語文を、前記表現素性を含まない原言語命題文に変換する原言語文変換手段と、
前記原言語命題文を前記第2言語による目的言語命題文に翻訳する翻訳手段と、
前記表現素性に基づいて、前記目的言語命題文を第2言語による目的言語文に変換する命題文変換手段と、
を備える機械翻訳装置。
【請求項2】
前記表現素性を編集する素性編集手段を更に備え、
前記命題文変換手段が、前記素性編集された表現素性に基づいて、前記目的言語命題文を第2言語による目的言語文に変換する請求項1記載の機械翻訳装置。
【請求項3】
前記原言語文変換手段が、前記原言語文を複数の原言語命題文に変換し、
前記翻訳手段が、前記複数の原言語命題文を前記第2言語による複数の目的言語命題文に翻訳し、
前記命題文変換手段が、前記翻訳手段における翻訳スコアが最も高くなる前記目的言語命題文を、第2言語による目的言語文に変換する請求項1乃至請求項2記載の機械翻訳装置。
【請求項4】
第1言語による原言語文を第2言語による目的言語文に翻訳する機械翻訳方法であって、
第1言語による原言語文から表現素性を抽出し、前記原言語文を、前記表現素性を含まない原言語命題文に変換するステップと、
前記原言語命題文を前記第2言語による目的言語命題文に翻訳するステップと、
前記表現素性に基づいて、前記目的言語命題文を第2言語による目的言語文に変換するステップと、
を備える機械翻訳方法。
【請求項5】
第1言語による原言語文を第2言語による目的言語文に翻訳する機械翻訳装置に、
第1言語による原言語文から表現素性を抽出し、前記原言語文を、前記表現素性を含まない原言語命題文に変換する機能と、
前記原言語命題文を前記第2言語による目的言語命題文に翻訳する機能と、
前記表現素性に基づいて、前記目的言語命題文を第2言語による目的言語文に変換する機能と、
を実現させるための機械翻訳プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2013−69158(P2013−69158A)
【公開日】平成25年4月18日(2013.4.18)
【国際特許分類】
【出願番号】特願2011−207824(P2011−207824)
【出願日】平成23年9月22日(2011.9.22)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】