機械翻訳装置及び機械翻訳プログラム
【課題】翻訳対象原文と翻訳用例の原文との差異部分を翻訳用例の訳文中の語句に対応付けて他の語句と区別して表示でき、翻訳用例の訳文の差異に相当する部分への編集を容易に行えるようにすることである。
【解決手段】翻訳部24は、入力された第1言語の翻訳対象原文を記憶部19の辞書部21を用いて翻訳するとともに、検索キーとして指定された翻訳対象原文に対して用例辞書部22から翻訳対象原文に類似する翻訳用例を検索する。用例処理部25は、翻訳用例の原文と翻訳対象原文との差異部分を対応付けるともに当該差異部分に対して編集が必要な翻訳用例の訳文中の語句と翻訳対象原文中の語句とを対応付ける。制御部23は、ユーザの操作指示に応じて翻訳用例の原文と翻訳対象原文との差異部分ごとに相当する箇所を他の語句と区別して表示部17に表示する。
【解決手段】翻訳部24は、入力された第1言語の翻訳対象原文を記憶部19の辞書部21を用いて翻訳するとともに、検索キーとして指定された翻訳対象原文に対して用例辞書部22から翻訳対象原文に類似する翻訳用例を検索する。用例処理部25は、翻訳用例の原文と翻訳対象原文との差異部分を対応付けるともに当該差異部分に対して編集が必要な翻訳用例の訳文中の語句と翻訳対象原文中の語句とを対応付ける。制御部23は、ユーザの操作指示に応じて翻訳用例の原文と翻訳対象原文との差異部分ごとに相当する箇所を他の語句と区別して表示部17に表示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、第1言語文とこの第1言語文を翻訳した第2言語文の関係を模倣して、第1言語の入力原文に対する第2言語文への翻訳文の作成を行う機能を有した機械翻訳装置及び機械翻訳プログラムに関する。
【背景技術】
【0002】
コンピュータにより翻訳対象である第1言語の原文を第2言語の文に翻訳する機能を有した機械翻訳装置がある。このような機械翻訳装置においては、第1言語文と第2言語文の対訳とからなる翻訳用例を予め翻訳用例データベースに複数蓄積しておき、入力された翻訳対象原文に類似する翻訳用例を検索して、翻訳対象原文とともに利用者に提示し、翻訳の支援を行う。翻訳用例の原文は翻訳対象原文とは完全一致していないことが多いので、当該翻訳用例の訳文を無編集で当該翻訳対象原文に対応する訳文として利用することはまれであり、通常は必要な編集を訳文に施した上で利用することになる。
【0003】
そこで、訳文の編集を軽減するために、翻訳用例中の原文と訳文中の対応語句をユーザに提示したり、当該翻訳対象原文の構成要素と共通する翻訳用例中の要素を強調表示するなどしてユーザに示すものが提案されている(例えば、特許文献1、特許文献2参照)。
【0004】
また、対応語句をユーザに提示するのとは逆に、翻訳用例の訳文中の語句のうち、翻訳対象原文中の語句に対応する語句以外を反転表示するなどしてユーザに提示するようにしたものもある(例えば、特許文献3参照)。
【0005】
さらに、第1言語例文と第2言語例文の語句との対応に関する情報とを含む対訳例文の複数組を記憶しておき、翻訳すべき第1言語の原文に類似する第1言語例文を複数組の対訳例文から検索し、原文と検索された対訳例文の第1言語例文との相違箇所を語句単位で判定し、第1言語例文中の相違箇所に対応する第2言語例文の語句を判定し当該語句を原文中の相違箇所の語句に置き換えた合成文を作成し、合成文に含まれる原文中の語句を当該語句に対応する訳語で置換した訳文を作成し、原文、原文に類似する第1言語例文、第1言語例文に対応する第2言語例文、合成文および訳文の少なくともいずれか一つを出力し、用例データベースに基づいて自然で質のよい翻訳を行うことができるようにしたものがある(例えば、特許文献4参照)。
【特許文献1】特開2003−330924号公報
【特許文献2】特開2005−339087号公報
【特許文献3】特開平9−245040号公報
【特許文献4】特開2006−11842号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかし、従来のものでは、翻訳対象原文と翻訳用例の原文との差分が当該翻訳用例の訳文のどの部分に相当するかについては、ユーザがそれぞれの原文や訳文を見比べて判断する必要がある。そのため、長文である場合や差異の部分が複数箇所に及ぶ翻訳用例の場合は、着目した差分に該当する翻訳用例の訳文中の箇所を特定するのに手間がかかる。
【0007】
本発明の目的は、翻訳対象原文と翻訳用例の原文との差異部分を翻訳用例の訳文中の語句に対応付けて他の語句と区別して表示でき、翻訳用例の訳文の差異に相当する部分への編集を容易に行える機械翻訳装置及び機械翻訳プログラムを提供することである。
【課題を解決するための手段】
【0008】
本発明の機械翻訳装置は、機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した辞書部、予め登録された第1言語の文と第2言語の文との対訳からなる翻訳用例を複数蓄積した用例辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力部と、翻訳対象の第1言語の原文や翻訳後の第2言語の訳文を表示する表示部と、前記機械翻訳プログラムを演算実行するCPUとを備えた機械翻訳装置において、入力された第1言語の翻訳対象原文を前記記憶部の辞書部を用いて翻訳するとともに前記翻訳対象原文を検索キーとしてその翻訳対象原文に対して前記記憶装置の用例辞書部から前記翻訳対象原文に類似する翻訳用例を検索する翻訳部と、前記翻訳部で検索された翻訳用例の原文と前記翻訳対象原文との差異部分を対応付けるともに当該差異部分に対して編集が必要な翻訳用例の訳文中の語句と翻訳対象原文中の語句とを対応付ける用例処理部と、ユーザの操作指示に応じて前記翻訳用例の原文と前記翻訳対象原文との差異部分ごとに相当する箇所を他の語句と区別して前記表示部に表示する制御部とを備えたことを特徴とする。
【発明の効果】
【0009】
本発明によれば、翻訳対象原文と翻訳用例の原文との差異部分を翻訳用例の訳文中の語句に対応付けて他の語句と区別して表示でき、翻訳用例の訳文の差異に相当する部分への編集を容易に行える。
【発明を実施するための最良の形態】
【0010】
図1は、本発明の実施の形態に係わる機械翻訳装置の構成図である。機械翻訳装置11は、第一言語を第二言語に翻訳して出力するものであり、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムがCPU12において実行されることにより実現される。機械翻訳装置11は、CPU12、ROM(Read Only Memory)13及びRAM(Random Access Memory)14がバス15を介して接続されている。バス15には、入力部16、表示部17及び記憶装置19が接続されている。
【0011】
記憶装置19には、機械翻訳プログラム20が記憶されるとともに辞書部21、用例辞書部22が記憶される。機械翻訳プログラム20は、制御部23、翻訳部24、用例処理部25を有している。そして、制御部23は対応表示制御手段23aを有し、翻訳部24は、翻訳用例検索手段24a、フレーズ翻訳手段24b、訳文再構成手段24cを有し、用例処理部25は、共通語句対応付け手段25a、差分相当語句対応付け手段25bを有している。また、辞書部21には、語彙部21a、形態素解析規則21b、構文解析規則21c、変換規則21d、構文生成規則21e、形態素生成規則21f、接続規則21gなどが格納されている。
【0012】
CPU12は、入力部16からの入力信号に基づいてROM13から機械翻訳装置11を起動するためのブートプログラムを読み出して実行し、さらに記憶装置19に記憶された図示省略のオペレーティングシステムを読み出す。CPU12は、入力部16の入力信号に基づいて、各装置の制御を行い、記憶装置19などに記憶された機械翻訳プログラム20及び辞書部21のデータを読み出してRAM14にロードするとともに、RAM14から読み出されたプログラムのコマンドに基づいて、データの計算又は加工など、後述する一連の処理を実現する。
【0013】
入力部16は、第一言語の翻訳対象原文の文字データやファイルデータ等のデータやコマンドを入力する入力手段であり、通常、キーボードやマウス・タッチパネルなどのポインティングデバイス、音声認識や文字認識機能、あるいは、CDドライブなどの外部記憶媒体読取装置、ネットワーク入力装置などによって実現される。すなわち、入力部16は、制御部23に対して翻訳対象となる文の入力、翻訳指示や辞書登録指示などの各種コマンドの入力を行うものである。また、翻訳対象文の入力には、OCR、フレキシブルディスク、磁気テープ、磁気ディスク、インターネットからの読み込み、あるいはマイクで発話文を取りこんでディクテーション装置によって自然言語の文字列に変換したものの読み込みなどの入力も含まれる。マイクによる音声入力は各種コマンドの入力にも用いることができる。
【0014】
表示部17は、入力部16から入力されたデータや翻訳結果の出力手段であり、画面や翻訳結果等をCRTや液晶ディスプレイなどの表示装置に表示する場合、翻訳結果等をファイルに保存する場合などがある。すなわち、表示部17は、翻訳部24の出力である翻訳結果を出力したり、入力文に対する翻訳用例を用例辞書部22から検索して表示させる指示命令など、制御部23への各種命令に対する制御部23からの応答を表示出力したりする。表示部17としては各種ディスプレイなどの表示手段が通常であるが、翻訳結果の出力には、印刷機などの印字手段、あるいは直接フレキシブルディスク、磁気テープ、磁気ディスクへ出力する手段や他のメディアへ送信する送信手段でもよい。また、スピーカーへの音声出力でもよい。
【0015】
辞書部21は、語彙部21a、形態素解析規則21b、構文解析規則21c、変換規則21d、構文生成規則21e、形態素生成規則21fからなり、翻訳部24での翻訳処理を実行する際に参照される各種情報・知識から構成されている。
【0016】
用例辞書部22は、第1言語の文と第2言語の文の対訳とからなる翻訳用例を蓄積している。本発明の実施の形態では、第1言語と第2言語との2種の言語間の翻訳のための用例を有する例で説明するが、3言語以上の多言語間の翻訳で利用できるよう対応する複数の用例を組にして蓄積する多言語用翻訳用例辞書の構成としてもよい。
【0017】
翻訳部24は、辞書部21中の知識・情報と用例辞書部22中の翻訳用例を元に、入力文に対する訳文を生成しユーザへの提示を行うものであり、用例辞書部22から入力文を検索キーとして翻訳用例を検出する翻訳用例検索手段24aと、入力文中の選択された任意の語句(フレーズ)に対する翻訳を行うフレーズ翻訳手段24bと、フレーズ翻訳手段24bにより得られた翻訳結果を訳文中の相当箇所に適した形態に変換を施して訳文を再構成する訳文再構成手段24cを有する。
【0018】
用例処理部25は、共通語句対応付け手段25aと差分相当語句対応付け手段25bとを有する。共通語句対応付け手段25aは、翻訳部24の有する構文解析手段(図示省略)と辞書部21の知識・情報とを用いて、翻訳用例中の第1言語の文(原文)と第2言語の文(訳文)との中の対応する語句を対応付け、さらに入力された翻訳対象原文のうち、翻訳用例の原文と共通である語句とも対応付けを行う。また、差分相当語句対応付け手段25bは、入力文(翻訳対象原文)のうち、翻訳用例の原文と異なる差異部分に相当する箇所を翻訳用例の訳文中から検出して、入力文中の当該差異部分との対応付けを行う。
【0019】
制御部23は対応表示制御手段23aを有する。対応表示制御手段23aは、用例処理部25により対応付けられた結果に基づいて、ユーザが入力文中の任意の語句をマウスでクリックするなどして選択指示をすると、翻訳用例の訳文中からその選択された語句に対応する箇所を反転表示させるなど、他の語句と区別表示する。
【0020】
次に、全体の動きを制御する制御部23について説明する。図2は制御部23におけるユーザとの対話的処理の処理内容を示すフローチャートである。まず、制御部23は入力部16より翻訳対象原文の入力があるか否かを判定し(S1)、翻訳対象原文の入力があると、表示部17に対して翻訳対象原文の表示を指示する(S2)。
【0021】
次に、制御部23は翻訳指示命令があるか否かを判定し(S3)、翻訳指示命令が送られてくると翻訳部24に対して翻訳処理開始の指示命令をする(S4)。これにより、翻訳部24は辞書部21の知識・規則を用いて、入力された翻訳対象原文に対して、第2言語の訳文への翻訳処理を行う。そして、翻訳処理が終了すると、翻訳結果は制御部23を通じて表示部17へ送られユーザに提示される。
【0022】
次に、制御部23は、翻訳対象原文のうち特定文が検索キー文として指定され、翻訳用例検索処理を起動する翻訳用例検索指示命令があった否かを判定し(S5)、翻訳用例検索指示命令があったときは、翻訳部24に指示された検索キー文の情報とともに翻訳用例の検索命令を送る(S6)。翻訳部24では、翻訳用例検索指示命令を受けると、翻訳用例検索手段24aにより用例辞書部22に登録されている翻訳用例中から、検索キー文に類似する原文を持つ翻訳用例を検索し、その検索結果を制御部23に返す。制御部23に送られた検索結果は表示部17に送られ、ユーザに提示される。
【0023】
ここで、翻訳用例検索においては、所定の類似度以上の用例が複数検索された場合には、類似度に応じて順番付けして検索する。あるいは、最も類似度の高い用例を1件のみ検索するようにしてもよい。また、類似度の判定においては、文字列ベースや形態素ベースなどのいくつかの基準を採用して判定する。さらに、同義語や類義語の情報を類似度計算に利用してもよい。
【0024】
図3は、図2のステップS6での検索結果の表示画面の一例の説明図である。図3に示すように、画面上部は翻訳対象原文領域とその訳文領域からなり、画面下部は検索キー文とされた翻訳対象原文に対する翻訳用例の原文領域と訳文領域とからなる。
【0025】
画面上部の翻訳対象原文領域には入力部から入力された翻訳対象原文が表示され、画面上部の翻訳対象訳文領域には翻訳指示命令により翻訳部24により翻訳された結果が表示される。そして、画面下部には、検索キー文とされた翻訳対象原文に対する翻訳用例の原文と訳文とが対になって表示される。
【0026】
図3では、検索された翻訳用例の結果が二つの場合を示しており、翻訳用例の原文で色づけされている部分は、それぞれ翻訳対象原文「The general name of our laboratory is the KM Lab.」との差異部分である。本実施形態では、翻訳対象原文の色づけは、翻訳用例の検索直後(図3の状態)は検索された一つ目の翻訳用例の原文「The official name of our laboratory is the Knowledge Management Laboratory.」との差異に相当する部分に対して行っており、ユーザが二つ目の翻訳用例の原文「The official name of the product is KnowledgeMeister.」あるいは訳文「本製品は正式名称をナレッジマイスターといいます。」のいずれかを選択したときに、その選択された翻訳用例との差分の表示に切り替えるように構成している。
【0027】
翻訳対象原文と検索された一つ目の翻訳用例の原文とは以下の部分が対応する差異部分であるとして、同色で色分けされる。
【0028】
・ 翻訳対象原文の「general」と翻訳用例の原文の「official」
・ 翻訳対象原文の「KM Lab」と翻訳用例の原文の「Knowledge Management Laboratory」
そして、ユーザが二つ目の翻訳用例を選択したときは、以下の部分の差異の対応を表すよう色分け表示を切り替える。
【0029】
・ 翻訳対象原文の「general」と翻訳用例の原文の「official」
・ 翻訳対象原文の「our laboratory」と翻訳用例の原文の「the product」
・ 翻訳対象原文の「the KM Lab」と翻訳用例の原文の「KnowledgeMeister」
次に、図2のステップS7では、図3に示すような翻訳用例の検索結果が表示されている状態で、ユーザが特定の翻訳用例を選択し、その翻訳用例の訳文を当該翻訳対象原文に対する訳文として出力するための翻訳用例訳文出力命令が入力されたか否かを判定する(S7)。この翻訳用例訳文出力命令は、例えば、図3の特定の翻訳用例をマウスでクリックするなどして選択させる。翻訳用例訳文出力命令があった場合には、図4に示すように、選択された翻訳用例の訳文を検索キーとなった翻訳対象原文に対応する訳文領域に表示する(S8)。図4では、先頭に表示されている翻訳用例の訳文をユーザがマウスでクリックした場合を示しており、翻訳用例の訳文領域が反転表示され、翻訳対象原文に対する訳文領域に翻訳用例の訳文が表示される。すなわち、選択された翻訳用例が5番目の翻訳対象原文の訳文領域に表示されている。この一例では検索結果である翻訳用例の訳文がクリックされた場合を示しているが、翻訳用例の原文を選択させてもよい。
【0030】
続いて、制御部23は、翻訳対象原文の原文領域あるいは訳文領域に表示された語句が選択され、双方の対応する語句を区別表示させるための語句対応表示指示命令の命令操作が入力部16より入力されたか否かを判定する(S9)。語句対応表示指示命令の命令操作が入力された場合には、選択された語句を判定し、その語句を反転表示させるなど、他の語句と区別する表示制御を行う(S10)。例えば、翻訳対象原文の原文領域の5番目の「laboratory」がマウスでダブルクリックされたとすると、この語句に対応する訳文領域の「研究所」を反転表示させるなどの表示制御を行う。この処理の詳細については後述する。
【0031】
次に、制御部23は、翻訳対象原文の原文領域の語句に対する翻訳結果を得るためのフレーズ翻訳指示命令が入力部16より入力されたか否かを判定する(S11)。その命令操作が入力された場合には、フレーズ翻訳処理を行う(S12)。すなわち、翻訳部24に対して選択語句に対するフレーズ翻訳命令を送り、翻訳部24から翻訳結果を得て、その翻訳結果を表示部17に表示する。この処理の詳細についても後述する。
【0032】
フレーズ翻訳の結果が表示された状態で、差異部分の語句に対する訳語候補の中のいずれかから選択した訳語を訳文に反映して、訳文を再構成する訳文再構成指示命令が入力されたどうかを判定し(S13)、その訳文再構成指示命令が入力されたときは、選択された翻訳候補と当該翻訳対象原文及び訳文の情報を再び翻訳部24に送り、訳文を再構成させる(S14)。再構成された訳文は、当該翻訳対象原文に対する訳文領域の訳文として表示する。この処理の詳細についても後述する。
【0033】
また、制御部23は、入力部16より全体の処理終了の指示が入力されたか否かを判定し(S15)、全体の処理終了の指示が入力された場合にはすべての処理を終了する。さらに、それ以外のその他の命令が入力されたか否かを判定し(S16)、その他の命令が入力されたときは、その入力に応じた処理を行う(S17)。このように、制御部23は入力部16から各種の指令に応答して処理を行い、全体の処理終了の指示に基づき処理を終了する。
【0034】
次に、翻訳部24に翻訳対象原文が入力されてから、目的言語の訳文を生成するまでの処理の流れを説明する。図5は、図2のステップS4での翻訳部24の処理内容を示すフローチャートである。
【0035】
辞書部21は、翻訳処理の各ステップを実行する際に参照される各種情報・知識から構成されている。翻訳部24は、辞書部21中の知識・情報と用例辞書部22中の翻訳用例を基に、入力文に対する訳文を生成しユーザへの提示を行う。全体の流れとしては、用例辞書部22の中に有用な翻訳用例があればそれを元に訳文を生成し、有用な翻訳用例がなければ、辞書部21の知識・情報のみを用いて訳文の生成を行う。
【0036】
まず、翻訳部24に翻訳対象原文である入力文が送られてくると、その入力文に対して辞書部21中の語彙部21aと形態素解析規則21bとを用いて、辞書引き処理・形態素解析を行い、その品詞・活用の種類、訳語ほか、翻訳処理に必要な各種情報を求める(S51)。この結果、入力文を構成する単語の品詞、活用の候補が出力される。
【0037】
続いて、用例辞書部22に対して用例検索を行う。すなわち、入力文と同じ原文を持つ翻訳用例が蓄積されているかを検出する(S52)。この段階では、形態素解析結果や原文中の各語に対する各種情報が取得されているため、カタカナや送り仮名の表記の揺れや、漢字表記とひらがな表記の揺れ、送り仮名の有無の揺れの情報も取得されている。これらの情報により、完全に入力文と1文字違わず一致した翻訳用例でなくとも、これらの表記の揺れに関する違いについては違いとしては認識しないような揺れの吸収処理が可能である。一方、表記の揺れは吸収しない完全一致の翻訳用例があるときのみ検索成功とする構成も可能である。また、文字・単語上の違いがあっても同値とみなす差異文字数ないしは差異単語数の割合の下限値を設けて検索の可否を制御する構成であってもよい。これにより、語句・文字の使われ方が類似した翻訳用例を抽出できる。このような場合は、用例検索のタイミングを辞書引き処理・形態素解析の後にする必要もなく、図2の処理の最初に行う構成でもよい。ステップS52の用例検索の結果が成功であれば(S53)、検索された翻訳用例の訳文を入力文の訳文として生成して処理を終了する。
【0038】
一方、用例検索の結果が不成功のとき、すなわち、そのまま訳文に利用できる翻訳用例がない場合は、引き続き構文解析処理を行う(S54)。この構文解析処理では、単語、品詞、活用の並びを入力とし、構文解析規則21cを使って、入力文の構造を解析し原言語の構文構造を構築する。
【0039】
入力文の構文構造が得られると、変換規則21dを使って原言語の構文構造から目的言語構造への変換処理を行う(S55)。この段階で、目的言語の文としてどのような構文で訳出するか、どのような訳語を出力するかが判定される。続いて、構文生成規則21e、形態素生成規則21fを用いて、目的言語の文の最終的な生成が行われ(S56)、一入力文に対する翻訳処理を終了する。
【0040】
ステップS56での訳文の生成を終えた状態では、その訳文を構成する単語列の品詞、活用、属性情報などが得られており、また、原文中の構成要素にどの訳文中の語句が対応しているかの情報も得られている。
【0041】
図6は、翻訳部24での入力文の構造を解析した原文情報のデータ構造と訳文情報のデータ構造の一例の説明図である。図6では、下記に示す例文の原文情報のデータ構造を図6(a)に示し、訳文情報のデータ構造を図6(b)に示している。
【0042】
原文:The official name of our project is Unexplored Software Creation Project.
訳文:我々のプロジェクトの正式な名前は未踏ソフトウェア創造プロジェクトです。
【0043】
原文、訳文の個々の構成要素は、品詞情報、その他の属性情報、及びそれぞれ他方のデータ構造のどの配列に対応するかを示す配列番号とを有している。「−1」が入っている要素は、対応する語句がないことを示す。
【0044】
次に、原文領域に表示されている原文あるいは訳文領域に表示されている訳文の中の任意の語句が選択され、対応する他方の領域の語句を区別表示させるための操作命令が制御部23に入力された場合の処理を説明する。ここで、区別表示は反転表示させる場合について説明する。
【0045】
図7は、制御部23での対応語句表示の表示命令があってから翻訳対象の原文または訳文の中から選択された語句に対応する訳文または原文の語句を反転表示するまでの処理の流れを示すフローチャートである。この処理は、選択された語句が含まれる文がどのようなタイプかによって処理の内容が異なる。まず、選択された語句が含まれる文(対象文)がどのようなタイプかを判断する(S21)。当該文が翻訳処理が行われた原文あるいは訳文である場合には、既に、図6に示すようなデータが取得できているため、選択された語句に対応する語句をこのデータから取得し、ステップS27へ進み、表示部17に対して該当する語句の反転表示命令を送る。データ中、対応語句の情報として「−1」が付与されている語句については反転は行わない。以上で、対応語句表示処理を終了する。
【0046】
選択された語句のある文が、図4の5番目の文のように、原文を入力キーとして検出した、原文に類似した翻訳用例の訳文を翻訳結果の訳文として利用した文である場合には、ステップS22以下の処理フローに従う。まず最初に、翻訳部24を通じて、辞書部21の知識・情報を用いて、翻訳対象原文(入力原文)、利用された翻訳用例の原文(第1言語文)(図4の「The official name of our laboratory is the Knowledge management Laboratory.」に相当)、同翻訳用例の訳文(第2言語文)(図4の「当研究所は正式には知識管理研究所と呼ばれます。」に相当)の辞書引き・形態素解析を行い(S22)、続いて同翻訳用例の原文・訳文の構文解析を行う(S23)。これは、翻訳用例を利用した文である場合には、図6に示すような原文情報の原文データと訳文情報のデータ構造が得られていないためである。
【0047】
図8は、翻訳用例を利用した文の原文の英語文を構文解析まで行った後の解析結果の一例の説明図である。ここでは要素間の修飾関係のみ示し関係名は省略しているが、実際には関係名とともに解析構造が得られる。同様の解析を訳文の日本語文に対しても行う。
【0048】
解析結果が得られると、翻訳用例の原文(第1言語文)の英語文を第2言語文の構造に変換する処理を行い、英語文中の構成要素が対応する第2言語の語句の候補と構造を得る。また、翻訳用例の訳文(第2言語文)の日本語文の解析結果構造に対して、第1言語文への変換処理のうち、日本語文中の構成要素が対応する第1言語の語句の候補を付与する処理までを行う(S24)。
【0049】
図9は、図8に示した原文の変換結果の一例を示す説明図である。図中、「SW」で示しているのは、図中の日本語の語句が英語文中のどの語句から導かれたかを示している。「TW」で示しているのは、日本語の訳語候補として存在する訳語の候補のリストである。複数あるものは、コンマで区切って列挙している。
【0050】
一方、図10は、翻訳用例を利用した文の訳文に対して訳文の文構造のまま対応する原文の訳語を付与した結果の一例の説明図である。すなわち、第2言語の日本語文を構文解析した結果を第1言語である英文に完全に変換せずに、日本語構造のまま対応する英語訳語を「TW」情報として付与した結果の一例の説明図である。
【0051】
この実施の形態では、第2言語の文については、構文解析後、変換処理までは行わずに、第2言語の構造のまま対応する第1言語の訳語候補を得るまでの処理を行う。第2言語文については、構文解析は行わずに、辞書引き・形態素解析の後、直接対応する第1言語の訳語を得るという実施方法も可能であるが、一般的には構文解析まで行ってからの方が、対応する訳語を得る上で、構文情報を利用できるため、より適切な訳語候補を得ることができる。
【0052】
翻訳用例の原文(第1言語文)、訳文(第2言語文)のそれぞれの構成要素に対する訳語情報が得られると、共通語句対応付け手段25aにより、原文と訳文の中のどの要素とどの要素が対応しているかのチェック(対応語句の判定)を行い、対応する要素のペアを第1言語文の解析・変換結果と第2言語文の解析結果から抽出する(S25)。処理の流れの概要を以下に示す。
【0053】
[1]以下の処理を第1言語の解析結果の各構成要素ごとに行う。
【0054】
[1-1] 第1言語文の見出し語(図8相当の解析結果より取得。「the」「name」「of」など楕円で囲まれた部分)を、第2言語文の解析結果(図10相当)の中でTW候補に含む要素を探し、見出し語に対応する訳語を対応候補として抽出する。複数存在すれば、複数候補のペアを抽出する。
【0055】
[1-2] 第1言語の訳語候補(図9相当の変換結果より取得)の一つが第2言語文の解析結果中の構成要素と一致するかどうかをチェックし、一致するものがあれば対応候補として抽出する。複数存在すれば複数候補のペアを抽出する。
【0056】
[2]上記[1]の結果、対応関係に重複がなく、ユニークに対応が決まるものは、対応語句として確定する。また、片方の構造中の1つの要素が他方の構造では2つ以上の連続要素に一致する場合など、要素数が一致しないケースでも対応語句として抽出する。
【0057】
[3]上記[1]の結果、対応関係にあいまい性がある場合、例えば、同じ語が2回用いられているような場合は、他の対応語句候補と解析結果中での直接的修飾関係や、修飾関係の交差の有無や、部分構造中での他の対応語句候補との共存関係をもとに、より可能性の高い対応関係を選択し、あいまい性を解消する。
【0058】
[4]上記[3]までに対応語句候補が抽出されると、これらの対応語句候補の第1言語文の解析結果構造(図8相当)と第2言語文の解析結果構造(図10相当)との中で、構造的に連続している部分の検出を行う。
【0059】
図8〜図10の例では、[2][3]の結果以下のような語句が対応すると判定される。
【0060】
(英)official = (日)正式
(英)name = (日)名称
(英)of = (日)の
(英)our = (日)当
(英)laboratory = (日)研究所
(英)management = (日)管理
(英)knowledge = (日)知識
図9に示すように、「laboratory」「研究所」は2個ずつあるが、[3]により、他の構成要素との直接的修飾関係の情報を使って、それぞれ1対1に対応要素を同定できる。
【0061】
続いて[4]の結果、以下の対応が抽出される。2番目、3番目は1番目の連続の一部をなす名詞句である。このような部分的な句の検出も行う。
【0062】
(英)official / name / of / our / laboratory = (日)当研究所の正式名称
(英)official / name = (日)正式名称
(英)our / laboratory = (日)当研究所
(英)knowledge / management / laboratory = (日)知識管理研究所
上記の処理の結果、翻訳用例の原文と訳文は、図6の翻訳処理を経た原文と訳文のデータ構造と同様のデータ構造として表される。
【0063】
図11は翻訳用例に対するデータ構造の一例の説明図であり、下記の翻訳用例に対するデータ構造の一例を示している。図11(a)は原文のデータ構造、図11(b)は訳文のデータ構造である。
【0064】
原文:The official name of our laboratory is the Knowledge Management Laboratory.
訳文:当研究所は正式には知識管理研究所と呼ばれます。
【0065】
次に、図7のステップS25で翻訳用例の原文及び訳文の対応関係の判定処理を終えると、続いて差分相当語句対応付け手段25bにより、翻訳対象原文(入力原文)と翻訳用例の訳文とを対応付ける対応付け処理を行う(S26)。翻訳対象原文に対しては、ステップS22において辞書引き・形態素解析結果を得ている。また、当初翻訳用例を検索した処理において、翻訳対象原文と翻訳用例の原文との差分語句の判定は行われている。すなわち、図3、図4で色付け表示している語句である。
【0066】
そこで、図11に示すような翻訳用例の原文に対するデータ構造を参照し、以下のようにして、翻訳対象原文のデータ構造の対応語句情報を付与する。
【0067】
[1] 翻訳用例の原文と翻訳対象原文との差異となっていない共通要素については、翻訳用例の原文と訳文との対応語句の情報(図11(a)の配列の個々の要素の最右カラムの数字情報)をそのまま翻訳対象原文のデータ構造にコピーする。
【0068】
[2]差異となっている要素については、対応する翻訳用例の原文中の差異の要素の情報を使って以下の処理をする。
【0069】
[2-1]差異部分の構成要素の語数が1対1の場合は、対応する翻訳用例の原文中の差異の要素の訳文との対応語句の情報(図11(a)の配列の個々の要素の最右カラムの数字情報)をコピーする。
【0070】
[2-2]差異部分の構成要素の語数が1対1以外の場合は、翻訳用例、翻訳対象原文ともに連続要素を連結し1対1のデータ構造変更を施した上、対応する翻訳用例の原文中の差異の要素の訳文との対応語句の情報(図11(a)の配列の個々の要素の最右カラムの数字情報)をコピーする。
【0071】
図12は、図11の翻訳用例に対するデータ構造に対し対応語句情報を付与した一例の説明図である。図12(a)は翻訳用例の変更後の原文データ、図12(b)は翻訳用例の変更後の訳文データ、図12(c)は変更後の原文データである。
【0072】
図4に示すように、原文データのうち、翻訳用例の原文と翻訳対象原文との第一の差異である翻訳対象原文の「general」については、翻訳用例の原文との差異語数が1対1であるため、そのまま翻訳用例の原文の「official」の対応語句の情報を自身の対応語句情報としてコピーする。第2の差異部分である「KM lab」については、翻訳用例の原文の差異部分「Knowledge Management Laboratory」と語数が異なるため、翻訳用例の原文中の差異部分「Knowledge Management Laboratory」と訳文中の対応語句部分の「知識管理研究所」の部分を一つの要素に統合し、入力原文側も「KM lab」を一つの要素に統合し、いずれも1対1の対応となるようデータ構造を変更し、翻訳用例の対応語句情報も設定し直した上で、その情報を原文データの対応語句情報としてコピーする。以上のように、対応語句の判定処理が終わると、ユーザが選択した語句の対応語句を反転表示する処理に進む(S27)。
【0073】
翻訳用例の訳文が当該入力原文の訳文として利用されている本ケースでは、図12(b)のデータが訳文のデータとして扱われ、前述の翻訳処理が行われた文での処理と同様の表示を行うことができる。
【0074】
図13は、図7のステップS27で、翻訳用例の表示画面上で原文中の語句を選択した場合の一例を示す説明図であり、原文中の「general」を選択して対応語句表示の指示をしたときに、対応語句として「正式には」が反転表示されている例を示している。
【0075】
図14は、翻訳用例の表示画面上で原文中の語句を選択した場合の他の一例を示す説明図であり、原文中の「KM lab」ないしは「KM」、「lab」を選択して対応語句表示の指示をしたときに、対応範囲として「KM lab」と「知識管理研究所」が反転表示されている例を示している。語句の選択は原文中の語句に代えて訳文領域中の語句に対して行っても原文中の場合と同様に対応する原文領域中の語句の反転表示を行うことができる。
【0076】
次に、ステップS21の判定で、翻訳処理が行われた原文あるいは訳文でなく、また、翻訳用例の利用でもない場合は、翻訳処理の結果として完全一致の翻訳用例が利用された場合や、手入力で訳文を入力した場合などが相当する。この場合はステップS28〜S31までの処理が行われる。ステップS28〜S31までの処理は、ステップS22〜S25の翻訳用例に対して行った処理と同様であるため説明を省略する。
【0077】
以上述べたように、翻訳用例の差分に対して対応語句表示指示をすることで、編集すべき訳文用例の語句を知ることができる。この例は短文であるが、長文になると対応を人間が判断するのは手間がかかるが、本発明の実施の形態によれば翻訳用例の差分に対して対応語句表示指示をするので、編集すべき訳文用例の語句を知るための負担を軽減することができる。
【0078】
次に、原文中の任意の語句を選択してその翻訳結果を得て、その翻訳結果を基に訳文を再構成する処理について説明する。図15は、翻訳部24のフレーズ翻訳手段24bでのフレーズ翻訳処理の流れを示すフローチャートである。翻訳部24のフレーズ処理手段24bは、選択された語句に対する翻訳結果を得るものである。
【0079】
入力部16から原文中の任意の語数からなる語句が選択され、フレーズ翻訳指示をされた場合には、制御部23は原文の情報と選択された語句の範囲の情報とを翻訳部24に送る(S31)。翻訳部24では原文の情報及び選択された語句の範囲の情報を入力すると、フレーズ翻訳手段24bによって選択語句に対する翻訳を行わせる(S32)。フレーズ翻訳手段24bは、原文全体を翻訳し、選択された語句に相当する訳文中の部分単語列を抽出する。抽出結果としては、部分単語列を構成する個々の語ごとに可能性としてあり得る訳語候補の情報も含める。原文全体を翻訳するのは、他の語句との関係で訳語が決まるケースに対応するためであるが、単純に個々の語句を辞書引きし、その訳語候補を求めるというシンプルな実施形態も可能である。
【0080】
図16は図15のステップS33でのフレーズ翻訳結果の表示の一例を示す説明図であり、図13に示す翻訳対象原文中の「general」を選択したときのフレーズ翻訳結果の表示例を示している。また、図17は図15のステップS33でのフレーズ翻訳結果の表示の他の一例を示す説明図であり、「KM lab」を選択したときのフレーズ翻訳結果の表示例を示している。
【0081】
図16及び図17に示すように、複数の訳語候補がある場合には、プルダウンメニューで他の候補を参照したり選択することができる。図16及び図17では、それぞれ反転している訳語が選択しようとしている訳語であり、このようにして訳語を選択した状態で、「訳文に反映」ボタンをクリックすると訳文の再構成処理が開始される。
【0082】
図18は、翻訳部24の訳文再構成手段24cでの訳文の再構成処理の流れを示すフローチャートである。最初に、翻訳対象原文中から選択された語句に対応する訳文中の語句の範囲(置き換え語句の範囲)を取得し(S41)、置き換える訳文中の語句の属性他の情報を加味して語句をアレンジする(S42)。そして、訳文へ語句の置き換えを反映する(S43)。
【0083】
すなわち、翻訳部24の訳文再構成手段24cでの訳文の再構成処理では、訳文中の語句の範囲を取得すると、訳文再構成手段24cは、置き換える語句の属性他の情報を参照して、フレーズ翻訳の結果がそのまま置き換え可能か、あるいは語形変化や日本語動詞であれば補助用言を添える必要があるかなどを加味し、訳文を完成させる上で必要な変換を施す。
【0084】
例えば、英語名詞であれば、複数形活用や所有格変化、日本語用言の活用や態の変換など、通常の翻訳時に形態素生成処理で行っている範囲のさまざまなアレンジが可能である。図16では「一般的に」が選択されているが、辞書部21の接続規則21gに基づき、訳文データの「正式には」の属性情報の「連用形+{は}」を参照し「一般的には」に変換を施す。これは「一般的な」が選択されている場合にも同様で、連用形に活用させた上で「は」を付加し「一般的には」に変換する。
【0085】
図19は図18のステップS43でのフレーズ翻訳結果を訳文に反映し訳文が再構成された後の画面表示の一例を示す説明図であり、原文中の「general」に対してフレーズ翻訳結果を訳文に反映し訳文が再構成された後の画面表示例を示している。また、図20は図18のステップS43でのフレーズ翻訳結果を訳文に反映し訳文が再構成された後の画面表示の他の一例を示す説明図であり、「KM lab」に対してフレーズ翻訳結果を訳文に反映し訳文が再構成された後の画面表示例を示している。
【0086】
以上の説明では、原文の「general」を選択して複数の訳語候補を表示するようにしたが、逆に、翻訳用例の訳語を選択して入力原文の原文領域の語句の反転表示を行うようにしてよい。図21は翻訳用例の訳語を選択した場合の図15のステップS33でのフレーズ翻訳結果の表示例の一例を示す説明図である。
【0087】
訳文表示領域の翻訳用例訳文中の「正式に」を選択したとき、意味的に対応していないが、翻訳対象原文と翻訳用例の原文との差分に対応する訳文中の差分箇所として原文中の語句「general」に対応する訳語候補(フレーズ翻訳結果として得る)をプルダウンメニューで提示する。このプルダウンメニューで提示された訳語の中から適切な語句を選択して訳文に反映することができる。その際に、辞書部に学習辞書を有する場合にはその学習辞書に選択した訳語を蓄積するようにすることも可能である。このように、翻訳用例中の「正式に」を選択したときに、意味的に対応していないが原文中の差分に対応する訳文中の差分箇所としての原文中の語句「general」に対応する訳語候補が出てくることを特徴としている。
【0088】
また、置き換える訳文中の語句の属性のみの参照ではなく、その前後の語句の情報まで参照するように構成してもよい。例えば、日本語の用言のように、後に来る語句によって活用を変える必要のある場合には、直後の語句との接続性を再判定して活用し直させる必要があるためである(例:「重要なので」の「ので」には「重要な」という形容動詞の連体形が接続するが、「大きな」は接続できず「大きいので」とする必要がある)。
【0089】
また、逆に、訳文の再構成処理において、差分でない部分の訳文要素の活用形等の接続を調整する構成も有効である。これは例えば英語の訳文である場合では、差分が主語の部分に相当している場合に述部の動詞の活用を変更するケースが相当する。また、日本語の訳文である場合には、「読んでも」では「でも」となるが「書いても」では「ても」となるようなケースを想定した接続の調整が相当する。この段階では図10のような構文解析の結果や図12に示すような単語列のデータが得られているので、それを参照して一定のチェックと訳文データの調整を施すことができる。
【0090】
訳文への反映時の接続調整のための規則としては、表1に示すような多くの接続規則21gが辞書部21に記憶されている。訳文中の置き換え箇所の境界がこれにマッチするかどうかを調べ、マッチすれば翻訳部24の訳文再構成手段24cは形態素生成規則21fを用いて語句の活用形等の変換を施した後、訳文の置き換えを行う。
【表1】
【0091】
表1の接続規則21gは、「=」をはさんで左辺「変換前の形態素の並びの定義」と右辺「変換後の形態素の並びの定義」からなる。接続規則の左辺のパターンにマッチしたら右辺のパターンに語句の活用形等を変換する。「連用形2」と数字が入っているのは、連用形に2つの活用があるため、どのタイプの活用かを示すものである。形態素生成規則21fには、活用の仕方が定義されている。
【0092】
例えば、接続規則(1)では「重要なので」、接続規則(2)では「機能するので、美しいので」、接続規則(3)では「読んで、脱いで」、接続規則(4)では「重要で」、接続規則(5)では「書いて、走って」、接続規則(6)では「美しくて」というふうに接続が調整される。この接続調整により、翻訳用例訳文中の語句を、原文と翻訳用例原文との差分語句に対応する訳語で単に置き換えただけでは非文法的な訳文となりうる場合でも、文法的な訳文を生成することができる。
【0093】
本発明の実施の形態によれば、翻訳対象原文中と翻訳用例の原文との差異部分と、当該差異部分に相当して編集が必要な翻訳用例の訳文中の語句とを対応付けて、ユーザの操作指示に応じて、差異部分ごとに相当する箇所を他の語句と区別して表示するので、ユーザの指定する差異部分ごとに相当する翻訳用例の訳文中の語句を示すことができる。
【0094】
すなわち、翻訳対象原文を検索キーとして検索された翻訳用例と翻訳対象原文との差異部分が複数箇所に及んだり、長文で提示された翻訳用例の訳文中のどの箇所が翻訳対象原文の差異部分に相当して編集が必要な部分であるのかがわかりにくい場合であっても、容易にユーザの指定する差異部分ごとに相当する翻訳用例の訳文中の語句を示すことができる。従って、ユーザが訳文を編集し、当該翻訳対象原文に対する訳文を完成させるまでの手間を軽減することができる。
【0095】
また、翻訳対象原文の翻訳用例の原文との差異部分に対する適切な翻訳結果を簡単に得ることができ、かつ、翻訳用例の訳文の差異に相当する部分への編集を簡単に行える。
【図面の簡単な説明】
【0096】
【図1】本発明の実施の形態に係わる機械翻訳装置の構成図。
【図2】本発明の実施の形態における制御部でのユーザとの対話的処理の処理内容を示すフローチャート。
【図3】図2のステップS6での検索結果の表示画面の一例の説明図。
【図4】図2のステップS8での翻訳用例の表示画面の一例の説明図。
【図5】図2のステップS6以降の翻訳部での処理内容を示すフローチャート。
【図6】本発明の実施の形態における翻訳部での入力文の構造を解析した原文情報のデータ構造と訳文情報のデータ構造の一例の説明図。
【図7】本発明の実施の形態における制御部での対応語句表示の表示命令があってから選択された語句に対応する語句を反転表示するまでの処理の流れを示すフローチャート。
【図8】図7のステップS23での翻訳用例を利用した原文の英語文を構文解析まで行った後の解析結果の一例の説明図。
【図9】図8に示した原文の変換結果の一例を示す説明図。
【図10】翻訳用例を利用した文の訳文に対して訳文構造のまま対応する原文の訳語を付与した結果の一例の説明図。
【図11】翻訳用例に対するデータ構造の一例の説明図。
【図12】図11の翻訳用例に対するデータ構造に対し対応語句情報を付与した一例の説明図。
【図13】翻訳用例の表示画面上で原文中の語句を選択した場合の一例を示す説明図。
【図14】翻訳用例の表示画面上で原文中の語句を選択した場合の他の一例を示す説明図。
【図15】本発明の実施の形態における翻訳部のフレーズ翻訳手段でのフレーズ翻訳処理の流れを示すフローチャート。
【図16】図15のステップS33でのフレーズ翻訳結果の表示の一例を示す説明図。
【図17】図15のステップS33でのフレーズ翻訳結果の表示の他の一例を示す説明図。
【図18】本発明の実施の形態における翻訳部の訳文再構成手段での訳文の再構成処理の流れを示すフローチャート。
【図19】図18のステップS43でのフレーズ翻訳結果を訳文に反映し訳文が再構成された後の画面表示の一例を示す説明図。
【図20】図18のステップS43でのフレーズ翻訳結果を訳文に反映し訳文が再構成された後の画面表示の他の一例を示す説明図。
【図21】翻訳用例の訳語を選択した場合の図15のステップS33でのフレーズ翻訳結果の表示例の一例を示す説明図。
【符号の説明】
【0097】
11…機械翻訳装置、12…CPU、13…ROM、14…RAM、15…バス、16…入力部、17…表示部、19…記憶装置、20…機械翻訳プログラム、21…辞書部、21a…語彙部、21b…形態素解析規則、21c…構文解析規則、21d…変換規則、21e…構文生成規則、21f…形態素生成規則、21g…接続規則、22…用例辞書部、23…制御部、23a…対応表示制御手段、24…翻訳部、24a…翻訳用例検索手段、24b…フレーズ翻訳手段、24c…訳文再構成手段、25…用例処理部、25a…共通語句対応付け手段、25b…差分相当語句対応付け手段
【技術分野】
【0001】
本発明は、第1言語文とこの第1言語文を翻訳した第2言語文の関係を模倣して、第1言語の入力原文に対する第2言語文への翻訳文の作成を行う機能を有した機械翻訳装置及び機械翻訳プログラムに関する。
【背景技術】
【0002】
コンピュータにより翻訳対象である第1言語の原文を第2言語の文に翻訳する機能を有した機械翻訳装置がある。このような機械翻訳装置においては、第1言語文と第2言語文の対訳とからなる翻訳用例を予め翻訳用例データベースに複数蓄積しておき、入力された翻訳対象原文に類似する翻訳用例を検索して、翻訳対象原文とともに利用者に提示し、翻訳の支援を行う。翻訳用例の原文は翻訳対象原文とは完全一致していないことが多いので、当該翻訳用例の訳文を無編集で当該翻訳対象原文に対応する訳文として利用することはまれであり、通常は必要な編集を訳文に施した上で利用することになる。
【0003】
そこで、訳文の編集を軽減するために、翻訳用例中の原文と訳文中の対応語句をユーザに提示したり、当該翻訳対象原文の構成要素と共通する翻訳用例中の要素を強調表示するなどしてユーザに示すものが提案されている(例えば、特許文献1、特許文献2参照)。
【0004】
また、対応語句をユーザに提示するのとは逆に、翻訳用例の訳文中の語句のうち、翻訳対象原文中の語句に対応する語句以外を反転表示するなどしてユーザに提示するようにしたものもある(例えば、特許文献3参照)。
【0005】
さらに、第1言語例文と第2言語例文の語句との対応に関する情報とを含む対訳例文の複数組を記憶しておき、翻訳すべき第1言語の原文に類似する第1言語例文を複数組の対訳例文から検索し、原文と検索された対訳例文の第1言語例文との相違箇所を語句単位で判定し、第1言語例文中の相違箇所に対応する第2言語例文の語句を判定し当該語句を原文中の相違箇所の語句に置き換えた合成文を作成し、合成文に含まれる原文中の語句を当該語句に対応する訳語で置換した訳文を作成し、原文、原文に類似する第1言語例文、第1言語例文に対応する第2言語例文、合成文および訳文の少なくともいずれか一つを出力し、用例データベースに基づいて自然で質のよい翻訳を行うことができるようにしたものがある(例えば、特許文献4参照)。
【特許文献1】特開2003−330924号公報
【特許文献2】特開2005−339087号公報
【特許文献3】特開平9−245040号公報
【特許文献4】特開2006−11842号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかし、従来のものでは、翻訳対象原文と翻訳用例の原文との差分が当該翻訳用例の訳文のどの部分に相当するかについては、ユーザがそれぞれの原文や訳文を見比べて判断する必要がある。そのため、長文である場合や差異の部分が複数箇所に及ぶ翻訳用例の場合は、着目した差分に該当する翻訳用例の訳文中の箇所を特定するのに手間がかかる。
【0007】
本発明の目的は、翻訳対象原文と翻訳用例の原文との差異部分を翻訳用例の訳文中の語句に対応付けて他の語句と区別して表示でき、翻訳用例の訳文の差異に相当する部分への編集を容易に行える機械翻訳装置及び機械翻訳プログラムを提供することである。
【課題を解決するための手段】
【0008】
本発明の機械翻訳装置は、機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した辞書部、予め登録された第1言語の文と第2言語の文との対訳からなる翻訳用例を複数蓄積した用例辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力部と、翻訳対象の第1言語の原文や翻訳後の第2言語の訳文を表示する表示部と、前記機械翻訳プログラムを演算実行するCPUとを備えた機械翻訳装置において、入力された第1言語の翻訳対象原文を前記記憶部の辞書部を用いて翻訳するとともに前記翻訳対象原文を検索キーとしてその翻訳対象原文に対して前記記憶装置の用例辞書部から前記翻訳対象原文に類似する翻訳用例を検索する翻訳部と、前記翻訳部で検索された翻訳用例の原文と前記翻訳対象原文との差異部分を対応付けるともに当該差異部分に対して編集が必要な翻訳用例の訳文中の語句と翻訳対象原文中の語句とを対応付ける用例処理部と、ユーザの操作指示に応じて前記翻訳用例の原文と前記翻訳対象原文との差異部分ごとに相当する箇所を他の語句と区別して前記表示部に表示する制御部とを備えたことを特徴とする。
【発明の効果】
【0009】
本発明によれば、翻訳対象原文と翻訳用例の原文との差異部分を翻訳用例の訳文中の語句に対応付けて他の語句と区別して表示でき、翻訳用例の訳文の差異に相当する部分への編集を容易に行える。
【発明を実施するための最良の形態】
【0010】
図1は、本発明の実施の形態に係わる機械翻訳装置の構成図である。機械翻訳装置11は、第一言語を第二言語に翻訳して出力するものであり、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムがCPU12において実行されることにより実現される。機械翻訳装置11は、CPU12、ROM(Read Only Memory)13及びRAM(Random Access Memory)14がバス15を介して接続されている。バス15には、入力部16、表示部17及び記憶装置19が接続されている。
【0011】
記憶装置19には、機械翻訳プログラム20が記憶されるとともに辞書部21、用例辞書部22が記憶される。機械翻訳プログラム20は、制御部23、翻訳部24、用例処理部25を有している。そして、制御部23は対応表示制御手段23aを有し、翻訳部24は、翻訳用例検索手段24a、フレーズ翻訳手段24b、訳文再構成手段24cを有し、用例処理部25は、共通語句対応付け手段25a、差分相当語句対応付け手段25bを有している。また、辞書部21には、語彙部21a、形態素解析規則21b、構文解析規則21c、変換規則21d、構文生成規則21e、形態素生成規則21f、接続規則21gなどが格納されている。
【0012】
CPU12は、入力部16からの入力信号に基づいてROM13から機械翻訳装置11を起動するためのブートプログラムを読み出して実行し、さらに記憶装置19に記憶された図示省略のオペレーティングシステムを読み出す。CPU12は、入力部16の入力信号に基づいて、各装置の制御を行い、記憶装置19などに記憶された機械翻訳プログラム20及び辞書部21のデータを読み出してRAM14にロードするとともに、RAM14から読み出されたプログラムのコマンドに基づいて、データの計算又は加工など、後述する一連の処理を実現する。
【0013】
入力部16は、第一言語の翻訳対象原文の文字データやファイルデータ等のデータやコマンドを入力する入力手段であり、通常、キーボードやマウス・タッチパネルなどのポインティングデバイス、音声認識や文字認識機能、あるいは、CDドライブなどの外部記憶媒体読取装置、ネットワーク入力装置などによって実現される。すなわち、入力部16は、制御部23に対して翻訳対象となる文の入力、翻訳指示や辞書登録指示などの各種コマンドの入力を行うものである。また、翻訳対象文の入力には、OCR、フレキシブルディスク、磁気テープ、磁気ディスク、インターネットからの読み込み、あるいはマイクで発話文を取りこんでディクテーション装置によって自然言語の文字列に変換したものの読み込みなどの入力も含まれる。マイクによる音声入力は各種コマンドの入力にも用いることができる。
【0014】
表示部17は、入力部16から入力されたデータや翻訳結果の出力手段であり、画面や翻訳結果等をCRTや液晶ディスプレイなどの表示装置に表示する場合、翻訳結果等をファイルに保存する場合などがある。すなわち、表示部17は、翻訳部24の出力である翻訳結果を出力したり、入力文に対する翻訳用例を用例辞書部22から検索して表示させる指示命令など、制御部23への各種命令に対する制御部23からの応答を表示出力したりする。表示部17としては各種ディスプレイなどの表示手段が通常であるが、翻訳結果の出力には、印刷機などの印字手段、あるいは直接フレキシブルディスク、磁気テープ、磁気ディスクへ出力する手段や他のメディアへ送信する送信手段でもよい。また、スピーカーへの音声出力でもよい。
【0015】
辞書部21は、語彙部21a、形態素解析規則21b、構文解析規則21c、変換規則21d、構文生成規則21e、形態素生成規則21fからなり、翻訳部24での翻訳処理を実行する際に参照される各種情報・知識から構成されている。
【0016】
用例辞書部22は、第1言語の文と第2言語の文の対訳とからなる翻訳用例を蓄積している。本発明の実施の形態では、第1言語と第2言語との2種の言語間の翻訳のための用例を有する例で説明するが、3言語以上の多言語間の翻訳で利用できるよう対応する複数の用例を組にして蓄積する多言語用翻訳用例辞書の構成としてもよい。
【0017】
翻訳部24は、辞書部21中の知識・情報と用例辞書部22中の翻訳用例を元に、入力文に対する訳文を生成しユーザへの提示を行うものであり、用例辞書部22から入力文を検索キーとして翻訳用例を検出する翻訳用例検索手段24aと、入力文中の選択された任意の語句(フレーズ)に対する翻訳を行うフレーズ翻訳手段24bと、フレーズ翻訳手段24bにより得られた翻訳結果を訳文中の相当箇所に適した形態に変換を施して訳文を再構成する訳文再構成手段24cを有する。
【0018】
用例処理部25は、共通語句対応付け手段25aと差分相当語句対応付け手段25bとを有する。共通語句対応付け手段25aは、翻訳部24の有する構文解析手段(図示省略)と辞書部21の知識・情報とを用いて、翻訳用例中の第1言語の文(原文)と第2言語の文(訳文)との中の対応する語句を対応付け、さらに入力された翻訳対象原文のうち、翻訳用例の原文と共通である語句とも対応付けを行う。また、差分相当語句対応付け手段25bは、入力文(翻訳対象原文)のうち、翻訳用例の原文と異なる差異部分に相当する箇所を翻訳用例の訳文中から検出して、入力文中の当該差異部分との対応付けを行う。
【0019】
制御部23は対応表示制御手段23aを有する。対応表示制御手段23aは、用例処理部25により対応付けられた結果に基づいて、ユーザが入力文中の任意の語句をマウスでクリックするなどして選択指示をすると、翻訳用例の訳文中からその選択された語句に対応する箇所を反転表示させるなど、他の語句と区別表示する。
【0020】
次に、全体の動きを制御する制御部23について説明する。図2は制御部23におけるユーザとの対話的処理の処理内容を示すフローチャートである。まず、制御部23は入力部16より翻訳対象原文の入力があるか否かを判定し(S1)、翻訳対象原文の入力があると、表示部17に対して翻訳対象原文の表示を指示する(S2)。
【0021】
次に、制御部23は翻訳指示命令があるか否かを判定し(S3)、翻訳指示命令が送られてくると翻訳部24に対して翻訳処理開始の指示命令をする(S4)。これにより、翻訳部24は辞書部21の知識・規則を用いて、入力された翻訳対象原文に対して、第2言語の訳文への翻訳処理を行う。そして、翻訳処理が終了すると、翻訳結果は制御部23を通じて表示部17へ送られユーザに提示される。
【0022】
次に、制御部23は、翻訳対象原文のうち特定文が検索キー文として指定され、翻訳用例検索処理を起動する翻訳用例検索指示命令があった否かを判定し(S5)、翻訳用例検索指示命令があったときは、翻訳部24に指示された検索キー文の情報とともに翻訳用例の検索命令を送る(S6)。翻訳部24では、翻訳用例検索指示命令を受けると、翻訳用例検索手段24aにより用例辞書部22に登録されている翻訳用例中から、検索キー文に類似する原文を持つ翻訳用例を検索し、その検索結果を制御部23に返す。制御部23に送られた検索結果は表示部17に送られ、ユーザに提示される。
【0023】
ここで、翻訳用例検索においては、所定の類似度以上の用例が複数検索された場合には、類似度に応じて順番付けして検索する。あるいは、最も類似度の高い用例を1件のみ検索するようにしてもよい。また、類似度の判定においては、文字列ベースや形態素ベースなどのいくつかの基準を採用して判定する。さらに、同義語や類義語の情報を類似度計算に利用してもよい。
【0024】
図3は、図2のステップS6での検索結果の表示画面の一例の説明図である。図3に示すように、画面上部は翻訳対象原文領域とその訳文領域からなり、画面下部は検索キー文とされた翻訳対象原文に対する翻訳用例の原文領域と訳文領域とからなる。
【0025】
画面上部の翻訳対象原文領域には入力部から入力された翻訳対象原文が表示され、画面上部の翻訳対象訳文領域には翻訳指示命令により翻訳部24により翻訳された結果が表示される。そして、画面下部には、検索キー文とされた翻訳対象原文に対する翻訳用例の原文と訳文とが対になって表示される。
【0026】
図3では、検索された翻訳用例の結果が二つの場合を示しており、翻訳用例の原文で色づけされている部分は、それぞれ翻訳対象原文「The general name of our laboratory is the KM Lab.」との差異部分である。本実施形態では、翻訳対象原文の色づけは、翻訳用例の検索直後(図3の状態)は検索された一つ目の翻訳用例の原文「The official name of our laboratory is the Knowledge Management Laboratory.」との差異に相当する部分に対して行っており、ユーザが二つ目の翻訳用例の原文「The official name of the product is KnowledgeMeister.」あるいは訳文「本製品は正式名称をナレッジマイスターといいます。」のいずれかを選択したときに、その選択された翻訳用例との差分の表示に切り替えるように構成している。
【0027】
翻訳対象原文と検索された一つ目の翻訳用例の原文とは以下の部分が対応する差異部分であるとして、同色で色分けされる。
【0028】
・ 翻訳対象原文の「general」と翻訳用例の原文の「official」
・ 翻訳対象原文の「KM Lab」と翻訳用例の原文の「Knowledge Management Laboratory」
そして、ユーザが二つ目の翻訳用例を選択したときは、以下の部分の差異の対応を表すよう色分け表示を切り替える。
【0029】
・ 翻訳対象原文の「general」と翻訳用例の原文の「official」
・ 翻訳対象原文の「our laboratory」と翻訳用例の原文の「the product」
・ 翻訳対象原文の「the KM Lab」と翻訳用例の原文の「KnowledgeMeister」
次に、図2のステップS7では、図3に示すような翻訳用例の検索結果が表示されている状態で、ユーザが特定の翻訳用例を選択し、その翻訳用例の訳文を当該翻訳対象原文に対する訳文として出力するための翻訳用例訳文出力命令が入力されたか否かを判定する(S7)。この翻訳用例訳文出力命令は、例えば、図3の特定の翻訳用例をマウスでクリックするなどして選択させる。翻訳用例訳文出力命令があった場合には、図4に示すように、選択された翻訳用例の訳文を検索キーとなった翻訳対象原文に対応する訳文領域に表示する(S8)。図4では、先頭に表示されている翻訳用例の訳文をユーザがマウスでクリックした場合を示しており、翻訳用例の訳文領域が反転表示され、翻訳対象原文に対する訳文領域に翻訳用例の訳文が表示される。すなわち、選択された翻訳用例が5番目の翻訳対象原文の訳文領域に表示されている。この一例では検索結果である翻訳用例の訳文がクリックされた場合を示しているが、翻訳用例の原文を選択させてもよい。
【0030】
続いて、制御部23は、翻訳対象原文の原文領域あるいは訳文領域に表示された語句が選択され、双方の対応する語句を区別表示させるための語句対応表示指示命令の命令操作が入力部16より入力されたか否かを判定する(S9)。語句対応表示指示命令の命令操作が入力された場合には、選択された語句を判定し、その語句を反転表示させるなど、他の語句と区別する表示制御を行う(S10)。例えば、翻訳対象原文の原文領域の5番目の「laboratory」がマウスでダブルクリックされたとすると、この語句に対応する訳文領域の「研究所」を反転表示させるなどの表示制御を行う。この処理の詳細については後述する。
【0031】
次に、制御部23は、翻訳対象原文の原文領域の語句に対する翻訳結果を得るためのフレーズ翻訳指示命令が入力部16より入力されたか否かを判定する(S11)。その命令操作が入力された場合には、フレーズ翻訳処理を行う(S12)。すなわち、翻訳部24に対して選択語句に対するフレーズ翻訳命令を送り、翻訳部24から翻訳結果を得て、その翻訳結果を表示部17に表示する。この処理の詳細についても後述する。
【0032】
フレーズ翻訳の結果が表示された状態で、差異部分の語句に対する訳語候補の中のいずれかから選択した訳語を訳文に反映して、訳文を再構成する訳文再構成指示命令が入力されたどうかを判定し(S13)、その訳文再構成指示命令が入力されたときは、選択された翻訳候補と当該翻訳対象原文及び訳文の情報を再び翻訳部24に送り、訳文を再構成させる(S14)。再構成された訳文は、当該翻訳対象原文に対する訳文領域の訳文として表示する。この処理の詳細についても後述する。
【0033】
また、制御部23は、入力部16より全体の処理終了の指示が入力されたか否かを判定し(S15)、全体の処理終了の指示が入力された場合にはすべての処理を終了する。さらに、それ以外のその他の命令が入力されたか否かを判定し(S16)、その他の命令が入力されたときは、その入力に応じた処理を行う(S17)。このように、制御部23は入力部16から各種の指令に応答して処理を行い、全体の処理終了の指示に基づき処理を終了する。
【0034】
次に、翻訳部24に翻訳対象原文が入力されてから、目的言語の訳文を生成するまでの処理の流れを説明する。図5は、図2のステップS4での翻訳部24の処理内容を示すフローチャートである。
【0035】
辞書部21は、翻訳処理の各ステップを実行する際に参照される各種情報・知識から構成されている。翻訳部24は、辞書部21中の知識・情報と用例辞書部22中の翻訳用例を基に、入力文に対する訳文を生成しユーザへの提示を行う。全体の流れとしては、用例辞書部22の中に有用な翻訳用例があればそれを元に訳文を生成し、有用な翻訳用例がなければ、辞書部21の知識・情報のみを用いて訳文の生成を行う。
【0036】
まず、翻訳部24に翻訳対象原文である入力文が送られてくると、その入力文に対して辞書部21中の語彙部21aと形態素解析規則21bとを用いて、辞書引き処理・形態素解析を行い、その品詞・活用の種類、訳語ほか、翻訳処理に必要な各種情報を求める(S51)。この結果、入力文を構成する単語の品詞、活用の候補が出力される。
【0037】
続いて、用例辞書部22に対して用例検索を行う。すなわち、入力文と同じ原文を持つ翻訳用例が蓄積されているかを検出する(S52)。この段階では、形態素解析結果や原文中の各語に対する各種情報が取得されているため、カタカナや送り仮名の表記の揺れや、漢字表記とひらがな表記の揺れ、送り仮名の有無の揺れの情報も取得されている。これらの情報により、完全に入力文と1文字違わず一致した翻訳用例でなくとも、これらの表記の揺れに関する違いについては違いとしては認識しないような揺れの吸収処理が可能である。一方、表記の揺れは吸収しない完全一致の翻訳用例があるときのみ検索成功とする構成も可能である。また、文字・単語上の違いがあっても同値とみなす差異文字数ないしは差異単語数の割合の下限値を設けて検索の可否を制御する構成であってもよい。これにより、語句・文字の使われ方が類似した翻訳用例を抽出できる。このような場合は、用例検索のタイミングを辞書引き処理・形態素解析の後にする必要もなく、図2の処理の最初に行う構成でもよい。ステップS52の用例検索の結果が成功であれば(S53)、検索された翻訳用例の訳文を入力文の訳文として生成して処理を終了する。
【0038】
一方、用例検索の結果が不成功のとき、すなわち、そのまま訳文に利用できる翻訳用例がない場合は、引き続き構文解析処理を行う(S54)。この構文解析処理では、単語、品詞、活用の並びを入力とし、構文解析規則21cを使って、入力文の構造を解析し原言語の構文構造を構築する。
【0039】
入力文の構文構造が得られると、変換規則21dを使って原言語の構文構造から目的言語構造への変換処理を行う(S55)。この段階で、目的言語の文としてどのような構文で訳出するか、どのような訳語を出力するかが判定される。続いて、構文生成規則21e、形態素生成規則21fを用いて、目的言語の文の最終的な生成が行われ(S56)、一入力文に対する翻訳処理を終了する。
【0040】
ステップS56での訳文の生成を終えた状態では、その訳文を構成する単語列の品詞、活用、属性情報などが得られており、また、原文中の構成要素にどの訳文中の語句が対応しているかの情報も得られている。
【0041】
図6は、翻訳部24での入力文の構造を解析した原文情報のデータ構造と訳文情報のデータ構造の一例の説明図である。図6では、下記に示す例文の原文情報のデータ構造を図6(a)に示し、訳文情報のデータ構造を図6(b)に示している。
【0042】
原文:The official name of our project is Unexplored Software Creation Project.
訳文:我々のプロジェクトの正式な名前は未踏ソフトウェア創造プロジェクトです。
【0043】
原文、訳文の個々の構成要素は、品詞情報、その他の属性情報、及びそれぞれ他方のデータ構造のどの配列に対応するかを示す配列番号とを有している。「−1」が入っている要素は、対応する語句がないことを示す。
【0044】
次に、原文領域に表示されている原文あるいは訳文領域に表示されている訳文の中の任意の語句が選択され、対応する他方の領域の語句を区別表示させるための操作命令が制御部23に入力された場合の処理を説明する。ここで、区別表示は反転表示させる場合について説明する。
【0045】
図7は、制御部23での対応語句表示の表示命令があってから翻訳対象の原文または訳文の中から選択された語句に対応する訳文または原文の語句を反転表示するまでの処理の流れを示すフローチャートである。この処理は、選択された語句が含まれる文がどのようなタイプかによって処理の内容が異なる。まず、選択された語句が含まれる文(対象文)がどのようなタイプかを判断する(S21)。当該文が翻訳処理が行われた原文あるいは訳文である場合には、既に、図6に示すようなデータが取得できているため、選択された語句に対応する語句をこのデータから取得し、ステップS27へ進み、表示部17に対して該当する語句の反転表示命令を送る。データ中、対応語句の情報として「−1」が付与されている語句については反転は行わない。以上で、対応語句表示処理を終了する。
【0046】
選択された語句のある文が、図4の5番目の文のように、原文を入力キーとして検出した、原文に類似した翻訳用例の訳文を翻訳結果の訳文として利用した文である場合には、ステップS22以下の処理フローに従う。まず最初に、翻訳部24を通じて、辞書部21の知識・情報を用いて、翻訳対象原文(入力原文)、利用された翻訳用例の原文(第1言語文)(図4の「The official name of our laboratory is the Knowledge management Laboratory.」に相当)、同翻訳用例の訳文(第2言語文)(図4の「当研究所は正式には知識管理研究所と呼ばれます。」に相当)の辞書引き・形態素解析を行い(S22)、続いて同翻訳用例の原文・訳文の構文解析を行う(S23)。これは、翻訳用例を利用した文である場合には、図6に示すような原文情報の原文データと訳文情報のデータ構造が得られていないためである。
【0047】
図8は、翻訳用例を利用した文の原文の英語文を構文解析まで行った後の解析結果の一例の説明図である。ここでは要素間の修飾関係のみ示し関係名は省略しているが、実際には関係名とともに解析構造が得られる。同様の解析を訳文の日本語文に対しても行う。
【0048】
解析結果が得られると、翻訳用例の原文(第1言語文)の英語文を第2言語文の構造に変換する処理を行い、英語文中の構成要素が対応する第2言語の語句の候補と構造を得る。また、翻訳用例の訳文(第2言語文)の日本語文の解析結果構造に対して、第1言語文への変換処理のうち、日本語文中の構成要素が対応する第1言語の語句の候補を付与する処理までを行う(S24)。
【0049】
図9は、図8に示した原文の変換結果の一例を示す説明図である。図中、「SW」で示しているのは、図中の日本語の語句が英語文中のどの語句から導かれたかを示している。「TW」で示しているのは、日本語の訳語候補として存在する訳語の候補のリストである。複数あるものは、コンマで区切って列挙している。
【0050】
一方、図10は、翻訳用例を利用した文の訳文に対して訳文の文構造のまま対応する原文の訳語を付与した結果の一例の説明図である。すなわち、第2言語の日本語文を構文解析した結果を第1言語である英文に完全に変換せずに、日本語構造のまま対応する英語訳語を「TW」情報として付与した結果の一例の説明図である。
【0051】
この実施の形態では、第2言語の文については、構文解析後、変換処理までは行わずに、第2言語の構造のまま対応する第1言語の訳語候補を得るまでの処理を行う。第2言語文については、構文解析は行わずに、辞書引き・形態素解析の後、直接対応する第1言語の訳語を得るという実施方法も可能であるが、一般的には構文解析まで行ってからの方が、対応する訳語を得る上で、構文情報を利用できるため、より適切な訳語候補を得ることができる。
【0052】
翻訳用例の原文(第1言語文)、訳文(第2言語文)のそれぞれの構成要素に対する訳語情報が得られると、共通語句対応付け手段25aにより、原文と訳文の中のどの要素とどの要素が対応しているかのチェック(対応語句の判定)を行い、対応する要素のペアを第1言語文の解析・変換結果と第2言語文の解析結果から抽出する(S25)。処理の流れの概要を以下に示す。
【0053】
[1]以下の処理を第1言語の解析結果の各構成要素ごとに行う。
【0054】
[1-1] 第1言語文の見出し語(図8相当の解析結果より取得。「the」「name」「of」など楕円で囲まれた部分)を、第2言語文の解析結果(図10相当)の中でTW候補に含む要素を探し、見出し語に対応する訳語を対応候補として抽出する。複数存在すれば、複数候補のペアを抽出する。
【0055】
[1-2] 第1言語の訳語候補(図9相当の変換結果より取得)の一つが第2言語文の解析結果中の構成要素と一致するかどうかをチェックし、一致するものがあれば対応候補として抽出する。複数存在すれば複数候補のペアを抽出する。
【0056】
[2]上記[1]の結果、対応関係に重複がなく、ユニークに対応が決まるものは、対応語句として確定する。また、片方の構造中の1つの要素が他方の構造では2つ以上の連続要素に一致する場合など、要素数が一致しないケースでも対応語句として抽出する。
【0057】
[3]上記[1]の結果、対応関係にあいまい性がある場合、例えば、同じ語が2回用いられているような場合は、他の対応語句候補と解析結果中での直接的修飾関係や、修飾関係の交差の有無や、部分構造中での他の対応語句候補との共存関係をもとに、より可能性の高い対応関係を選択し、あいまい性を解消する。
【0058】
[4]上記[3]までに対応語句候補が抽出されると、これらの対応語句候補の第1言語文の解析結果構造(図8相当)と第2言語文の解析結果構造(図10相当)との中で、構造的に連続している部分の検出を行う。
【0059】
図8〜図10の例では、[2][3]の結果以下のような語句が対応すると判定される。
【0060】
(英)official = (日)正式
(英)name = (日)名称
(英)of = (日)の
(英)our = (日)当
(英)laboratory = (日)研究所
(英)management = (日)管理
(英)knowledge = (日)知識
図9に示すように、「laboratory」「研究所」は2個ずつあるが、[3]により、他の構成要素との直接的修飾関係の情報を使って、それぞれ1対1に対応要素を同定できる。
【0061】
続いて[4]の結果、以下の対応が抽出される。2番目、3番目は1番目の連続の一部をなす名詞句である。このような部分的な句の検出も行う。
【0062】
(英)official / name / of / our / laboratory = (日)当研究所の正式名称
(英)official / name = (日)正式名称
(英)our / laboratory = (日)当研究所
(英)knowledge / management / laboratory = (日)知識管理研究所
上記の処理の結果、翻訳用例の原文と訳文は、図6の翻訳処理を経た原文と訳文のデータ構造と同様のデータ構造として表される。
【0063】
図11は翻訳用例に対するデータ構造の一例の説明図であり、下記の翻訳用例に対するデータ構造の一例を示している。図11(a)は原文のデータ構造、図11(b)は訳文のデータ構造である。
【0064】
原文:The official name of our laboratory is the Knowledge Management Laboratory.
訳文:当研究所は正式には知識管理研究所と呼ばれます。
【0065】
次に、図7のステップS25で翻訳用例の原文及び訳文の対応関係の判定処理を終えると、続いて差分相当語句対応付け手段25bにより、翻訳対象原文(入力原文)と翻訳用例の訳文とを対応付ける対応付け処理を行う(S26)。翻訳対象原文に対しては、ステップS22において辞書引き・形態素解析結果を得ている。また、当初翻訳用例を検索した処理において、翻訳対象原文と翻訳用例の原文との差分語句の判定は行われている。すなわち、図3、図4で色付け表示している語句である。
【0066】
そこで、図11に示すような翻訳用例の原文に対するデータ構造を参照し、以下のようにして、翻訳対象原文のデータ構造の対応語句情報を付与する。
【0067】
[1] 翻訳用例の原文と翻訳対象原文との差異となっていない共通要素については、翻訳用例の原文と訳文との対応語句の情報(図11(a)の配列の個々の要素の最右カラムの数字情報)をそのまま翻訳対象原文のデータ構造にコピーする。
【0068】
[2]差異となっている要素については、対応する翻訳用例の原文中の差異の要素の情報を使って以下の処理をする。
【0069】
[2-1]差異部分の構成要素の語数が1対1の場合は、対応する翻訳用例の原文中の差異の要素の訳文との対応語句の情報(図11(a)の配列の個々の要素の最右カラムの数字情報)をコピーする。
【0070】
[2-2]差異部分の構成要素の語数が1対1以外の場合は、翻訳用例、翻訳対象原文ともに連続要素を連結し1対1のデータ構造変更を施した上、対応する翻訳用例の原文中の差異の要素の訳文との対応語句の情報(図11(a)の配列の個々の要素の最右カラムの数字情報)をコピーする。
【0071】
図12は、図11の翻訳用例に対するデータ構造に対し対応語句情報を付与した一例の説明図である。図12(a)は翻訳用例の変更後の原文データ、図12(b)は翻訳用例の変更後の訳文データ、図12(c)は変更後の原文データである。
【0072】
図4に示すように、原文データのうち、翻訳用例の原文と翻訳対象原文との第一の差異である翻訳対象原文の「general」については、翻訳用例の原文との差異語数が1対1であるため、そのまま翻訳用例の原文の「official」の対応語句の情報を自身の対応語句情報としてコピーする。第2の差異部分である「KM lab」については、翻訳用例の原文の差異部分「Knowledge Management Laboratory」と語数が異なるため、翻訳用例の原文中の差異部分「Knowledge Management Laboratory」と訳文中の対応語句部分の「知識管理研究所」の部分を一つの要素に統合し、入力原文側も「KM lab」を一つの要素に統合し、いずれも1対1の対応となるようデータ構造を変更し、翻訳用例の対応語句情報も設定し直した上で、その情報を原文データの対応語句情報としてコピーする。以上のように、対応語句の判定処理が終わると、ユーザが選択した語句の対応語句を反転表示する処理に進む(S27)。
【0073】
翻訳用例の訳文が当該入力原文の訳文として利用されている本ケースでは、図12(b)のデータが訳文のデータとして扱われ、前述の翻訳処理が行われた文での処理と同様の表示を行うことができる。
【0074】
図13は、図7のステップS27で、翻訳用例の表示画面上で原文中の語句を選択した場合の一例を示す説明図であり、原文中の「general」を選択して対応語句表示の指示をしたときに、対応語句として「正式には」が反転表示されている例を示している。
【0075】
図14は、翻訳用例の表示画面上で原文中の語句を選択した場合の他の一例を示す説明図であり、原文中の「KM lab」ないしは「KM」、「lab」を選択して対応語句表示の指示をしたときに、対応範囲として「KM lab」と「知識管理研究所」が反転表示されている例を示している。語句の選択は原文中の語句に代えて訳文領域中の語句に対して行っても原文中の場合と同様に対応する原文領域中の語句の反転表示を行うことができる。
【0076】
次に、ステップS21の判定で、翻訳処理が行われた原文あるいは訳文でなく、また、翻訳用例の利用でもない場合は、翻訳処理の結果として完全一致の翻訳用例が利用された場合や、手入力で訳文を入力した場合などが相当する。この場合はステップS28〜S31までの処理が行われる。ステップS28〜S31までの処理は、ステップS22〜S25の翻訳用例に対して行った処理と同様であるため説明を省略する。
【0077】
以上述べたように、翻訳用例の差分に対して対応語句表示指示をすることで、編集すべき訳文用例の語句を知ることができる。この例は短文であるが、長文になると対応を人間が判断するのは手間がかかるが、本発明の実施の形態によれば翻訳用例の差分に対して対応語句表示指示をするので、編集すべき訳文用例の語句を知るための負担を軽減することができる。
【0078】
次に、原文中の任意の語句を選択してその翻訳結果を得て、その翻訳結果を基に訳文を再構成する処理について説明する。図15は、翻訳部24のフレーズ翻訳手段24bでのフレーズ翻訳処理の流れを示すフローチャートである。翻訳部24のフレーズ処理手段24bは、選択された語句に対する翻訳結果を得るものである。
【0079】
入力部16から原文中の任意の語数からなる語句が選択され、フレーズ翻訳指示をされた場合には、制御部23は原文の情報と選択された語句の範囲の情報とを翻訳部24に送る(S31)。翻訳部24では原文の情報及び選択された語句の範囲の情報を入力すると、フレーズ翻訳手段24bによって選択語句に対する翻訳を行わせる(S32)。フレーズ翻訳手段24bは、原文全体を翻訳し、選択された語句に相当する訳文中の部分単語列を抽出する。抽出結果としては、部分単語列を構成する個々の語ごとに可能性としてあり得る訳語候補の情報も含める。原文全体を翻訳するのは、他の語句との関係で訳語が決まるケースに対応するためであるが、単純に個々の語句を辞書引きし、その訳語候補を求めるというシンプルな実施形態も可能である。
【0080】
図16は図15のステップS33でのフレーズ翻訳結果の表示の一例を示す説明図であり、図13に示す翻訳対象原文中の「general」を選択したときのフレーズ翻訳結果の表示例を示している。また、図17は図15のステップS33でのフレーズ翻訳結果の表示の他の一例を示す説明図であり、「KM lab」を選択したときのフレーズ翻訳結果の表示例を示している。
【0081】
図16及び図17に示すように、複数の訳語候補がある場合には、プルダウンメニューで他の候補を参照したり選択することができる。図16及び図17では、それぞれ反転している訳語が選択しようとしている訳語であり、このようにして訳語を選択した状態で、「訳文に反映」ボタンをクリックすると訳文の再構成処理が開始される。
【0082】
図18は、翻訳部24の訳文再構成手段24cでの訳文の再構成処理の流れを示すフローチャートである。最初に、翻訳対象原文中から選択された語句に対応する訳文中の語句の範囲(置き換え語句の範囲)を取得し(S41)、置き換える訳文中の語句の属性他の情報を加味して語句をアレンジする(S42)。そして、訳文へ語句の置き換えを反映する(S43)。
【0083】
すなわち、翻訳部24の訳文再構成手段24cでの訳文の再構成処理では、訳文中の語句の範囲を取得すると、訳文再構成手段24cは、置き換える語句の属性他の情報を参照して、フレーズ翻訳の結果がそのまま置き換え可能か、あるいは語形変化や日本語動詞であれば補助用言を添える必要があるかなどを加味し、訳文を完成させる上で必要な変換を施す。
【0084】
例えば、英語名詞であれば、複数形活用や所有格変化、日本語用言の活用や態の変換など、通常の翻訳時に形態素生成処理で行っている範囲のさまざまなアレンジが可能である。図16では「一般的に」が選択されているが、辞書部21の接続規則21gに基づき、訳文データの「正式には」の属性情報の「連用形+{は}」を参照し「一般的には」に変換を施す。これは「一般的な」が選択されている場合にも同様で、連用形に活用させた上で「は」を付加し「一般的には」に変換する。
【0085】
図19は図18のステップS43でのフレーズ翻訳結果を訳文に反映し訳文が再構成された後の画面表示の一例を示す説明図であり、原文中の「general」に対してフレーズ翻訳結果を訳文に反映し訳文が再構成された後の画面表示例を示している。また、図20は図18のステップS43でのフレーズ翻訳結果を訳文に反映し訳文が再構成された後の画面表示の他の一例を示す説明図であり、「KM lab」に対してフレーズ翻訳結果を訳文に反映し訳文が再構成された後の画面表示例を示している。
【0086】
以上の説明では、原文の「general」を選択して複数の訳語候補を表示するようにしたが、逆に、翻訳用例の訳語を選択して入力原文の原文領域の語句の反転表示を行うようにしてよい。図21は翻訳用例の訳語を選択した場合の図15のステップS33でのフレーズ翻訳結果の表示例の一例を示す説明図である。
【0087】
訳文表示領域の翻訳用例訳文中の「正式に」を選択したとき、意味的に対応していないが、翻訳対象原文と翻訳用例の原文との差分に対応する訳文中の差分箇所として原文中の語句「general」に対応する訳語候補(フレーズ翻訳結果として得る)をプルダウンメニューで提示する。このプルダウンメニューで提示された訳語の中から適切な語句を選択して訳文に反映することができる。その際に、辞書部に学習辞書を有する場合にはその学習辞書に選択した訳語を蓄積するようにすることも可能である。このように、翻訳用例中の「正式に」を選択したときに、意味的に対応していないが原文中の差分に対応する訳文中の差分箇所としての原文中の語句「general」に対応する訳語候補が出てくることを特徴としている。
【0088】
また、置き換える訳文中の語句の属性のみの参照ではなく、その前後の語句の情報まで参照するように構成してもよい。例えば、日本語の用言のように、後に来る語句によって活用を変える必要のある場合には、直後の語句との接続性を再判定して活用し直させる必要があるためである(例:「重要なので」の「ので」には「重要な」という形容動詞の連体形が接続するが、「大きな」は接続できず「大きいので」とする必要がある)。
【0089】
また、逆に、訳文の再構成処理において、差分でない部分の訳文要素の活用形等の接続を調整する構成も有効である。これは例えば英語の訳文である場合では、差分が主語の部分に相当している場合に述部の動詞の活用を変更するケースが相当する。また、日本語の訳文である場合には、「読んでも」では「でも」となるが「書いても」では「ても」となるようなケースを想定した接続の調整が相当する。この段階では図10のような構文解析の結果や図12に示すような単語列のデータが得られているので、それを参照して一定のチェックと訳文データの調整を施すことができる。
【0090】
訳文への反映時の接続調整のための規則としては、表1に示すような多くの接続規則21gが辞書部21に記憶されている。訳文中の置き換え箇所の境界がこれにマッチするかどうかを調べ、マッチすれば翻訳部24の訳文再構成手段24cは形態素生成規則21fを用いて語句の活用形等の変換を施した後、訳文の置き換えを行う。
【表1】
【0091】
表1の接続規則21gは、「=」をはさんで左辺「変換前の形態素の並びの定義」と右辺「変換後の形態素の並びの定義」からなる。接続規則の左辺のパターンにマッチしたら右辺のパターンに語句の活用形等を変換する。「連用形2」と数字が入っているのは、連用形に2つの活用があるため、どのタイプの活用かを示すものである。形態素生成規則21fには、活用の仕方が定義されている。
【0092】
例えば、接続規則(1)では「重要なので」、接続規則(2)では「機能するので、美しいので」、接続規則(3)では「読んで、脱いで」、接続規則(4)では「重要で」、接続規則(5)では「書いて、走って」、接続規則(6)では「美しくて」というふうに接続が調整される。この接続調整により、翻訳用例訳文中の語句を、原文と翻訳用例原文との差分語句に対応する訳語で単に置き換えただけでは非文法的な訳文となりうる場合でも、文法的な訳文を生成することができる。
【0093】
本発明の実施の形態によれば、翻訳対象原文中と翻訳用例の原文との差異部分と、当該差異部分に相当して編集が必要な翻訳用例の訳文中の語句とを対応付けて、ユーザの操作指示に応じて、差異部分ごとに相当する箇所を他の語句と区別して表示するので、ユーザの指定する差異部分ごとに相当する翻訳用例の訳文中の語句を示すことができる。
【0094】
すなわち、翻訳対象原文を検索キーとして検索された翻訳用例と翻訳対象原文との差異部分が複数箇所に及んだり、長文で提示された翻訳用例の訳文中のどの箇所が翻訳対象原文の差異部分に相当して編集が必要な部分であるのかがわかりにくい場合であっても、容易にユーザの指定する差異部分ごとに相当する翻訳用例の訳文中の語句を示すことができる。従って、ユーザが訳文を編集し、当該翻訳対象原文に対する訳文を完成させるまでの手間を軽減することができる。
【0095】
また、翻訳対象原文の翻訳用例の原文との差異部分に対する適切な翻訳結果を簡単に得ることができ、かつ、翻訳用例の訳文の差異に相当する部分への編集を簡単に行える。
【図面の簡単な説明】
【0096】
【図1】本発明の実施の形態に係わる機械翻訳装置の構成図。
【図2】本発明の実施の形態における制御部でのユーザとの対話的処理の処理内容を示すフローチャート。
【図3】図2のステップS6での検索結果の表示画面の一例の説明図。
【図4】図2のステップS8での翻訳用例の表示画面の一例の説明図。
【図5】図2のステップS6以降の翻訳部での処理内容を示すフローチャート。
【図6】本発明の実施の形態における翻訳部での入力文の構造を解析した原文情報のデータ構造と訳文情報のデータ構造の一例の説明図。
【図7】本発明の実施の形態における制御部での対応語句表示の表示命令があってから選択された語句に対応する語句を反転表示するまでの処理の流れを示すフローチャート。
【図8】図7のステップS23での翻訳用例を利用した原文の英語文を構文解析まで行った後の解析結果の一例の説明図。
【図9】図8に示した原文の変換結果の一例を示す説明図。
【図10】翻訳用例を利用した文の訳文に対して訳文構造のまま対応する原文の訳語を付与した結果の一例の説明図。
【図11】翻訳用例に対するデータ構造の一例の説明図。
【図12】図11の翻訳用例に対するデータ構造に対し対応語句情報を付与した一例の説明図。
【図13】翻訳用例の表示画面上で原文中の語句を選択した場合の一例を示す説明図。
【図14】翻訳用例の表示画面上で原文中の語句を選択した場合の他の一例を示す説明図。
【図15】本発明の実施の形態における翻訳部のフレーズ翻訳手段でのフレーズ翻訳処理の流れを示すフローチャート。
【図16】図15のステップS33でのフレーズ翻訳結果の表示の一例を示す説明図。
【図17】図15のステップS33でのフレーズ翻訳結果の表示の他の一例を示す説明図。
【図18】本発明の実施の形態における翻訳部の訳文再構成手段での訳文の再構成処理の流れを示すフローチャート。
【図19】図18のステップS43でのフレーズ翻訳結果を訳文に反映し訳文が再構成された後の画面表示の一例を示す説明図。
【図20】図18のステップS43でのフレーズ翻訳結果を訳文に反映し訳文が再構成された後の画面表示の他の一例を示す説明図。
【図21】翻訳用例の訳語を選択した場合の図15のステップS33でのフレーズ翻訳結果の表示例の一例を示す説明図。
【符号の説明】
【0097】
11…機械翻訳装置、12…CPU、13…ROM、14…RAM、15…バス、16…入力部、17…表示部、19…記憶装置、20…機械翻訳プログラム、21…辞書部、21a…語彙部、21b…形態素解析規則、21c…構文解析規則、21d…変換規則、21e…構文生成規則、21f…形態素生成規則、21g…接続規則、22…用例辞書部、23…制御部、23a…対応表示制御手段、24…翻訳部、24a…翻訳用例検索手段、24b…フレーズ翻訳手段、24c…訳文再構成手段、25…用例処理部、25a…共通語句対応付け手段、25b…差分相当語句対応付け手段
【特許請求の範囲】
【請求項1】
機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した辞書部、予め登録された第1言語の文と第2言語の文との対訳からなる翻訳用例を複数蓄積した用例辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力部と、翻訳対象の第1言語の原文や翻訳後の第2言語の訳文を表示する表示部と、前記機械翻訳プログラムを演算実行するCPUとを備えた機械翻訳装置において、入力された第1言語の翻訳対象原文を前記記憶部の辞書部を用いて翻訳するとともに前記翻訳対象原文を検索キーとしてその翻訳対象原文に対して前記記憶装置の用例辞書部から前記翻訳対象原文に類似する翻訳用例を検索する翻訳部と、前記翻訳部で検索された翻訳用例の原文と前記翻訳対象原文との差異部分を対応付けるともに当該差異部分に対して編集が必要な翻訳用例の訳文中の語句と翻訳対象原文中の語句とを対応付ける用例処理部と、ユーザの操作指示に応じて前記翻訳用例の原文と前記翻訳対象原文との差異部分ごとに相当する箇所を他の語句と区別して前記表示部に表示する制御部とを備えたことを特徴とする機械翻訳装置。
【請求項2】
前記翻訳部は、前記翻訳対象原文を検索キーとして翻訳対象原文と同じ翻訳用例または語句・文字の使われ方が類似した翻訳用例を抽出し、翻訳用例の訳文を当該翻訳対象原文に対する訳文として出力することを特徴とする請求項1に記載の機械翻訳装置。
【請求項3】
前記翻訳部は、ユーザの操作により検索キーとして指定された翻訳対象原文に類似する翻訳用例を検索し、その検索結果の中からユーザの操作により選択された翻訳用例の訳文を当該翻訳対象原文に対する訳文として出力することを特徴とする請求項1に記載の機械翻訳装置。
【請求項4】
前記翻訳部は、前記翻訳対象原文を構成する任意の語句がユーザにより選択されたとき当該語句に対する翻訳結果を得て、得られた翻訳結果を前記翻訳用例の訳文中の当該語句と対応付けられた語句に置き換えて訳文を構成し直すことを特徴とする請求項3に記載の機械翻訳装置。
【請求項5】
前記翻訳部は、前記翻訳対象原文を構成する任意の語句がユーザにより選択されたときの当該語句に対する翻訳結果の複数候補の中から、置き換えられる語句の属性ないし置き換えられる語句の前後の文脈に反しないものを選択し、置き換えられる語句の属性ないし置き換えられる語句の前後の文脈に基づいて、置き換えられる語句以外の訳文要素の一部に変更を加えることを特徴とする請求項4に記載の機械翻訳装置。
【請求項6】
機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した辞書部、予め登録された第1言語の文と第2言語の文との対訳からなる翻訳用例を複数蓄積した用例辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力部と、翻訳対象の第1言語の原文や翻訳後の第2言語の訳文を表示する表示部と、前記機械翻訳プログラムを演算実行するCPUとを備えた機械翻訳装置において、コンピュータに、入力された第1言語の翻訳対象原文を前記記憶部の辞書部を用いて翻訳するとともに前記翻訳対象原文を検索キーとしてその翻訳対象原文に対して前記記憶装置の用例辞書部から前記翻訳対象原文に類似する翻訳用例を検索する機能と、検索された翻訳用例の原文と前記翻訳対象原文との差異部分を対応付けるともに当該差異部分に対して編集が必要な翻訳用例の訳文中の語句と翻訳対象原文中の語句とを対応付ける機能と、ユーザの操作指示に応じて前記翻訳用例の原文と前記翻訳対象原文との差異部分ごとに相当する箇所を他の語句と区別して前記表示部に表示する機能とを実現させるための機械翻訳プログラム。
【請求項1】
機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した辞書部、予め登録された第1言語の文と第2言語の文との対訳からなる翻訳用例を複数蓄積した用例辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力部と、翻訳対象の第1言語の原文や翻訳後の第2言語の訳文を表示する表示部と、前記機械翻訳プログラムを演算実行するCPUとを備えた機械翻訳装置において、入力された第1言語の翻訳対象原文を前記記憶部の辞書部を用いて翻訳するとともに前記翻訳対象原文を検索キーとしてその翻訳対象原文に対して前記記憶装置の用例辞書部から前記翻訳対象原文に類似する翻訳用例を検索する翻訳部と、前記翻訳部で検索された翻訳用例の原文と前記翻訳対象原文との差異部分を対応付けるともに当該差異部分に対して編集が必要な翻訳用例の訳文中の語句と翻訳対象原文中の語句とを対応付ける用例処理部と、ユーザの操作指示に応じて前記翻訳用例の原文と前記翻訳対象原文との差異部分ごとに相当する箇所を他の語句と区別して前記表示部に表示する制御部とを備えたことを特徴とする機械翻訳装置。
【請求項2】
前記翻訳部は、前記翻訳対象原文を検索キーとして翻訳対象原文と同じ翻訳用例または語句・文字の使われ方が類似した翻訳用例を抽出し、翻訳用例の訳文を当該翻訳対象原文に対する訳文として出力することを特徴とする請求項1に記載の機械翻訳装置。
【請求項3】
前記翻訳部は、ユーザの操作により検索キーとして指定された翻訳対象原文に類似する翻訳用例を検索し、その検索結果の中からユーザの操作により選択された翻訳用例の訳文を当該翻訳対象原文に対する訳文として出力することを特徴とする請求項1に記載の機械翻訳装置。
【請求項4】
前記翻訳部は、前記翻訳対象原文を構成する任意の語句がユーザにより選択されたとき当該語句に対する翻訳結果を得て、得られた翻訳結果を前記翻訳用例の訳文中の当該語句と対応付けられた語句に置き換えて訳文を構成し直すことを特徴とする請求項3に記載の機械翻訳装置。
【請求項5】
前記翻訳部は、前記翻訳対象原文を構成する任意の語句がユーザにより選択されたときの当該語句に対する翻訳結果の複数候補の中から、置き換えられる語句の属性ないし置き換えられる語句の前後の文脈に反しないものを選択し、置き換えられる語句の属性ないし置き換えられる語句の前後の文脈に基づいて、置き換えられる語句以外の訳文要素の一部に変更を加えることを特徴とする請求項4に記載の機械翻訳装置。
【請求項6】
機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した辞書部、予め登録された第1言語の文と第2言語の文との対訳からなる翻訳用例を複数蓄積した用例辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力部と、翻訳対象の第1言語の原文や翻訳後の第2言語の訳文を表示する表示部と、前記機械翻訳プログラムを演算実行するCPUとを備えた機械翻訳装置において、コンピュータに、入力された第1言語の翻訳対象原文を前記記憶部の辞書部を用いて翻訳するとともに前記翻訳対象原文を検索キーとしてその翻訳対象原文に対して前記記憶装置の用例辞書部から前記翻訳対象原文に類似する翻訳用例を検索する機能と、検索された翻訳用例の原文と前記翻訳対象原文との差異部分を対応付けるともに当該差異部分に対して編集が必要な翻訳用例の訳文中の語句と翻訳対象原文中の語句とを対応付ける機能と、ユーザの操作指示に応じて前記翻訳用例の原文と前記翻訳対象原文との差異部分ごとに相当する箇所を他の語句と区別して前記表示部に表示する機能とを実現させるための機械翻訳プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【公開番号】特開2009−116584(P2009−116584A)
【公開日】平成21年5月28日(2009.5.28)
【国際特許分類】
【出願番号】特願2007−288570(P2007−288570)
【出願日】平成19年11月6日(2007.11.6)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
【公開日】平成21年5月28日(2009.5.28)
【国際特許分類】
【出願日】平成19年11月6日(2007.11.6)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
[ Back to top ]