機械翻訳装置及び機械翻訳プログラム
【課題】該当する専門分野の用語に統一を図った訳文を生成することである。
【解決手段】翻訳辞書部の翻訳辞書情報及び専門用語辞書部の対訳情報を用いて第一言語文書の形態素解析を行い形態素の属性情報及び訳語情報を解析情報として求め、訳語情報に基づき訳文を生成する。その際、専門用語辞書の見出し語が使われて構文解析に失敗したときはその見出しを棄却して訳文を得る。専門用語辞書の見出し語の棄却により訳文を得たときは、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致しているかどうかを判定し、一致しているものがあるときは、文書解析手段で得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える。
【解決手段】翻訳辞書部の翻訳辞書情報及び専門用語辞書部の対訳情報を用いて第一言語文書の形態素解析を行い形態素の属性情報及び訳語情報を解析情報として求め、訳語情報に基づき訳文を生成する。その際、専門用語辞書の見出し語が使われて構文解析に失敗したときはその見出しを棄却して訳文を得る。専門用語辞書の見出し語の棄却により訳文を得たときは、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致しているかどうかを判定し、一致しているものがあるときは、文書解析手段で得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、自然言語処理技術に関わり、より詳しくは、自然言語文書を処理し第一言語を第二言語に翻訳する機械翻訳装置及び機械翻訳プログラムに関する。
【背景技術】
【0002】
機械翻訳が一般に普及するようになった近年、機械翻訳に期待される質のレベルも高まっている。この一つの取り組みとして、それぞれの分野にあった翻訳を行うことが挙げられる。機械翻訳処理においては、翻訳する文書の分野の用語を用いた翻訳結果を得るために、分野にかかわらず使用する標準辞書以外に、該当する分野の専門用語辞書、またはユーザが必要に応じて登録して構築されたユーザ辞書を併用して翻訳を行っている。こうした専門用語辞書の重要性は各方面で強調されている。これは、人間の翻訳家は、膨大な専門用語に関する翻訳の知識をすべて保持しているわけではなく、専門用語を知らずに人間の翻訳家が特許を翻訳すると、専門用語の訳を間違えてしまうことがあるからである。
【0003】
一方、専門用語辞書は豊富な見出しを揃えているが、複数解釈が可能な文字列が見出し語(通常複合語)となっているものがある、そのため、その見出し語(通常複合語)を辞書登録することでその形態素の解釈が優先され、構文の解析に失敗し、解析結果の悪化を招くことがある。特に英語では、同一形態で複数の品詞を有する語が多く存在するため、第一言語が英語の場合、このような現象が起きやすい。こうした場合、従来では以下のいずれかの方法で対処していた。
【0004】
第一の方法として、目視チェックにより、解析に失敗した文の中で解析の失敗の原因となっている見出し語を特定し、その見出し語を棄却して翻訳することである。これにより、解析に成功する可能性が生じる。典型的には複数の単語からなる見出し語を、個々に区切って解析し直すことである。
【0005】
第二の方法として、複数の専門用語辞書を指定し、最も優先度の高い辞書で解析に失敗した場合に、解析の失敗となった見出し語がそれより優先度の低い辞書に異なる品詞で登録されているかを順に検索する。そして、解析の失敗となった見出し語が存在した場合、その品詞で翻訳し、成功するとその優先度の低い辞書の訳語を用いて訳文を生成する。一方、そのような候補が見つからなかった場合、その見出し語部分を未知語として扱い、訳文には、第一言語そのままの文字列を挿入することとしている。
【0006】
特定の見出し語(形態素)による解析失敗を回避するには、このように複数の辞書の切り替えが行われるわけであるが、この切り替えを自動化したものがある。具体的には、現在選択されている専門用語辞書の変換履歴、現在選択されている専門用語辞書、次に優先度の高い専門用語辞書の順に使用する翻訳辞書を自動的に切り替えていく。
【0007】
しかし、第一の方法では、機械翻訳において解析の失敗の原因となっている見出し語を特定することは、少なくとも第一言語の知識が必要であり、容易ではない。機械翻訳における失敗の傾向と人間翻訳における失敗の傾向は異なり、検出には一定のスキルを要する。また、仮にそのような見出し語が特定できたとして、その見出し語を少なくとも、同一文書内では棄却するものとして登録すると、その文書内でそれ以降に出現する文においてはその見出し語と品詞で解析が成功することがあっても使われないことになる。逆に、登録しない場合に、その文書内でそれ以降に出現する文においてその見出し語と品詞で失敗すれば、再度同じように棄却の命令を出す必要があり、作業の無駄が発生する。
【0008】
また、解析には成功するとしても、単に優先させないと、選択した専門辞書の分野の訳語ではなくなり、代わりに標準辞書の訳語が採用されることになり、用語の統一が不十分になる。つまり、専門用語が使われるか否かは、解析に失敗するか否かによることになってしまう。そして、最悪の場合、第一言語のままになり、第二言語しか解しないユーザにとっては、文の理解に苦しむことになる。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特許第2807586号公報
【特許文献2】特開2000−3364号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
選択した専門用語辞書を単純に適用した場合に起こる解析の失敗を回避しつつ、その専門用語辞書を最大限利用して、該当する専門分野の用語に統一を図った訳文を生成することのできる機械翻訳装置及び機械翻訳プログラムを提供することである。
【課題を解決するための手段】
【0011】
実施形態の機械翻訳装置は、単語単位の第一言語と第二言語との対訳情報を記憶装置に格納した翻訳辞書部と、複数の単語列からなる第一言語の専門用語の見出し語及びその訳語を対訳情報として記憶装置に格納した専門用語辞書部とを有する。専門用語調整手段は、前記翻訳辞書部の翻訳辞書情報及び前記専門用語辞書部の対訳情報を用いて構文解析を行い、前記専門用語辞書の見出し語が原因で構文解析に失敗したときは、その見出し語及びその訳語を単語単位に分解して辞書引きを行い、単語単位に分割したその見出し語の訳語候補のいずれかが、単語単位に分割した訳語に対応しているかどうかを判定し、対応しているものがあるときは、得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える。
【図面の簡単な説明】
【0012】
【図1】実施形態に係る機械翻訳装置の一例の機能ブロック構成図。
【図2】実施形態に係る機械翻訳装置のハードウェア構成を示すブロック構成図。
【図3】翻訳対象となる第一言語文書の一例の説明図。
【図4】図1の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャート。
【図5】図3の文番号2の文に対して図4のステップS1〜ステップS8の処理を行った後の形態素解析情報の一例を示す説明図。
【図6】図3の文番号2の文に対して構文解析を行った場合の解析結果の一例を示す説明図。
【図7】実施形態に係る機械翻訳装置の他の一例の機能ブロック構成図
【図8】実施形態における副専門用語作成手段での見出し語の訳語候補のリスト作成の処理内容の一例を示すフローチャート。
【図9】図7の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャート。
【図10】実施形態に係る機械翻訳装置の別の他の一例の機能ブロック構成図。
【図11】実施形態における構文解析失敗環境知識部に格納された構文解析失敗環境知識の説明図。
【図12】実施形態における構文解析失敗原因判別手段の処理内容の一例を示すフローチャート。
【図13】実施形態におけるコーパス検索結果の一例を示す説明図。
【図14】実施形態に係る機械翻訳装置のさらに別の他の一例の機能ブロック構成図。
【図15】実施形態における参考情報表示手段による参考情報を表示した画面の一例の説明図。
【発明を実施するための形態】
【0013】
以下、実施形態を図面に基づいて説明する。図1は、実施形態に係る機械翻訳装置の一例の機能ブロック構成図、図2は実施形態に係る機械翻訳装置のハードウェア構成を示すブロック構成図である。
【0014】
図2において、機械翻訳装置11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
【0015】
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には機械翻訳・校正支援のプログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置である表示装置17に表示・出力される。なお、出力装置として表示装置17を示しているが、出力装置としては、表示装置17だけではなく、印字機等の印刷装置、磁気テープ、磁気ディスク、光ディスク等のコンピュータ可読媒体への出力装置や、他のメディアに文書を送信する送信装置等を採用することもできる。
【0016】
入力装置18は演算制御装置12に情報を入力するものであり、例えば、マウス19、キーボード20、ディスクドライブ21から構成され、また、OCR(光学式文字読み取り装置)や、磁気テープ、磁気ディスク、光ディスク等、コンピュータ可読媒体からの読み込み装置を採用することも可能である。
【0017】
例えば、入力装置18であるマウス19やキーボード20は、表示装置17を介して演算制御装置12に各種指令を入力し、キーボード20、ディスクドライブ21は機械翻訳・校正支援対象の文書を入力する。すなわち、ディスクドライブ21は機械翻訳・校正支援対象の文書のファイルを記憶媒体に入出力するものである。さらに、演算制御装置12の演算結果や機械翻訳・校正支援に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)22が設けられている。
【0018】
図1において、図1に示す演算制御装置12内の各機能ブロックは、上述の機械翻訳プログラムを構成する各プログラムに対応する。すなわち、プロセッサ13が機械翻訳プログラムを構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ22の記憶領域に対応する。
【0019】
入力装置18は、翻訳対象となる第一言語文書の電子データを入力するものであり、ユーザの入力操作に基づいて翻訳対象となる第一言語文書の電子データを入力する。入力装置18によって入力された翻訳対象となる第一言語文書は、演算制御装置12の入力処理部23により入力処理されて取り込まれ、制御部24を介して記憶装置25の文書記憶部26に記憶される。また、入力装置18は、入力処理部23を介して制御部24に対して各種コマンドを与える。制御部24は、入力処理部23、出力処理部33、文書解析手段28、専門用語調整手段30を制御するとともに、記憶装置25とのデータの授受の制御も行う。
【0020】
記憶装置25には、翻訳辞書部27及び専門用語辞書部34が記憶されている。翻訳辞書部27は、文書解析手段28が翻訳対象となる第一言語文書を解析する際に用いる各種辞書データを格納しており、第一言語から第二言語への翻訳を行うための辞書、及び第二言語から第一言語への翻訳を行うための辞書を格納している。
【0021】
すなわち、第一言語から第二言語への翻訳を行うための辞書は語尾等に変化のある単語・熟語をその原形に変換するための第一言語活用変化辞書27a、第一言語を解析するための文法が記憶された第一言語解析文法辞書27b、第一言語の単語・熟語に対応する第二言語の訳語がその品詞情報と共に記憶される第一言語単語・熟語辞書27c、第一言語から第二言語への変換情報が記憶された第一言語変換文法辞書27d、第二言語の文の構造を決定する第二言語生成文法辞書27e、さらに語尾等の語形を変化させて翻訳文を完成させる第二言語形態素生成文法辞書27fを格納している。
【0022】
それらに加え、第二言語活用変化辞書27h、第二言語を解析するための文法が記憶された第二言語解析文法辞書27i、第二言語の単語・熟語に対応する第一言語の訳語が、その品詞情報と共に記憶される第二言語単語・熟語辞書27j、第二言語から第一言語への変換情報が記憶された第二言語変換文法辞書27k、第一言語の文の構造を決定する第一言語生成文法辞書27l、さらに語尾等の語形を変化させて翻訳文を完成させる第一言語形態素生成文法辞書27m等を格納している。
【0023】
また、専門用語辞書部34には、複数の単語列からなる第一言語の専門用語及びその訳語を対訳情報とした専門用語辞書が記憶されている。
【0024】
文書解析手段28は、制御部24からの指示に従って、記憶装置25の翻訳辞書部27の翻訳辞書情報及び専門用語辞書部34の対訳情報を用いて、入力装置18によって入力され文書記憶部26に記憶された翻訳対象となる第一言語文書の形態素解析を行い、形態素の属性情報及び訳語情報を解析情報として記憶装置25の解析情報記憶部29に記憶する。
【0025】
それとともに、構文解析を行い構文解析が成功したときは、解析情報の訳語情報に基づき訳文を生成する。一方、専門用語辞書部34の専門用語辞書の見出し語が使われずに構文解析に失敗したときは不完全な状態で訳文を生成し、専門用語辞書部34の専門用語辞書の見出し語が使われて構文解析に失敗したときはその見出しを棄却して訳文を得る。また、文書解析手段28の解析結果や訳文は、必要に応じて、制御部24及び出力処理部33を介して表示装置17に表示・出力される。
【0026】
専門用語調整手段30は、構文解析が失敗した際に失敗の原因となる専門用語辞書の見出し語を検出し、見出し語及びその訳語を単語単位に分解して、第一言語と第二言語間で単語レベルの対応関係を抽出する。すなわち、専門用語調整手段30は、文書解析手段28が専門用語辞書部34の見出し語の棄却により訳文を得たときは、その見出し語及び訳語を単語単位に分解して辞書引きを行い、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致しているかどうかを判定する。そして、一致しているものがあるときは、文書解析手段30で得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える。その結果を、必要に応じて、制御部24及び出力処理部33を介して表示装置17に表示・出力する。
【0027】
出力処理部33は、制御部24を介して供給された第一言語文書の対訳文書、解析結果、構文解析失敗箇所、専門用語調整後の新たな翻訳結果を表示装置17に出力処理するものであり、これにより、表示装置17の表示画面上に翻訳情報画面が表示される。また、出力処理部33は制御部24への各種コマンドに対する制御部24からの応答を表示する。
【0028】
以下の説明では、英語を第一言語とし日本語を第二言語とした場合を一例として説明する。また、図3は、以下の説明で使用する翻訳対象となる第一言語文書の一例の説明図であり、文番号1から文番号3は翻訳対象となる第一言語の文の一例、文番号4は後の説明で使用する第一言語の文の一例である。なお、これらの文は、説明のための一例であるので文同士に連関性はない。
【0029】
また、以下の説明で使用する専門用語辞書としては、「化学辞書」が選択されているものとする。この専門用語辞書には、図3の文番号1の文にあるような文を念頭に置き、”mixed solution”という見出し語が、品詞を「名詞」、訳語を「混合溶液」として登録されているものとする。ここでは、説明を簡単化するため、標準辞書以外に用いる専門用語辞書は1つとし、ユーザ辞書には何も登録されていないこととする。なお、複合語の登録内容をできるだけ利用するという意味では、1つの専門用語辞書に限らず、ユーザ辞書についてもいえるので、「専門用語辞書」というものを、複合語を見出し語として登録可能なユーザ辞書をも含むものとして実施しても構わない。
【0030】
図4は、図1の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャートである。まず、制御部24は、入力装置18から入力処理部23を介して入力された翻訳対象となる第一言語文書を記憶する(S1)。すなわち、翻訳対象となる第一言語を文書記憶部26に記憶する。
【0031】
次に、制御部24は文書解析手段28を起動し、文書解析手段28は起動されると、文書記憶部26から第一言語の文書及び専門用語辞書部34の専門用語辞書を読み出し、第一言語の文書の各文をそれぞれ形態素に分割し、品詞などの属性情報を得る(S2)。これは、翻訳対象となる第一言語の文書の各文の統語的特徴を得るためである。ステップS2においては、翻訳辞書部27の第一言語から第二言語への翻訳を行うための辞書、具体的には第一言語活用変化辞書27aと第一言語解析文法辞書27bの照合により、各単語につき、品詞、原形、属性が付与され、また、各形態素がどのような関係を有するかを示す文構造(係り受け関係)を得る。
【0032】
次に、文書解析手段28は、第一言語単語・熟語辞書27cを用いて、それぞれの形態素に対して翻訳辞書部27内に定義している訳語情報を得る(S3)。さらに、構文解析を行い(S4)、構文解析に成功したかどうかを判定する(S5)。
【0033】
文書解析手段28は、構文解析に成功すれば、第一言語変換文法辞書27d、第二言語生成文法辞書27e、第二言語形態素生成文法辞書27fを用いて、第二言語の構造に変換し訳語の形態素生成を行い訳文を得る(S6)。
【0034】
一方、文書解析手段28は、ステップS5の判定で、成功でない(失敗である)と判定したときは、失敗の原因が専門用語辞書に登録されている語であるか否かにあるかの可能性を探るために、形態素解析結果の中に、専門用語辞書由来の見出し語が使われているかどうかを調べる(S7)。専門用語辞書由来の見出し語が使われていない場合は、構文解析に失敗した不完全な状態で生成できる訳文を得る(S6)。一方、専門用語辞書由来の見出し語が使われている場合は、該当する見出し語を形態素解析において棄却する(S8)。そして、ステップS4に戻り再度構文解析を行う。
【0035】
なお、問題となる形態素が複数ある場合は、全部を一気に候補から削除するのではなく、徐々に候補から落としていく。つまり、問題のない形態素はなるべく利用することとする。さて、ここで、ステップS5の判定で、再度失敗と判定されたときは、構文解析に失敗した不完全な状態で、生成できる訳文を得る(S6)。
【0036】
ここで、ここまでのステップS1〜ステップS8の処理の具体例について説明する。ステップS1〜ステップS8の処理で得られた形態素解析情報、訳語情報、係り受け関係、翻訳結果は、制御部24により解析情報記憶部29に記憶される。図3の文番号2の場合に、解析情報記憶部29に記憶される形態素解析情報の一例を図5に示す。
【0037】
図5は、図3の文番号2の文に対して図4のステップS1〜ステップS8の処理を行った後の形態素解析情報の一例を示す説明図である。図5に示すように、文番号2の文は10個の形態素に分割され、英語品詞、原形、活用形、日本語訳語、日本語品詞、出典辞書名の項目を有している。なお、日本語訳語は複数可能である場合、頻度が高い順に格納されている。例えば、solutionには、「解」と「溶液」との2つの訳語が格納されていることがわかる。また、solution以外の訳語については説明の簡単化のために、1つの訳語しか挙げていない。
【0038】
文番号2の文において、構文解析に最初に採用する形態素列としては、専門用語辞書の見出し語(ここでは番号10の”mixed solution”)を含んだものとなる。すなわち、1−2−3−4−5−6−10となる。これを品詞の並びとして書き表すと、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+名詞(10)」となる。
【0039】
構文解析を行う際は、「冠詞(1)+名詞(2)」は名詞句として纏め上げることができる。この名詞句は次の動詞(3)の主語ととらえれば接続可能である。また、動詞(3)+前置詞(4)も接続可能である。前置詞(4)の後ろは名詞句が後続することが期待される。名詞句の冒頭の品詞は冠詞が可能であるので、次の冠詞(5)も問題ない。残った2つの形態素で名詞句を構成することが期待されるが、副詞は名詞を修飾し得ない。従って、「副詞(6)+名詞(10)」は名詞句とは認定されない。このようにして、これら2つの形態素が文において果たす役割が解析では不明となり、結果として構文解析は失敗する。
【0040】
専門用語辞書の見出し語(”mixed solution”)を含んだ場合には、構文解析に失敗するので、名詞(10)の”mixed solution”を候補から外し(S7、S8)、再度構文解析を行う(S4)。
【0041】
この再度の構文解析に用いられる形態素列は、番号で表すと、1−2−4−5−6−7−9、または、1−2−3−4−5−6−8−9である。品詞で表すとそれぞれ、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+動詞過去形(7)+名詞(9)」、または、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+動詞過去分詞形(8)+名詞(9)」となる。
【0042】
最初の候補では解析不能となっていた、冠詞(5)の後続部分に着目すると、英語文法により、前者の「副詞+動詞過去形+名詞」は名詞句を構成し得ないが、後者の「副詞+動詞過去分詞形+名詞」は名詞句を構成し得るので、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+動詞過去分詞形(8)+名詞(9)」を採用し構文解析を成功させることができる。
【0043】
図6は図3の文番号2の文に対して構文解析を行った場合の解析結果の一例を示す説明図である。図6に示すように、形態素列が1−2−3−4−5−6−8−9のときに構文解析に成功する。これにより、文番号2の訳文として、図5に示した情報を用いて「反応は入念に混ぜた解の中で続く。」が得られる。
【0044】
次に、ステップS5で訳文を得たのは専門用語の棄却によるものかどうかを判定する(S9)。専門用語の棄却によるものでない場合には処理を終了する。専門用語の棄却によるものである場合には、ステップS6で得られた訳文「反応は入念に混ぜた解の中で続く。」の調整を以下の処理で行う。
【0045】
制御部24は専門用語調整手段30を起動する。専門用語調整手段30は起動されると、見出し語、訳語をそれぞれ形態素に分割し、品詞などの属性情報を得る(S10)。
【0046】
文番号2の文の場合、問題となっていた見出し語は”mixed solution”(訳語「混合溶液」、品詞「名詞」)である。第一言語単語・熟語辞書27c、第二言語単語・熟語辞書27jを用いて、見出し語及びその訳語の各形態素に対して辞書引きを行い、訳語を得る(S11)。すなわち、その見出し語及び訳語を単語単位に分解して辞書引きを行う。
【0047】
見出し語部分の「mixed solution」については、図5に示すようにmixed (<mix)とsolutionに分解でき、訳語としてそれぞれ、「混ぜる」と「解、溶液」がある。一方、訳語「混合溶液」は「混合」と「溶液」からなる複合語と形態素解析されると、「混合」はサ変名詞、「溶液」は名詞と判断される。第二言語単語・熟語辞書27jには、「混合」の動詞訳語として”mix, blend, mingle”、名詞訳語としてmixing, mixtureがあり、「溶液」の訳語として、”solution”が入っているものとする。
【0048】
ここで、以上の説明では、”mixed”と「混合」とが対応することを、「混合」の英語訳語に”mix”があることをもって判断したが、次のケースにもこのような対応関係をみてとることができる。すなわち、標準辞書のmixの第一訳語が「混ぜる」、第二訳語またはそれ以降の訳語に「混合する」がある場合にも、”mixed”と「混合」とが対応すると判断できる。これによりmixと混合するとが対応することがわかり、サ変名詞の性質から”mixed”と「混合」が対応することを導くことができる。
【0049】
ステップS11での辞書引きが終わると、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致しているかを判定する(S12)。
【0050】
この判定により、「混合」の第一言語への訳語候補の中に、動詞”mix”があり、また、「溶液」については、第一言語への訳語候補の中に名詞”solution”があり、solutionの第二言語への訳語の中に「溶液」があることがわかるので、”mixed”と「混合(する)」、”solution”と「溶液」が単語レベルで対応していることがわかる。
【0051】
そこで、一旦、標準辞書の訳語で生成した訳文の中の問題の単語列の訳の部分をこれらの用語に置き換える。すなわち、ステップS6で得られた訳文の中で、ステップS12で一致を見た部分について訳語を置き換える(S13)。
【0052】
これは、「反応は入念に混ぜた解の中で続く。」においては、“mixed solution”に対応する「混ぜた解」を「混合した溶液」と置き換えることを意味する。最終的な訳文として、「反応は入念に混合した溶液の中で続く。」を得て、処理は終了する。こうして選択した化学分野にあった用語を用いた訳文が生成されることになる。
【0053】
以上の説明では、図3の文番号2の文のケースを見たが、同じく文番号3の文も”mixed solution”を名詞として採用することで構文解析の失敗を招く。なお、文番号3の文の場合は、mixedは文の主動詞として機能している。
【0054】
一方、文番号4の文は化学分野以外の文書からの文である。従って、「化学専門用語辞書」は選択されていない。この文は、”mixed solution”は名詞と扱っても構文解析に成功するケースであり、solutionは「解、解決策」といった意味に解釈されるべきものである。このように、文番号4は、化学専門用語辞書にある訳語の調整がかからないことになるので、solutionには、標準辞書の訳語が用いられてsolutionを「解」とするのに対し、文番号1〜3については「化学専門用語辞書」の情報より、すべて「溶液」と調整可能なことから、分野に応じた訳文を出力可能である。
【0055】
次に、実施形態に係る機械翻訳装置の他の一例を説明する。図7は、実施形態に係る機械翻訳装置の他の一例の機能ブロック構成図である。この他の一例は、図1に示した一例に対し、副専門用語作成手段31及び副専門用語辞書部32を追加して設けたものである。図1と同一要素には同一符号を付し重複する説明は省略する。
【0056】
副専門用語作成手段31は、専門用語辞書部34のすべての見出し語について、予め単語単位に分解した第一言語の見出し語の訳語候補のリストを作成するものであり、副専門用語辞書部32は、副専門用語作成手段31で作成された見出し語の訳語候補のリストを格納するものである。
【0057】
図8は、副専門用語作成手段31での見出し語の訳語候補のリスト作成の処理内容の一例を示すフローチャートである。副専門用語作成手段31は、選択された専門用語辞書のすべての見出し語と訳語との対について、図8に示すように、図4のステップS10、S11、S12と同じ処理(C1、C2、C3)を行う。
【0058】
すなわち、見出し語、訳語をそれぞれ形態素に分割し、品詞などの属性情報を得る(C1)。次に、翻訳辞書部27の第一言語単語・熟語辞書27c、第二言語単語・熟語辞書27jを用いて、見出し語及びその訳語の各形態素に対して辞書引きを行い、訳語を得る(C2)。そして、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致しているかを判定する(C3)。
【0059】
判定した結果、一致した対を品詞とともに副専門用語辞書部32に記憶する(C4)。そして、次に見出し語はあるかどうかを判定し(C5)、見出し語があるときはステップC1に戻り、ステップC1〜ステップC5の処理を繰り返し行う。これにより、見出し語について第一言語の単語とその品詞、対応する訳語のリストが作成され、副専門用語辞書部32に蓄積される。副専門用語辞書部32に蓄積されたリストは本来の専門用語辞書部34を補う補完的な辞書とみなすことができる。
【0060】
図9は、図7の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャートである。図4に示した処理内容に対し、ステップS12でNOと判定された後に新たな処理であるステップS14〜ステップS17が追加されている。
【0061】
すなわち、専門用語調整手段30は、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致していないときは、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が正規の専門用語辞書に登録されているか否かを判定する(S14)。つまり、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致していないときは、単語単位に分解した第一言語の見出し語の訳語が専門用語辞書部34にあるかどうかを判定する。
【0062】
専門用語辞書に登録されているときは、ステップS6で得られた訳文の中でステップS14で得られた部分について訳語を置き換える(S15)。つまり、文書解析手段28で得られた訳文中のその見出し語の単語単位の訳語に相当する部分をその専門用語辞書部34の訳語に置き換える。
【0063】
一方、ステップS14の判定で、専門用語辞書に登録されていないときは、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が副専門用語辞書に登録されているか否かを判定する(S16)。つまり、単語単位に分解した第一言語の見出し語の訳語が副専門用語辞書部32にあるかどうかを判定する。
【0064】
副専門用語辞書に登録されているときは、ステップS6で得られた訳文の中でステップS16で得られた部分について訳語を置き換える(S17)。つまり、文書解析手段28で得られた訳文中のその見出し語の単語単位の訳語に相当する部分をその副専門用語辞書部32の訳語に置き換える。
【0065】
いま、専門用語辞書部34から選択された専門用語辞書の分野は「コンピュータ」とし、翻訳対象の例文として”These formulas, including both physical and virtual channels, are also permitted.”を用いる。また、このコンピュータ用語辞書には、見出し語”virtual channel”が、訳語「VC」、品詞「名詞」として登録されているものとする。
【0066】
この見出し語”virtual channel”を優先的に用いて構文解析を行うと構文解析に失敗することになる。これは、構成要素となっている”physical and virtual channels”に着目してみると、複数形の”virtual channels”を名詞として扱うことで、physical (形容詞) +and (接続詞)+virtual channels (名詞)という品詞列となるが、この品詞列は英語では構成要素となり得ないがゆえに矛盾が生じるためである。
【0067】
見出し語”virtual channel”を名詞とはせずに、”virtual channel”を単語レベルで”形容詞+名詞”とすれば、[[形容詞+接続詞+形容詞]+名詞]となり、構文解析に成功する。専門用語辞書の訳語調整のために、図4のステップS12で”virtual channel”とVCとの対応関係を取ろうとするが、対応がとれないものとする。
【0068】
”virtual channel”は2単語からなるが、日本語としてのVCはVとCとよりなるともみなせるがVやC自体では意味を持たないからである。一方、このコンピュータ辞書の他の登録語として、”virtual domain”(訳語「バーチャル・ドメイン」、品詞「名詞」)や”virtual memory”(訳語「バーチャル・メモリ」、品詞「名詞」)があるとすれば、図8のステップC1〜ステップC5の過程で見出し語virtual、訳語「バーチャル」、品詞「形容詞」が獲得され、コンピュータの副専門用語辞書に格納されることになる。
【0069】
まず、図9のステップS14では、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が正規の専門用語辞書に登録されているか否かの判定する。この場合、”virtual channel”の”channel”が正規の専門用語辞書に、訳語「チャネル」、品詞「名詞」と登録されているとすれば、ステップS15において、上記例文のchannelの訳語を「チャネル」とする。
【0070】
一方、virtualは、正規の専門用語辞書に登録されていないとすれば、ステップS16に進み、今度は副専門用語辞書が検索される。すると前提条件の説明にあるように、virtualが副専門用語辞書に登録されていることが分かり、訳語「バーチャル」とする(S17)。このようにして、標準辞書には、virtual(形容詞)の訳語として「事実上の」、「仮想の」が、channel(名詞)の訳語として「チャンネル」が登録されていたとしても、ステップS14〜ステップS17の処理により、コンピュータの専門用語を用いた訳文を得ることができる。
【0071】
次に、実施形態に係る機械翻訳装置の別の他の一例を説明する。図10は、実施形態に係る機械翻訳装置の別の他の一例の機能ブロック構成図である。この別の他の一例は、図7に示した他の一例に対し、構文解析失敗原因判別手段35及び構文解析失敗環境知識記憶部36を追加して設けたものである。図7と同一要素には同一符号を付し重複する説明は省略する。
【0072】
構文解析失敗原因判別手段35は、文書解析手段28による図4のステップS5で構文解析に失敗した原因の追究を行うものである。構文解析失敗環境知識部36には、第一言語の単語の品詞の並びで構文解析が失敗する環境知識が格納されている。構文解析失敗原因判別手段35は、構文解析に失敗した見出し語の登録品詞及びその見出し語を構成する複数の単語の品詞を並べた構成品詞に基づき、構文解析失敗環境知識部36の構文解析失敗環境知識を参照して構文解析失敗原因を判別する。
【0073】
図11は構文解析失敗環境知識部36に格納された構文解析失敗環境知識の説明図である。構文解析失敗環境知識は、見出し語の「構成品詞」、「登録品詞」、「構文解析が失敗する環境」、「登録品詞による品詞列」からなる。
【0074】
例えば、タイプ1では見出し語が2個の単語列からなり、その2個の単語の構成品詞が「形容詞+名詞」であり、一つの見出し語として登録品詞が「名詞」として登録された場合を示している。この場合、見出し語を一つの形態素(一つの単語)として取り扱った場合には、品詞は「名詞」として取り扱われる。従って、「構文解析が失敗する環境」に示すように、「形容詞and/or形容詞 名詞」といった語の並びは、本来は正しい品詞列であるが、「形容詞 名詞」が一つの形態素の「名詞」として取り扱われると、「登録品詞による品詞列」に示すように、「形容詞and名詞」となり、構文解析に失敗する品詞列となる。
【0075】
構文解析失敗原因判別手段35は、このような構文解析失敗環境知識に基づき、構文解析に失敗した原因を判別する。例えば、「登録品詞による品詞列」に示す「形容詞and名詞」で、構文解析に失敗した場合には、見出し語の登録品詞である「名詞」に代えて、見出し語の構成品詞「形容詞+名詞」として、再度構文解析を行う。そうすると、「構文解析が失敗する環境」に示す「形容詞and/or形容詞 名詞」の並びになり、構文解析に成功する。これにより、構文解析の失敗原因は、専門用語辞書の見出し語であることと判別される。
【0076】
図11に示した構文解析失敗環境知識部36に格納された構文解析失敗環境知識の各タイプ1〜6について、構文解析に失敗する一例を以下に示す。
【0077】
(1)タイプ1
(a)administrative personnel (監理担当官)
構文解析に失敗する単語列: scientific, technical and administrative personnel
(b)private interests(私益)
構文解析に失敗する単語列: sectarian or private interests
(2)タイプ2
(a)punitive laws(刑罰法規)
構文解析に失敗する単語列:excessively punitive laws
(b)toxic dose (中毒量)
構文解析に失敗する単語列:overtly toxic dose
(3)タイプ3
(a)aggregate basis (一括基準)
構文解析に失敗する単語列:on a weighted, aggregate basis
(4)タイプ4
(a)earned capital (増殖資本)
構文解析に失敗する単語列:They earned capital.
(5)タイプ5
(a)shift operations (交代制)
構文解析に失敗する単語列:They would shift operations to a country.
(6)タイプ6
(a)anode effects (陽極効果)
構文解析に失敗する単語列:The impact of the electrons with the anode effects generation of x-ray radiation.
図12は、構文解析失敗原因判別手段35の処理内容の一例を示すフローチャートである。図4のステップS5で構文解析に失敗し、その原因を追究する際には、構文解析失敗原因判別手段35が起動される。構文解析失敗原因判別手段35は、まず、構文解析失敗環境知識の「登録品詞による品詞列」に該当するかどうかを判定する(D1)。「登録品詞による品詞列」に該当する場合には、注目する語(専門用語辞書の見出し語)は構文解析失敗環境知識の「構成品詞」に該当するか否かを判定する(D2)。構文解析失敗環境知識の「構成品詞」に該当する場合には、その「構成品詞」を用いて、再度構文解析を行う(D3)。そして、構文解析に成功するかどうかを判定し(D4)、構文解析に成功する場合には失敗の原因判明を行う(D5)。すなわち、注目する語(専門用語辞書の見出し語)の登録品詞が原因であると判別する。
【0078】
ステップD1、D2、D4の判定で、判定結果がNOのときは、多品詞の有無のチェックや構成要素の仕切り直しなど、通常の構文解析失敗の原因追究の方法を用いる(D6)。そして、別の候補を用いると、構文解析に成功するかどうかを判定し(D7)、構文解析に成功する場合には失敗の原因判明を行う(D8)。一方、構文解析に失敗したときは、別の候補が残っているかどうかを判定し(D9)、別の候補が残っている場合にはステップD7に戻り、別の候補が残っていない場合には失敗の原因不明とし(D10)、処理を終了する。
【0079】
このように、構文解析失敗環境知識に該当するものがあるかどうかをステップD1、D2において判定し、これによりステップD4で構文解析に成功すれば、構文解析失敗時と成功時の違いから構文解析の原因を突き止めることができる。
【0080】
ステップD4において、この構文解析失敗環境知識では、構文解析の成功を導けなかった場合は、通常の構文解析解明の方法をとる(ステップD6)。ここでは、可能な候補を構文解析が成功するまで、あるいはすべての候補を試すまで(ステップD7、D9)のループ処理となる。ステップD7、D9は、候補数が多いほど時間を要する部分である。従って、構文解析失敗環境知識の導入により、構文解析失敗の場合にステップD5に進むことができれば、これらのステップD7、D9の処理は不必要となり、効率化につながることになる。
【0081】
なお、この構文解析失敗環境知識は辞書構築の支援にも利用できる。図13はコーパス検索結果の一例の説明図である。例えば、ユーザが”toxic dose”に対して名詞で訳語「中毒量」と登録しようとすると、toxicは形容詞、doseは名詞であるので、図11のタイプ1、2、3に該当する。そうすると、例えば、該当する分野のコーパスをシステムに与えれば、タイプ1の形態素解析が失敗する環境である「形容詞 and/or 形容詞 名詞」、タイプ2の形態素解析が失敗する環境である「副詞 形容詞 名詞」、タイプ3の形態素解析が失敗する環境である「形容詞, 形容詞 名詞」がそのコーパスに出現するかを調べることができる。
【0082】
その箇所をKWIC(keyword in context)のような形でユーザに提示すれば、ユーザは必要性を判断することができる。この過程で、例えば”potentially (副詞) toxic dose”というタイプ2の形態素解析が失敗する環境に相当する語の並びがこのコーパスに少なからず出現することが分かれば、”toxic dose”と2語の複合語の登録のほかに、”potentially toxic dose”を登録する必要性があると判断できる。
【0083】
一般に、このように長めの単語列で登録すれば、構文解析に失敗する可能性は相対的に低くなる。以上のような形で、辞書構築を支援すれば、内容面だけではなく、形態素の観点からも翻訳しようとする文書に適した用語が辞書に登録されることになる。つまり、このことは、”形容詞+名詞”を”名詞”で登録することに、図11のタイプ1、2、3のような危険性があるとしても、タイプ1、2、3それぞれの形態素解析が失敗する環境が、翻訳しようとしている文書にそもそも生起しないのであれば、問題は生じないということを意味している。ここで、翻訳は一括で行っても、または1文1文対話的に行ってもよい。
【0084】
次に、実施形態に係る機械翻訳装置のさらに別の他の一例を説明する。図14は、実施形態に係る機械翻訳装置のさらに別の他の一例の機能ブロック構成図である。この別の他の一例は、図10に示した別の他の一例に対し、参考情報表示手段37を追加して設けたものである。図10と同一要素には同一符号を付し重複する説明は省略する。
【0085】
参考情報表示手段37は、専門用語調整手段30にて文書解析手段28で得られた訳文中の専門用語の見出し語を調整する際に、専門用語辞書の見出し語の訳語を表示するものである。
【0086】
前述したように、翻訳は一括で行っても、または1文1文対話的に行ってもよいが、一括翻訳の場合は、翻訳を行う下準備として、専門用語辞書の使用の有無によって、構文解析に失敗する可能性のある箇所を予め検出しておき、2段階に分けて翻訳処理を行うことも可能である。
【0087】
すなわち、専門用語辞書の使用の有無によって、構文解析に失敗する可能性のある箇所を予め検出しておき、図9のステップS12でNOとなるようなケース、つまり、選択した専門用語辞書の語を訳に使用することができなかったものをリストアップし、それらに関してユーザにどのような訳とすべきか、問い合わせ、得られた情報を翻訳辞書部の該当する専門用語辞書の第一言語単語・熟語辞書等に反映させておく。これにより、本番の翻訳処理では、スムーズに翻訳を行うことができる。
【0088】
例えば、使用する専門用語辞書の中に、”private interests”が名詞「私益」で登録されており、これを単純に優先させると構文解析に失敗する文に遭遇し(例えば”Education serves both public and private interests.”)、システムが判断して、privateとinterestsを2単語として扱い、構文解析を成功させ、さらに専門用語辞書の訳語を活用すべく、”private interest”と「私益」をそれぞれより小さい単位に分解して、それらの間の対応関係を取ることを試みるがそれができなかった場合、”private interests”は標準辞書の訳を使うことになる。
【0089】
こうしてこの部分の訳は、publicから「公的な」、privateから「私的な」、interestsから「利益」を得て、例えば「公的・私的な利益」となる。このとき、制御部24は、参考情報表示手段37を起動し、”private interests”「私益」が選択している専門用語辞書に存在することを参考情報としてユーザに提示して、ユーザにどのような訳とすべきか、問い合わせる。
【0090】
図15はその画面の一例の説明図である。これにより、ユーザは、”public and private interests”を手動で「公益・私益」と修正したり、または、”pubic and private interests”を名詞「公益・私益」として、使用中の専門用語辞書に登録する際に助けになる。
【0091】
実施形態によれば、主に4点の効果が期待できる。第一に、構文解析の失敗を回避しつつ、専門用語辞書の用語に統一を図った訳文を生成することができる。第二に、ある箇所で構文解析の失敗を招いた見出し語を文書全体を通して棄却するのではなく、失敗した箇所のみ棄却することができ、柔軟な翻訳ができる。したがって、人間が、そのような見出し語を棄却すべき見出し語を格納した辞書に登録すべきかどうかを判断する手間を省くことができる。第三に、構文解析の失敗の原因追究にあたり、専門用語辞書の使用の有無が原因であるものはかなりの部分、自動的に検出されるので機械翻訳の訳文の見直し作業を軽減することができる。第四に、翻訳しようとしている分野の文書において現在は未登録であるが、解析上当該辞書に登録が望まれる語を登録するようユーザに促すことにより、質の高い辞書構築に寄与する。
【0092】
以上の説明では、英日翻訳の場合を中心に説明してきたが、他の言語対にも応用することができる。また、いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0093】
11…機械翻訳装置、12…演算制御装置、13…プロセッサ、14…メモリ、15…プログラム、16…作業エリア、17…表示装置、18…入力装置、19…マウス、20…キーボード、21…ディスクドライブ、22…ハードディスクドライブ(HDD)、23…入力処理部、24…制御部、25…記憶装置、26…文書記憶部、27…翻訳辞書部、28…文書解析手段、29…解析情報記憶部、30…専門用語調整手段、31…副専門用語作成手段、32…副専門用語辞書部、33…出力処理部、34…専門用語辞書部、35…構文解析失敗原因判別手段、36…構文解析失敗環境知識記憶部、37…参考情報表示手段
【技術分野】
【0001】
本発明の実施形態は、自然言語処理技術に関わり、より詳しくは、自然言語文書を処理し第一言語を第二言語に翻訳する機械翻訳装置及び機械翻訳プログラムに関する。
【背景技術】
【0002】
機械翻訳が一般に普及するようになった近年、機械翻訳に期待される質のレベルも高まっている。この一つの取り組みとして、それぞれの分野にあった翻訳を行うことが挙げられる。機械翻訳処理においては、翻訳する文書の分野の用語を用いた翻訳結果を得るために、分野にかかわらず使用する標準辞書以外に、該当する分野の専門用語辞書、またはユーザが必要に応じて登録して構築されたユーザ辞書を併用して翻訳を行っている。こうした専門用語辞書の重要性は各方面で強調されている。これは、人間の翻訳家は、膨大な専門用語に関する翻訳の知識をすべて保持しているわけではなく、専門用語を知らずに人間の翻訳家が特許を翻訳すると、専門用語の訳を間違えてしまうことがあるからである。
【0003】
一方、専門用語辞書は豊富な見出しを揃えているが、複数解釈が可能な文字列が見出し語(通常複合語)となっているものがある、そのため、その見出し語(通常複合語)を辞書登録することでその形態素の解釈が優先され、構文の解析に失敗し、解析結果の悪化を招くことがある。特に英語では、同一形態で複数の品詞を有する語が多く存在するため、第一言語が英語の場合、このような現象が起きやすい。こうした場合、従来では以下のいずれかの方法で対処していた。
【0004】
第一の方法として、目視チェックにより、解析に失敗した文の中で解析の失敗の原因となっている見出し語を特定し、その見出し語を棄却して翻訳することである。これにより、解析に成功する可能性が生じる。典型的には複数の単語からなる見出し語を、個々に区切って解析し直すことである。
【0005】
第二の方法として、複数の専門用語辞書を指定し、最も優先度の高い辞書で解析に失敗した場合に、解析の失敗となった見出し語がそれより優先度の低い辞書に異なる品詞で登録されているかを順に検索する。そして、解析の失敗となった見出し語が存在した場合、その品詞で翻訳し、成功するとその優先度の低い辞書の訳語を用いて訳文を生成する。一方、そのような候補が見つからなかった場合、その見出し語部分を未知語として扱い、訳文には、第一言語そのままの文字列を挿入することとしている。
【0006】
特定の見出し語(形態素)による解析失敗を回避するには、このように複数の辞書の切り替えが行われるわけであるが、この切り替えを自動化したものがある。具体的には、現在選択されている専門用語辞書の変換履歴、現在選択されている専門用語辞書、次に優先度の高い専門用語辞書の順に使用する翻訳辞書を自動的に切り替えていく。
【0007】
しかし、第一の方法では、機械翻訳において解析の失敗の原因となっている見出し語を特定することは、少なくとも第一言語の知識が必要であり、容易ではない。機械翻訳における失敗の傾向と人間翻訳における失敗の傾向は異なり、検出には一定のスキルを要する。また、仮にそのような見出し語が特定できたとして、その見出し語を少なくとも、同一文書内では棄却するものとして登録すると、その文書内でそれ以降に出現する文においてはその見出し語と品詞で解析が成功することがあっても使われないことになる。逆に、登録しない場合に、その文書内でそれ以降に出現する文においてその見出し語と品詞で失敗すれば、再度同じように棄却の命令を出す必要があり、作業の無駄が発生する。
【0008】
また、解析には成功するとしても、単に優先させないと、選択した専門辞書の分野の訳語ではなくなり、代わりに標準辞書の訳語が採用されることになり、用語の統一が不十分になる。つまり、専門用語が使われるか否かは、解析に失敗するか否かによることになってしまう。そして、最悪の場合、第一言語のままになり、第二言語しか解しないユーザにとっては、文の理解に苦しむことになる。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特許第2807586号公報
【特許文献2】特開2000−3364号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
選択した専門用語辞書を単純に適用した場合に起こる解析の失敗を回避しつつ、その専門用語辞書を最大限利用して、該当する専門分野の用語に統一を図った訳文を生成することのできる機械翻訳装置及び機械翻訳プログラムを提供することである。
【課題を解決するための手段】
【0011】
実施形態の機械翻訳装置は、単語単位の第一言語と第二言語との対訳情報を記憶装置に格納した翻訳辞書部と、複数の単語列からなる第一言語の専門用語の見出し語及びその訳語を対訳情報として記憶装置に格納した専門用語辞書部とを有する。専門用語調整手段は、前記翻訳辞書部の翻訳辞書情報及び前記専門用語辞書部の対訳情報を用いて構文解析を行い、前記専門用語辞書の見出し語が原因で構文解析に失敗したときは、その見出し語及びその訳語を単語単位に分解して辞書引きを行い、単語単位に分割したその見出し語の訳語候補のいずれかが、単語単位に分割した訳語に対応しているかどうかを判定し、対応しているものがあるときは、得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える。
【図面の簡単な説明】
【0012】
【図1】実施形態に係る機械翻訳装置の一例の機能ブロック構成図。
【図2】実施形態に係る機械翻訳装置のハードウェア構成を示すブロック構成図。
【図3】翻訳対象となる第一言語文書の一例の説明図。
【図4】図1の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャート。
【図5】図3の文番号2の文に対して図4のステップS1〜ステップS8の処理を行った後の形態素解析情報の一例を示す説明図。
【図6】図3の文番号2の文に対して構文解析を行った場合の解析結果の一例を示す説明図。
【図7】実施形態に係る機械翻訳装置の他の一例の機能ブロック構成図
【図8】実施形態における副専門用語作成手段での見出し語の訳語候補のリスト作成の処理内容の一例を示すフローチャート。
【図9】図7の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャート。
【図10】実施形態に係る機械翻訳装置の別の他の一例の機能ブロック構成図。
【図11】実施形態における構文解析失敗環境知識部に格納された構文解析失敗環境知識の説明図。
【図12】実施形態における構文解析失敗原因判別手段の処理内容の一例を示すフローチャート。
【図13】実施形態におけるコーパス検索結果の一例を示す説明図。
【図14】実施形態に係る機械翻訳装置のさらに別の他の一例の機能ブロック構成図。
【図15】実施形態における参考情報表示手段による参考情報を表示した画面の一例の説明図。
【発明を実施するための形態】
【0013】
以下、実施形態を図面に基づいて説明する。図1は、実施形態に係る機械翻訳装置の一例の機能ブロック構成図、図2は実施形態に係る機械翻訳装置のハードウェア構成を示すブロック構成図である。
【0014】
図2において、機械翻訳装置11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
【0015】
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には機械翻訳・校正支援のプログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置である表示装置17に表示・出力される。なお、出力装置として表示装置17を示しているが、出力装置としては、表示装置17だけではなく、印字機等の印刷装置、磁気テープ、磁気ディスク、光ディスク等のコンピュータ可読媒体への出力装置や、他のメディアに文書を送信する送信装置等を採用することもできる。
【0016】
入力装置18は演算制御装置12に情報を入力するものであり、例えば、マウス19、キーボード20、ディスクドライブ21から構成され、また、OCR(光学式文字読み取り装置)や、磁気テープ、磁気ディスク、光ディスク等、コンピュータ可読媒体からの読み込み装置を採用することも可能である。
【0017】
例えば、入力装置18であるマウス19やキーボード20は、表示装置17を介して演算制御装置12に各種指令を入力し、キーボード20、ディスクドライブ21は機械翻訳・校正支援対象の文書を入力する。すなわち、ディスクドライブ21は機械翻訳・校正支援対象の文書のファイルを記憶媒体に入出力するものである。さらに、演算制御装置12の演算結果や機械翻訳・校正支援に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)22が設けられている。
【0018】
図1において、図1に示す演算制御装置12内の各機能ブロックは、上述の機械翻訳プログラムを構成する各プログラムに対応する。すなわち、プロセッサ13が機械翻訳プログラムを構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ22の記憶領域に対応する。
【0019】
入力装置18は、翻訳対象となる第一言語文書の電子データを入力するものであり、ユーザの入力操作に基づいて翻訳対象となる第一言語文書の電子データを入力する。入力装置18によって入力された翻訳対象となる第一言語文書は、演算制御装置12の入力処理部23により入力処理されて取り込まれ、制御部24を介して記憶装置25の文書記憶部26に記憶される。また、入力装置18は、入力処理部23を介して制御部24に対して各種コマンドを与える。制御部24は、入力処理部23、出力処理部33、文書解析手段28、専門用語調整手段30を制御するとともに、記憶装置25とのデータの授受の制御も行う。
【0020】
記憶装置25には、翻訳辞書部27及び専門用語辞書部34が記憶されている。翻訳辞書部27は、文書解析手段28が翻訳対象となる第一言語文書を解析する際に用いる各種辞書データを格納しており、第一言語から第二言語への翻訳を行うための辞書、及び第二言語から第一言語への翻訳を行うための辞書を格納している。
【0021】
すなわち、第一言語から第二言語への翻訳を行うための辞書は語尾等に変化のある単語・熟語をその原形に変換するための第一言語活用変化辞書27a、第一言語を解析するための文法が記憶された第一言語解析文法辞書27b、第一言語の単語・熟語に対応する第二言語の訳語がその品詞情報と共に記憶される第一言語単語・熟語辞書27c、第一言語から第二言語への変換情報が記憶された第一言語変換文法辞書27d、第二言語の文の構造を決定する第二言語生成文法辞書27e、さらに語尾等の語形を変化させて翻訳文を完成させる第二言語形態素生成文法辞書27fを格納している。
【0022】
それらに加え、第二言語活用変化辞書27h、第二言語を解析するための文法が記憶された第二言語解析文法辞書27i、第二言語の単語・熟語に対応する第一言語の訳語が、その品詞情報と共に記憶される第二言語単語・熟語辞書27j、第二言語から第一言語への変換情報が記憶された第二言語変換文法辞書27k、第一言語の文の構造を決定する第一言語生成文法辞書27l、さらに語尾等の語形を変化させて翻訳文を完成させる第一言語形態素生成文法辞書27m等を格納している。
【0023】
また、専門用語辞書部34には、複数の単語列からなる第一言語の専門用語及びその訳語を対訳情報とした専門用語辞書が記憶されている。
【0024】
文書解析手段28は、制御部24からの指示に従って、記憶装置25の翻訳辞書部27の翻訳辞書情報及び専門用語辞書部34の対訳情報を用いて、入力装置18によって入力され文書記憶部26に記憶された翻訳対象となる第一言語文書の形態素解析を行い、形態素の属性情報及び訳語情報を解析情報として記憶装置25の解析情報記憶部29に記憶する。
【0025】
それとともに、構文解析を行い構文解析が成功したときは、解析情報の訳語情報に基づき訳文を生成する。一方、専門用語辞書部34の専門用語辞書の見出し語が使われずに構文解析に失敗したときは不完全な状態で訳文を生成し、専門用語辞書部34の専門用語辞書の見出し語が使われて構文解析に失敗したときはその見出しを棄却して訳文を得る。また、文書解析手段28の解析結果や訳文は、必要に応じて、制御部24及び出力処理部33を介して表示装置17に表示・出力される。
【0026】
専門用語調整手段30は、構文解析が失敗した際に失敗の原因となる専門用語辞書の見出し語を検出し、見出し語及びその訳語を単語単位に分解して、第一言語と第二言語間で単語レベルの対応関係を抽出する。すなわち、専門用語調整手段30は、文書解析手段28が専門用語辞書部34の見出し語の棄却により訳文を得たときは、その見出し語及び訳語を単語単位に分解して辞書引きを行い、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致しているかどうかを判定する。そして、一致しているものがあるときは、文書解析手段30で得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える。その結果を、必要に応じて、制御部24及び出力処理部33を介して表示装置17に表示・出力する。
【0027】
出力処理部33は、制御部24を介して供給された第一言語文書の対訳文書、解析結果、構文解析失敗箇所、専門用語調整後の新たな翻訳結果を表示装置17に出力処理するものであり、これにより、表示装置17の表示画面上に翻訳情報画面が表示される。また、出力処理部33は制御部24への各種コマンドに対する制御部24からの応答を表示する。
【0028】
以下の説明では、英語を第一言語とし日本語を第二言語とした場合を一例として説明する。また、図3は、以下の説明で使用する翻訳対象となる第一言語文書の一例の説明図であり、文番号1から文番号3は翻訳対象となる第一言語の文の一例、文番号4は後の説明で使用する第一言語の文の一例である。なお、これらの文は、説明のための一例であるので文同士に連関性はない。
【0029】
また、以下の説明で使用する専門用語辞書としては、「化学辞書」が選択されているものとする。この専門用語辞書には、図3の文番号1の文にあるような文を念頭に置き、”mixed solution”という見出し語が、品詞を「名詞」、訳語を「混合溶液」として登録されているものとする。ここでは、説明を簡単化するため、標準辞書以外に用いる専門用語辞書は1つとし、ユーザ辞書には何も登録されていないこととする。なお、複合語の登録内容をできるだけ利用するという意味では、1つの専門用語辞書に限らず、ユーザ辞書についてもいえるので、「専門用語辞書」というものを、複合語を見出し語として登録可能なユーザ辞書をも含むものとして実施しても構わない。
【0030】
図4は、図1の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャートである。まず、制御部24は、入力装置18から入力処理部23を介して入力された翻訳対象となる第一言語文書を記憶する(S1)。すなわち、翻訳対象となる第一言語を文書記憶部26に記憶する。
【0031】
次に、制御部24は文書解析手段28を起動し、文書解析手段28は起動されると、文書記憶部26から第一言語の文書及び専門用語辞書部34の専門用語辞書を読み出し、第一言語の文書の各文をそれぞれ形態素に分割し、品詞などの属性情報を得る(S2)。これは、翻訳対象となる第一言語の文書の各文の統語的特徴を得るためである。ステップS2においては、翻訳辞書部27の第一言語から第二言語への翻訳を行うための辞書、具体的には第一言語活用変化辞書27aと第一言語解析文法辞書27bの照合により、各単語につき、品詞、原形、属性が付与され、また、各形態素がどのような関係を有するかを示す文構造(係り受け関係)を得る。
【0032】
次に、文書解析手段28は、第一言語単語・熟語辞書27cを用いて、それぞれの形態素に対して翻訳辞書部27内に定義している訳語情報を得る(S3)。さらに、構文解析を行い(S4)、構文解析に成功したかどうかを判定する(S5)。
【0033】
文書解析手段28は、構文解析に成功すれば、第一言語変換文法辞書27d、第二言語生成文法辞書27e、第二言語形態素生成文法辞書27fを用いて、第二言語の構造に変換し訳語の形態素生成を行い訳文を得る(S6)。
【0034】
一方、文書解析手段28は、ステップS5の判定で、成功でない(失敗である)と判定したときは、失敗の原因が専門用語辞書に登録されている語であるか否かにあるかの可能性を探るために、形態素解析結果の中に、専門用語辞書由来の見出し語が使われているかどうかを調べる(S7)。専門用語辞書由来の見出し語が使われていない場合は、構文解析に失敗した不完全な状態で生成できる訳文を得る(S6)。一方、専門用語辞書由来の見出し語が使われている場合は、該当する見出し語を形態素解析において棄却する(S8)。そして、ステップS4に戻り再度構文解析を行う。
【0035】
なお、問題となる形態素が複数ある場合は、全部を一気に候補から削除するのではなく、徐々に候補から落としていく。つまり、問題のない形態素はなるべく利用することとする。さて、ここで、ステップS5の判定で、再度失敗と判定されたときは、構文解析に失敗した不完全な状態で、生成できる訳文を得る(S6)。
【0036】
ここで、ここまでのステップS1〜ステップS8の処理の具体例について説明する。ステップS1〜ステップS8の処理で得られた形態素解析情報、訳語情報、係り受け関係、翻訳結果は、制御部24により解析情報記憶部29に記憶される。図3の文番号2の場合に、解析情報記憶部29に記憶される形態素解析情報の一例を図5に示す。
【0037】
図5は、図3の文番号2の文に対して図4のステップS1〜ステップS8の処理を行った後の形態素解析情報の一例を示す説明図である。図5に示すように、文番号2の文は10個の形態素に分割され、英語品詞、原形、活用形、日本語訳語、日本語品詞、出典辞書名の項目を有している。なお、日本語訳語は複数可能である場合、頻度が高い順に格納されている。例えば、solutionには、「解」と「溶液」との2つの訳語が格納されていることがわかる。また、solution以外の訳語については説明の簡単化のために、1つの訳語しか挙げていない。
【0038】
文番号2の文において、構文解析に最初に採用する形態素列としては、専門用語辞書の見出し語(ここでは番号10の”mixed solution”)を含んだものとなる。すなわち、1−2−3−4−5−6−10となる。これを品詞の並びとして書き表すと、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+名詞(10)」となる。
【0039】
構文解析を行う際は、「冠詞(1)+名詞(2)」は名詞句として纏め上げることができる。この名詞句は次の動詞(3)の主語ととらえれば接続可能である。また、動詞(3)+前置詞(4)も接続可能である。前置詞(4)の後ろは名詞句が後続することが期待される。名詞句の冒頭の品詞は冠詞が可能であるので、次の冠詞(5)も問題ない。残った2つの形態素で名詞句を構成することが期待されるが、副詞は名詞を修飾し得ない。従って、「副詞(6)+名詞(10)」は名詞句とは認定されない。このようにして、これら2つの形態素が文において果たす役割が解析では不明となり、結果として構文解析は失敗する。
【0040】
専門用語辞書の見出し語(”mixed solution”)を含んだ場合には、構文解析に失敗するので、名詞(10)の”mixed solution”を候補から外し(S7、S8)、再度構文解析を行う(S4)。
【0041】
この再度の構文解析に用いられる形態素列は、番号で表すと、1−2−4−5−6−7−9、または、1−2−3−4−5−6−8−9である。品詞で表すとそれぞれ、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+動詞過去形(7)+名詞(9)」、または、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+動詞過去分詞形(8)+名詞(9)」となる。
【0042】
最初の候補では解析不能となっていた、冠詞(5)の後続部分に着目すると、英語文法により、前者の「副詞+動詞過去形+名詞」は名詞句を構成し得ないが、後者の「副詞+動詞過去分詞形+名詞」は名詞句を構成し得るので、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+動詞過去分詞形(8)+名詞(9)」を採用し構文解析を成功させることができる。
【0043】
図6は図3の文番号2の文に対して構文解析を行った場合の解析結果の一例を示す説明図である。図6に示すように、形態素列が1−2−3−4−5−6−8−9のときに構文解析に成功する。これにより、文番号2の訳文として、図5に示した情報を用いて「反応は入念に混ぜた解の中で続く。」が得られる。
【0044】
次に、ステップS5で訳文を得たのは専門用語の棄却によるものかどうかを判定する(S9)。専門用語の棄却によるものでない場合には処理を終了する。専門用語の棄却によるものである場合には、ステップS6で得られた訳文「反応は入念に混ぜた解の中で続く。」の調整を以下の処理で行う。
【0045】
制御部24は専門用語調整手段30を起動する。専門用語調整手段30は起動されると、見出し語、訳語をそれぞれ形態素に分割し、品詞などの属性情報を得る(S10)。
【0046】
文番号2の文の場合、問題となっていた見出し語は”mixed solution”(訳語「混合溶液」、品詞「名詞」)である。第一言語単語・熟語辞書27c、第二言語単語・熟語辞書27jを用いて、見出し語及びその訳語の各形態素に対して辞書引きを行い、訳語を得る(S11)。すなわち、その見出し語及び訳語を単語単位に分解して辞書引きを行う。
【0047】
見出し語部分の「mixed solution」については、図5に示すようにmixed (<mix)とsolutionに分解でき、訳語としてそれぞれ、「混ぜる」と「解、溶液」がある。一方、訳語「混合溶液」は「混合」と「溶液」からなる複合語と形態素解析されると、「混合」はサ変名詞、「溶液」は名詞と判断される。第二言語単語・熟語辞書27jには、「混合」の動詞訳語として”mix, blend, mingle”、名詞訳語としてmixing, mixtureがあり、「溶液」の訳語として、”solution”が入っているものとする。
【0048】
ここで、以上の説明では、”mixed”と「混合」とが対応することを、「混合」の英語訳語に”mix”があることをもって判断したが、次のケースにもこのような対応関係をみてとることができる。すなわち、標準辞書のmixの第一訳語が「混ぜる」、第二訳語またはそれ以降の訳語に「混合する」がある場合にも、”mixed”と「混合」とが対応すると判断できる。これによりmixと混合するとが対応することがわかり、サ変名詞の性質から”mixed”と「混合」が対応することを導くことができる。
【0049】
ステップS11での辞書引きが終わると、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致しているかを判定する(S12)。
【0050】
この判定により、「混合」の第一言語への訳語候補の中に、動詞”mix”があり、また、「溶液」については、第一言語への訳語候補の中に名詞”solution”があり、solutionの第二言語への訳語の中に「溶液」があることがわかるので、”mixed”と「混合(する)」、”solution”と「溶液」が単語レベルで対応していることがわかる。
【0051】
そこで、一旦、標準辞書の訳語で生成した訳文の中の問題の単語列の訳の部分をこれらの用語に置き換える。すなわち、ステップS6で得られた訳文の中で、ステップS12で一致を見た部分について訳語を置き換える(S13)。
【0052】
これは、「反応は入念に混ぜた解の中で続く。」においては、“mixed solution”に対応する「混ぜた解」を「混合した溶液」と置き換えることを意味する。最終的な訳文として、「反応は入念に混合した溶液の中で続く。」を得て、処理は終了する。こうして選択した化学分野にあった用語を用いた訳文が生成されることになる。
【0053】
以上の説明では、図3の文番号2の文のケースを見たが、同じく文番号3の文も”mixed solution”を名詞として採用することで構文解析の失敗を招く。なお、文番号3の文の場合は、mixedは文の主動詞として機能している。
【0054】
一方、文番号4の文は化学分野以外の文書からの文である。従って、「化学専門用語辞書」は選択されていない。この文は、”mixed solution”は名詞と扱っても構文解析に成功するケースであり、solutionは「解、解決策」といった意味に解釈されるべきものである。このように、文番号4は、化学専門用語辞書にある訳語の調整がかからないことになるので、solutionには、標準辞書の訳語が用いられてsolutionを「解」とするのに対し、文番号1〜3については「化学専門用語辞書」の情報より、すべて「溶液」と調整可能なことから、分野に応じた訳文を出力可能である。
【0055】
次に、実施形態に係る機械翻訳装置の他の一例を説明する。図7は、実施形態に係る機械翻訳装置の他の一例の機能ブロック構成図である。この他の一例は、図1に示した一例に対し、副専門用語作成手段31及び副専門用語辞書部32を追加して設けたものである。図1と同一要素には同一符号を付し重複する説明は省略する。
【0056】
副専門用語作成手段31は、専門用語辞書部34のすべての見出し語について、予め単語単位に分解した第一言語の見出し語の訳語候補のリストを作成するものであり、副専門用語辞書部32は、副専門用語作成手段31で作成された見出し語の訳語候補のリストを格納するものである。
【0057】
図8は、副専門用語作成手段31での見出し語の訳語候補のリスト作成の処理内容の一例を示すフローチャートである。副専門用語作成手段31は、選択された専門用語辞書のすべての見出し語と訳語との対について、図8に示すように、図4のステップS10、S11、S12と同じ処理(C1、C2、C3)を行う。
【0058】
すなわち、見出し語、訳語をそれぞれ形態素に分割し、品詞などの属性情報を得る(C1)。次に、翻訳辞書部27の第一言語単語・熟語辞書27c、第二言語単語・熟語辞書27jを用いて、見出し語及びその訳語の各形態素に対して辞書引きを行い、訳語を得る(C2)。そして、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致しているかを判定する(C3)。
【0059】
判定した結果、一致した対を品詞とともに副専門用語辞書部32に記憶する(C4)。そして、次に見出し語はあるかどうかを判定し(C5)、見出し語があるときはステップC1に戻り、ステップC1〜ステップC5の処理を繰り返し行う。これにより、見出し語について第一言語の単語とその品詞、対応する訳語のリストが作成され、副専門用語辞書部32に蓄積される。副専門用語辞書部32に蓄積されたリストは本来の専門用語辞書部34を補う補完的な辞書とみなすことができる。
【0060】
図9は、図7の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャートである。図4に示した処理内容に対し、ステップS12でNOと判定された後に新たな処理であるステップS14〜ステップS17が追加されている。
【0061】
すなわち、専門用語調整手段30は、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致していないときは、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が正規の専門用語辞書に登録されているか否かを判定する(S14)。つまり、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致していないときは、単語単位に分解した第一言語の見出し語の訳語が専門用語辞書部34にあるかどうかを判定する。
【0062】
専門用語辞書に登録されているときは、ステップS6で得られた訳文の中でステップS14で得られた部分について訳語を置き換える(S15)。つまり、文書解析手段28で得られた訳文中のその見出し語の単語単位の訳語に相当する部分をその専門用語辞書部34の訳語に置き換える。
【0063】
一方、ステップS14の判定で、専門用語辞書に登録されていないときは、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が副専門用語辞書に登録されているか否かを判定する(S16)。つまり、単語単位に分解した第一言語の見出し語の訳語が副専門用語辞書部32にあるかどうかを判定する。
【0064】
副専門用語辞書に登録されているときは、ステップS6で得られた訳文の中でステップS16で得られた部分について訳語を置き換える(S17)。つまり、文書解析手段28で得られた訳文中のその見出し語の単語単位の訳語に相当する部分をその副専門用語辞書部32の訳語に置き換える。
【0065】
いま、専門用語辞書部34から選択された専門用語辞書の分野は「コンピュータ」とし、翻訳対象の例文として”These formulas, including both physical and virtual channels, are also permitted.”を用いる。また、このコンピュータ用語辞書には、見出し語”virtual channel”が、訳語「VC」、品詞「名詞」として登録されているものとする。
【0066】
この見出し語”virtual channel”を優先的に用いて構文解析を行うと構文解析に失敗することになる。これは、構成要素となっている”physical and virtual channels”に着目してみると、複数形の”virtual channels”を名詞として扱うことで、physical (形容詞) +and (接続詞)+virtual channels (名詞)という品詞列となるが、この品詞列は英語では構成要素となり得ないがゆえに矛盾が生じるためである。
【0067】
見出し語”virtual channel”を名詞とはせずに、”virtual channel”を単語レベルで”形容詞+名詞”とすれば、[[形容詞+接続詞+形容詞]+名詞]となり、構文解析に成功する。専門用語辞書の訳語調整のために、図4のステップS12で”virtual channel”とVCとの対応関係を取ろうとするが、対応がとれないものとする。
【0068】
”virtual channel”は2単語からなるが、日本語としてのVCはVとCとよりなるともみなせるがVやC自体では意味を持たないからである。一方、このコンピュータ辞書の他の登録語として、”virtual domain”(訳語「バーチャル・ドメイン」、品詞「名詞」)や”virtual memory”(訳語「バーチャル・メモリ」、品詞「名詞」)があるとすれば、図8のステップC1〜ステップC5の過程で見出し語virtual、訳語「バーチャル」、品詞「形容詞」が獲得され、コンピュータの副専門用語辞書に格納されることになる。
【0069】
まず、図9のステップS14では、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が正規の専門用語辞書に登録されているか否かの判定する。この場合、”virtual channel”の”channel”が正規の専門用語辞書に、訳語「チャネル」、品詞「名詞」と登録されているとすれば、ステップS15において、上記例文のchannelの訳語を「チャネル」とする。
【0070】
一方、virtualは、正規の専門用語辞書に登録されていないとすれば、ステップS16に進み、今度は副専門用語辞書が検索される。すると前提条件の説明にあるように、virtualが副専門用語辞書に登録されていることが分かり、訳語「バーチャル」とする(S17)。このようにして、標準辞書には、virtual(形容詞)の訳語として「事実上の」、「仮想の」が、channel(名詞)の訳語として「チャンネル」が登録されていたとしても、ステップS14〜ステップS17の処理により、コンピュータの専門用語を用いた訳文を得ることができる。
【0071】
次に、実施形態に係る機械翻訳装置の別の他の一例を説明する。図10は、実施形態に係る機械翻訳装置の別の他の一例の機能ブロック構成図である。この別の他の一例は、図7に示した他の一例に対し、構文解析失敗原因判別手段35及び構文解析失敗環境知識記憶部36を追加して設けたものである。図7と同一要素には同一符号を付し重複する説明は省略する。
【0072】
構文解析失敗原因判別手段35は、文書解析手段28による図4のステップS5で構文解析に失敗した原因の追究を行うものである。構文解析失敗環境知識部36には、第一言語の単語の品詞の並びで構文解析が失敗する環境知識が格納されている。構文解析失敗原因判別手段35は、構文解析に失敗した見出し語の登録品詞及びその見出し語を構成する複数の単語の品詞を並べた構成品詞に基づき、構文解析失敗環境知識部36の構文解析失敗環境知識を参照して構文解析失敗原因を判別する。
【0073】
図11は構文解析失敗環境知識部36に格納された構文解析失敗環境知識の説明図である。構文解析失敗環境知識は、見出し語の「構成品詞」、「登録品詞」、「構文解析が失敗する環境」、「登録品詞による品詞列」からなる。
【0074】
例えば、タイプ1では見出し語が2個の単語列からなり、その2個の単語の構成品詞が「形容詞+名詞」であり、一つの見出し語として登録品詞が「名詞」として登録された場合を示している。この場合、見出し語を一つの形態素(一つの単語)として取り扱った場合には、品詞は「名詞」として取り扱われる。従って、「構文解析が失敗する環境」に示すように、「形容詞and/or形容詞 名詞」といった語の並びは、本来は正しい品詞列であるが、「形容詞 名詞」が一つの形態素の「名詞」として取り扱われると、「登録品詞による品詞列」に示すように、「形容詞and名詞」となり、構文解析に失敗する品詞列となる。
【0075】
構文解析失敗原因判別手段35は、このような構文解析失敗環境知識に基づき、構文解析に失敗した原因を判別する。例えば、「登録品詞による品詞列」に示す「形容詞and名詞」で、構文解析に失敗した場合には、見出し語の登録品詞である「名詞」に代えて、見出し語の構成品詞「形容詞+名詞」として、再度構文解析を行う。そうすると、「構文解析が失敗する環境」に示す「形容詞and/or形容詞 名詞」の並びになり、構文解析に成功する。これにより、構文解析の失敗原因は、専門用語辞書の見出し語であることと判別される。
【0076】
図11に示した構文解析失敗環境知識部36に格納された構文解析失敗環境知識の各タイプ1〜6について、構文解析に失敗する一例を以下に示す。
【0077】
(1)タイプ1
(a)administrative personnel (監理担当官)
構文解析に失敗する単語列: scientific, technical and administrative personnel
(b)private interests(私益)
構文解析に失敗する単語列: sectarian or private interests
(2)タイプ2
(a)punitive laws(刑罰法規)
構文解析に失敗する単語列:excessively punitive laws
(b)toxic dose (中毒量)
構文解析に失敗する単語列:overtly toxic dose
(3)タイプ3
(a)aggregate basis (一括基準)
構文解析に失敗する単語列:on a weighted, aggregate basis
(4)タイプ4
(a)earned capital (増殖資本)
構文解析に失敗する単語列:They earned capital.
(5)タイプ5
(a)shift operations (交代制)
構文解析に失敗する単語列:They would shift operations to a country.
(6)タイプ6
(a)anode effects (陽極効果)
構文解析に失敗する単語列:The impact of the electrons with the anode effects generation of x-ray radiation.
図12は、構文解析失敗原因判別手段35の処理内容の一例を示すフローチャートである。図4のステップS5で構文解析に失敗し、その原因を追究する際には、構文解析失敗原因判別手段35が起動される。構文解析失敗原因判別手段35は、まず、構文解析失敗環境知識の「登録品詞による品詞列」に該当するかどうかを判定する(D1)。「登録品詞による品詞列」に該当する場合には、注目する語(専門用語辞書の見出し語)は構文解析失敗環境知識の「構成品詞」に該当するか否かを判定する(D2)。構文解析失敗環境知識の「構成品詞」に該当する場合には、その「構成品詞」を用いて、再度構文解析を行う(D3)。そして、構文解析に成功するかどうかを判定し(D4)、構文解析に成功する場合には失敗の原因判明を行う(D5)。すなわち、注目する語(専門用語辞書の見出し語)の登録品詞が原因であると判別する。
【0078】
ステップD1、D2、D4の判定で、判定結果がNOのときは、多品詞の有無のチェックや構成要素の仕切り直しなど、通常の構文解析失敗の原因追究の方法を用いる(D6)。そして、別の候補を用いると、構文解析に成功するかどうかを判定し(D7)、構文解析に成功する場合には失敗の原因判明を行う(D8)。一方、構文解析に失敗したときは、別の候補が残っているかどうかを判定し(D9)、別の候補が残っている場合にはステップD7に戻り、別の候補が残っていない場合には失敗の原因不明とし(D10)、処理を終了する。
【0079】
このように、構文解析失敗環境知識に該当するものがあるかどうかをステップD1、D2において判定し、これによりステップD4で構文解析に成功すれば、構文解析失敗時と成功時の違いから構文解析の原因を突き止めることができる。
【0080】
ステップD4において、この構文解析失敗環境知識では、構文解析の成功を導けなかった場合は、通常の構文解析解明の方法をとる(ステップD6)。ここでは、可能な候補を構文解析が成功するまで、あるいはすべての候補を試すまで(ステップD7、D9)のループ処理となる。ステップD7、D9は、候補数が多いほど時間を要する部分である。従って、構文解析失敗環境知識の導入により、構文解析失敗の場合にステップD5に進むことができれば、これらのステップD7、D9の処理は不必要となり、効率化につながることになる。
【0081】
なお、この構文解析失敗環境知識は辞書構築の支援にも利用できる。図13はコーパス検索結果の一例の説明図である。例えば、ユーザが”toxic dose”に対して名詞で訳語「中毒量」と登録しようとすると、toxicは形容詞、doseは名詞であるので、図11のタイプ1、2、3に該当する。そうすると、例えば、該当する分野のコーパスをシステムに与えれば、タイプ1の形態素解析が失敗する環境である「形容詞 and/or 形容詞 名詞」、タイプ2の形態素解析が失敗する環境である「副詞 形容詞 名詞」、タイプ3の形態素解析が失敗する環境である「形容詞, 形容詞 名詞」がそのコーパスに出現するかを調べることができる。
【0082】
その箇所をKWIC(keyword in context)のような形でユーザに提示すれば、ユーザは必要性を判断することができる。この過程で、例えば”potentially (副詞) toxic dose”というタイプ2の形態素解析が失敗する環境に相当する語の並びがこのコーパスに少なからず出現することが分かれば、”toxic dose”と2語の複合語の登録のほかに、”potentially toxic dose”を登録する必要性があると判断できる。
【0083】
一般に、このように長めの単語列で登録すれば、構文解析に失敗する可能性は相対的に低くなる。以上のような形で、辞書構築を支援すれば、内容面だけではなく、形態素の観点からも翻訳しようとする文書に適した用語が辞書に登録されることになる。つまり、このことは、”形容詞+名詞”を”名詞”で登録することに、図11のタイプ1、2、3のような危険性があるとしても、タイプ1、2、3それぞれの形態素解析が失敗する環境が、翻訳しようとしている文書にそもそも生起しないのであれば、問題は生じないということを意味している。ここで、翻訳は一括で行っても、または1文1文対話的に行ってもよい。
【0084】
次に、実施形態に係る機械翻訳装置のさらに別の他の一例を説明する。図14は、実施形態に係る機械翻訳装置のさらに別の他の一例の機能ブロック構成図である。この別の他の一例は、図10に示した別の他の一例に対し、参考情報表示手段37を追加して設けたものである。図10と同一要素には同一符号を付し重複する説明は省略する。
【0085】
参考情報表示手段37は、専門用語調整手段30にて文書解析手段28で得られた訳文中の専門用語の見出し語を調整する際に、専門用語辞書の見出し語の訳語を表示するものである。
【0086】
前述したように、翻訳は一括で行っても、または1文1文対話的に行ってもよいが、一括翻訳の場合は、翻訳を行う下準備として、専門用語辞書の使用の有無によって、構文解析に失敗する可能性のある箇所を予め検出しておき、2段階に分けて翻訳処理を行うことも可能である。
【0087】
すなわち、専門用語辞書の使用の有無によって、構文解析に失敗する可能性のある箇所を予め検出しておき、図9のステップS12でNOとなるようなケース、つまり、選択した専門用語辞書の語を訳に使用することができなかったものをリストアップし、それらに関してユーザにどのような訳とすべきか、問い合わせ、得られた情報を翻訳辞書部の該当する専門用語辞書の第一言語単語・熟語辞書等に反映させておく。これにより、本番の翻訳処理では、スムーズに翻訳を行うことができる。
【0088】
例えば、使用する専門用語辞書の中に、”private interests”が名詞「私益」で登録されており、これを単純に優先させると構文解析に失敗する文に遭遇し(例えば”Education serves both public and private interests.”)、システムが判断して、privateとinterestsを2単語として扱い、構文解析を成功させ、さらに専門用語辞書の訳語を活用すべく、”private interest”と「私益」をそれぞれより小さい単位に分解して、それらの間の対応関係を取ることを試みるがそれができなかった場合、”private interests”は標準辞書の訳を使うことになる。
【0089】
こうしてこの部分の訳は、publicから「公的な」、privateから「私的な」、interestsから「利益」を得て、例えば「公的・私的な利益」となる。このとき、制御部24は、参考情報表示手段37を起動し、”private interests”「私益」が選択している専門用語辞書に存在することを参考情報としてユーザに提示して、ユーザにどのような訳とすべきか、問い合わせる。
【0090】
図15はその画面の一例の説明図である。これにより、ユーザは、”public and private interests”を手動で「公益・私益」と修正したり、または、”pubic and private interests”を名詞「公益・私益」として、使用中の専門用語辞書に登録する際に助けになる。
【0091】
実施形態によれば、主に4点の効果が期待できる。第一に、構文解析の失敗を回避しつつ、専門用語辞書の用語に統一を図った訳文を生成することができる。第二に、ある箇所で構文解析の失敗を招いた見出し語を文書全体を通して棄却するのではなく、失敗した箇所のみ棄却することができ、柔軟な翻訳ができる。したがって、人間が、そのような見出し語を棄却すべき見出し語を格納した辞書に登録すべきかどうかを判断する手間を省くことができる。第三に、構文解析の失敗の原因追究にあたり、専門用語辞書の使用の有無が原因であるものはかなりの部分、自動的に検出されるので機械翻訳の訳文の見直し作業を軽減することができる。第四に、翻訳しようとしている分野の文書において現在は未登録であるが、解析上当該辞書に登録が望まれる語を登録するようユーザに促すことにより、質の高い辞書構築に寄与する。
【0092】
以上の説明では、英日翻訳の場合を中心に説明してきたが、他の言語対にも応用することができる。また、いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0093】
11…機械翻訳装置、12…演算制御装置、13…プロセッサ、14…メモリ、15…プログラム、16…作業エリア、17…表示装置、18…入力装置、19…マウス、20…キーボード、21…ディスクドライブ、22…ハードディスクドライブ(HDD)、23…入力処理部、24…制御部、25…記憶装置、26…文書記憶部、27…翻訳辞書部、28…文書解析手段、29…解析情報記憶部、30…専門用語調整手段、31…副専門用語作成手段、32…副専門用語辞書部、33…出力処理部、34…専門用語辞書部、35…構文解析失敗原因判別手段、36…構文解析失敗環境知識記憶部、37…参考情報表示手段
【特許請求の範囲】
【請求項1】
単語単位の第一言語と第二言語との対訳情報を記憶装置に格納した翻訳辞書部と、複数の単語列からなる第一言語の専門用語の見出し語及びその訳語を対訳情報として記憶装置に格納した専門用語辞書部と、前記翻訳辞書部の翻訳辞書情報及び前記専門用語辞書部の対訳情報を用いて構文解析を行い、前記専門用語辞書の見出し語が原因で構文解析に失敗したときは、その見出し語及びその訳語を単語単位に分解して辞書引きを行い、単語単位に分割したその見出し語の訳語候補のいずれかが、単語単位に分割した訳語に対応しているかどうかを判定し、対応しているものがあるときは、得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える専門用語調整手段とを備えた機械翻訳装置。
【請求項2】
前記専門用語辞書部のすべての見出し語について、予め単語単位に分解した第一言語の見出し語の訳語候補のリストを格納した副専門用語辞書部を備え、前記専門用語調整手段は、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致していないときは、単語単位に分解した第一言語の見出し語の訳語が前記専門用語辞書部にあるかどうかを判定し、前記専門用語辞書部にあるときは前記訳文中のその見出し語の単語単位の訳語に相当する部分をその専門用語辞書部の訳語に置き換え、前記専門用語辞書部にないときは、単語単位に分解した第一言語の見出し語の訳語が前記副専門用語辞書部にあるかどうかを判定し、前記副専門用語辞書部にあるときは前記訳文中のその見出し語の単語単位の訳語に相当する部分をその副専門用語辞書部の訳語に置き換えることを特徴とする請求項1記載の機械翻訳装置。
【請求項3】
第一言語の単語の品詞の並びで構文解析が失敗する環境知識を格納した構文解析失敗環境知識部と、前記見出し語の登録品詞及び前記見出し語を構成する複数の単語の品詞を並べた構成品詞に基づき前記構文解析失敗環境知識部の構文解析失敗環境知識を参照して構文解析失敗原因を判別する構文解析失敗原因判別手段とを備えたことを特徴とする請求項1または2記載の機械翻訳装置。
【請求項4】
前記専門用語調整手段にて前記訳文中を調整する際に、前記専門用語辞書の見出し語の訳語を表示する参考情報表示手段を備えたことを特徴とする請求項1乃至3のいずれか1項に記載の機械翻訳装置。
【請求項5】
記憶装置に、機械翻訳プログラムと、翻訳対象となる第一言語文書を第二言語に翻訳する際の翻訳処理に用いる知識情報及び単語単位の第一言語と第二言語との対訳情報を翻訳辞書情報として格納した翻訳辞書部と、複数の単語列からなる第一言語の専門用語及びその訳語を対訳情報として格納した専門用語辞書部とを記憶させておき、コンピュータに、前記翻訳辞書部の翻訳辞書情報及び前記専門用語辞書部の対訳情報を用いて前記第一言語文書の形態素解析を行い形態素の属性情報及び訳語情報を解析情報として記憶装置の解析情報記憶部に記憶する機能と、前記第一言語文書の構文解析を行い構文解析が成功したときは訳語情報に基づき訳文を生成する機能と、前記専門用語辞書の見出し語が使われずに構文解析に失敗したときは不完全な状態で訳文を生成する機能と、前記専門用語辞書の見出し語が使われて構文解析に失敗したときはその見出しを棄却して訳文を生成する機能と、前記専門用語辞書の見出し語の棄却により訳文を得たときはその見出し語及び訳語を単語単位に分解して辞書引きを行い単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致しているかどうかを判定する機能と、一致しているものがあるときは前記訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える機能とを実現させるための機械翻訳プログラム。
【請求項1】
単語単位の第一言語と第二言語との対訳情報を記憶装置に格納した翻訳辞書部と、複数の単語列からなる第一言語の専門用語の見出し語及びその訳語を対訳情報として記憶装置に格納した専門用語辞書部と、前記翻訳辞書部の翻訳辞書情報及び前記専門用語辞書部の対訳情報を用いて構文解析を行い、前記専門用語辞書の見出し語が原因で構文解析に失敗したときは、その見出し語及びその訳語を単語単位に分解して辞書引きを行い、単語単位に分割したその見出し語の訳語候補のいずれかが、単語単位に分割した訳語に対応しているかどうかを判定し、対応しているものがあるときは、得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える専門用語調整手段とを備えた機械翻訳装置。
【請求項2】
前記専門用語辞書部のすべての見出し語について、予め単語単位に分解した第一言語の見出し語の訳語候補のリストを格納した副専門用語辞書部を備え、前記専門用語調整手段は、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致していないときは、単語単位に分解した第一言語の見出し語の訳語が前記専門用語辞書部にあるかどうかを判定し、前記専門用語辞書部にあるときは前記訳文中のその見出し語の単語単位の訳語に相当する部分をその専門用語辞書部の訳語に置き換え、前記専門用語辞書部にないときは、単語単位に分解した第一言語の見出し語の訳語が前記副専門用語辞書部にあるかどうかを判定し、前記副専門用語辞書部にあるときは前記訳文中のその見出し語の単語単位の訳語に相当する部分をその副専門用語辞書部の訳語に置き換えることを特徴とする請求項1記載の機械翻訳装置。
【請求項3】
第一言語の単語の品詞の並びで構文解析が失敗する環境知識を格納した構文解析失敗環境知識部と、前記見出し語の登録品詞及び前記見出し語を構成する複数の単語の品詞を並べた構成品詞に基づき前記構文解析失敗環境知識部の構文解析失敗環境知識を参照して構文解析失敗原因を判別する構文解析失敗原因判別手段とを備えたことを特徴とする請求項1または2記載の機械翻訳装置。
【請求項4】
前記専門用語調整手段にて前記訳文中を調整する際に、前記専門用語辞書の見出し語の訳語を表示する参考情報表示手段を備えたことを特徴とする請求項1乃至3のいずれか1項に記載の機械翻訳装置。
【請求項5】
記憶装置に、機械翻訳プログラムと、翻訳対象となる第一言語文書を第二言語に翻訳する際の翻訳処理に用いる知識情報及び単語単位の第一言語と第二言語との対訳情報を翻訳辞書情報として格納した翻訳辞書部と、複数の単語列からなる第一言語の専門用語及びその訳語を対訳情報として格納した専門用語辞書部とを記憶させておき、コンピュータに、前記翻訳辞書部の翻訳辞書情報及び前記専門用語辞書部の対訳情報を用いて前記第一言語文書の形態素解析を行い形態素の属性情報及び訳語情報を解析情報として記憶装置の解析情報記憶部に記憶する機能と、前記第一言語文書の構文解析を行い構文解析が成功したときは訳語情報に基づき訳文を生成する機能と、前記専門用語辞書の見出し語が使われずに構文解析に失敗したときは不完全な状態で訳文を生成する機能と、前記専門用語辞書の見出し語が使われて構文解析に失敗したときはその見出しを棄却して訳文を生成する機能と、前記専門用語辞書の見出し語の棄却により訳文を得たときはその見出し語及び訳語を単語単位に分解して辞書引きを行い単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致しているかどうかを判定する機能と、一致しているものがあるときは前記訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える機能とを実現させるための機械翻訳プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2012−53858(P2012−53858A)
【公開日】平成24年3月15日(2012.3.15)
【国際特許分類】
【出願番号】特願2010−198136(P2010−198136)
【出願日】平成22年9月3日(2010.9.3)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
【公開日】平成24年3月15日(2012.3.15)
【国際特許分類】
【出願日】平成22年9月3日(2010.9.3)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
[ Back to top ]