機械翻訳装置及び機械翻訳プログラム

【課題】該当する専門分野の用語に統一を図った訳文を生成することである。
【解決手段】翻訳辞書部の翻訳辞書情報及び専門用語辞書部の対訳情報を用いて第一言語文書の形態素解析を行い形態素の属性情報及び訳語情報を解析情報として求め、訳語情報に基づき訳文を生成する。その際、専門用語辞書の見出し語が使われて構文解析に失敗したときはその見出しを棄却して訳文を得る。専門用語辞書の見出し語の棄却により訳文を得たときは、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致しているかどうかを判定し、一致しているものがあるときは、文書解析手段で得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、自然言語処理技術に関わり、より詳しくは、自然言語文書を処理し第一言語を第二言語に翻訳する機械翻訳装置及び機械翻訳プログラムに関する。
【背景技術】
【０００２】
機械翻訳が一般に普及するようになった近年、機械翻訳に期待される質のレベルも高まっている。この一つの取り組みとして、それぞれの分野にあった翻訳を行うことが挙げられる。機械翻訳処理においては、翻訳する文書の分野の用語を用いた翻訳結果を得るために、分野にかかわらず使用する標準辞書以外に、該当する分野の専門用語辞書、またはユーザが必要に応じて登録して構築されたユーザ辞書を併用して翻訳を行っている。こうした専門用語辞書の重要性は各方面で強調されている。これは、人間の翻訳家は、膨大な専門用語に関する翻訳の知識をすべて保持しているわけではなく、専門用語を知らずに人間の翻訳家が特許を翻訳すると、専門用語の訳を間違えてしまうことがあるからである。
【０００３】
一方、専門用語辞書は豊富な見出しを揃えているが、複数解釈が可能な文字列が見出し語（通常複合語）となっているものがある、そのため、その見出し語（通常複合語）を辞書登録することでその形態素の解釈が優先され、構文の解析に失敗し、解析結果の悪化を招くことがある。特に英語では、同一形態で複数の品詞を有する語が多く存在するため、第一言語が英語の場合、このような現象が起きやすい。こうした場合、従来では以下のいずれかの方法で対処していた。
【０００４】
第一の方法として、目視チェックにより、解析に失敗した文の中で解析の失敗の原因となっている見出し語を特定し、その見出し語を棄却して翻訳することである。これにより、解析に成功する可能性が生じる。典型的には複数の単語からなる見出し語を、個々に区切って解析し直すことである。
【０００５】
第二の方法として、複数の専門用語辞書を指定し、最も優先度の高い辞書で解析に失敗した場合に、解析の失敗となった見出し語がそれより優先度の低い辞書に異なる品詞で登録されているかを順に検索する。そして、解析の失敗となった見出し語が存在した場合、その品詞で翻訳し、成功するとその優先度の低い辞書の訳語を用いて訳文を生成する。一方、そのような候補が見つからなかった場合、その見出し語部分を未知語として扱い、訳文には、第一言語そのままの文字列を挿入することとしている。
【０００６】
特定の見出し語（形態素）による解析失敗を回避するには、このように複数の辞書の切り替えが行われるわけであるが、この切り替えを自動化したものがある。具体的には、現在選択されている専門用語辞書の変換履歴、現在選択されている専門用語辞書、次に優先度の高い専門用語辞書の順に使用する翻訳辞書を自動的に切り替えていく。
【０００７】
しかし、第一の方法では、機械翻訳において解析の失敗の原因となっている見出し語を特定することは、少なくとも第一言語の知識が必要であり、容易ではない。機械翻訳における失敗の傾向と人間翻訳における失敗の傾向は異なり、検出には一定のスキルを要する。また、仮にそのような見出し語が特定できたとして、その見出し語を少なくとも、同一文書内では棄却するものとして登録すると、その文書内でそれ以降に出現する文においてはその見出し語と品詞で解析が成功することがあっても使われないことになる。逆に、登録しない場合に、その文書内でそれ以降に出現する文においてその見出し語と品詞で失敗すれば、再度同じように棄却の命令を出す必要があり、作業の無駄が発生する。
【０００８】
また、解析には成功するとしても、単に優先させないと、選択した専門辞書の分野の訳語ではなくなり、代わりに標準辞書の訳語が採用されることになり、用語の統一が不十分になる。つまり、専門用語が使われるか否かは、解析に失敗するか否かによることになってしまう。そして、最悪の場合、第一言語のままになり、第二言語しか解しないユーザにとっては、文の理解に苦しむことになる。
【先行技術文献】
【特許文献】
【０００９】
【特許文献１】特許第２８０７５８６号公報
【特許文献２】特開２０００−３３６４号公報
【発明の概要】
【発明が解決しようとする課題】
【００１０】
選択した専門用語辞書を単純に適用した場合に起こる解析の失敗を回避しつつ、その専門用語辞書を最大限利用して、該当する専門分野の用語に統一を図った訳文を生成することのできる機械翻訳装置及び機械翻訳プログラムを提供することである。
【課題を解決するための手段】
【００１１】
実施形態の機械翻訳装置は、単語単位の第一言語と第二言語との対訳情報を記憶装置に格納した翻訳辞書部と、複数の単語列からなる第一言語の専門用語の見出し語及びその訳語を対訳情報として記憶装置に格納した専門用語辞書部とを有する。専門用語調整手段は、前記翻訳辞書部の翻訳辞書情報及び前記専門用語辞書部の対訳情報を用いて構文解析を行い、前記専門用語辞書の見出し語が原因で構文解析に失敗したときは、その見出し語及びその訳語を単語単位に分解して辞書引きを行い、単語単位に分割したその見出し語の訳語候補のいずれかが、単語単位に分割した訳語に対応しているかどうかを判定し、対応しているものがあるときは、得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える。
【図面の簡単な説明】
【００１２】
【図１】実施形態に係る機械翻訳装置の一例の機能ブロック構成図。
【図２】実施形態に係る機械翻訳装置のハードウェア構成を示すブロック構成図。
【図３】翻訳対象となる第一言語文書の一例の説明図。
【図４】図１の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャート。
【図５】図３の文番号２の文に対して図４のステップＳ１〜ステップＳ８の処理を行った後の形態素解析情報の一例を示す説明図。
【図６】図３の文番号２の文に対して構文解析を行った場合の解析結果の一例を示す説明図。
【図７】実施形態に係る機械翻訳装置の他の一例の機能ブロック構成図
【図８】実施形態における副専門用語作成手段での見出し語の訳語候補のリスト作成の処理内容の一例を示すフローチャート。
【図９】図７の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャート。
【図１０】実施形態に係る機械翻訳装置の別の他の一例の機能ブロック構成図。
【図１１】実施形態における構文解析失敗環境知識部に格納された構文解析失敗環境知識の説明図。
【図１２】実施形態における構文解析失敗原因判別手段の処理内容の一例を示すフローチャート。
【図１３】実施形態におけるコーパス検索結果の一例を示す説明図。
【図１４】実施形態に係る機械翻訳装置のさらに別の他の一例の機能ブロック構成図。
【図１５】実施形態における参考情報表示手段による参考情報を表示した画面の一例の説明図。
【発明を実施するための形態】
【００１３】
以下、実施形態を図面に基づいて説明する。図１は、実施形態に係る機械翻訳装置の一例の機能ブロック構成図、図２は実施形態に係る機械翻訳装置のハードウェア構成を示すブロック構成図である。
【００１４】
図２において、機械翻訳装置１１は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置１２のプロセッサ１３において実行されることにより実現される。
【００１５】
演算制御装置１２は機械翻訳に関する各種演算を行うものであり、演算制御装置１２はプロセッサ１３とメモリ１４とを有し、メモリ１４には機械翻訳・校正支援のプログラム１５が記憶され、プロセッサ１３により処理が実行される際には作業エリア１６が用いられる。演算制御装置１２の演算結果等は出力装置である表示装置１７に表示・出力される。なお、出力装置として表示装置１７を示しているが、出力装置としては、表示装置１７だけではなく、印字機等の印刷装置、磁気テープ、磁気ディスク、光ディスク等のコンピュータ可読媒体への出力装置や、他のメディアに文書を送信する送信装置等を採用することもできる。
【００１６】
入力装置１８は演算制御装置１２に情報を入力するものであり、例えば、マウス１９、キーボード２０、ディスクドライブ２１から構成され、また、ＯＣＲ（光学式文字読み取り装置）や、磁気テープ、磁気ディスク、光ディスク等、コンピュータ可読媒体からの読み込み装置を採用することも可能である。
【００１７】
例えば、入力装置１８であるマウス１９やキーボード２０は、表示装置１７を介して演算制御装置１２に各種指令を入力し、キーボード２０、ディスクドライブ２１は機械翻訳・校正支援対象の文書を入力する。すなわち、ディスクドライブ２１は機械翻訳・校正支援対象の文書のファイルを記憶媒体に入出力するものである。さらに、演算制御装置１２の演算結果や機械翻訳・校正支援に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ（ＨＤＤ）２２が設けられている。
【００１８】
図１において、図１に示す演算制御装置１２内の各機能ブロックは、上述の機械翻訳プログラムを構成する各プログラムに対応する。すなわち、プロセッサ１３が機械翻訳プログラムを構成する各プログラムを実行することで、演算制御装置１２は、各機能ブロックとして機能することとなる。また、記憶装置２５の各ブロックは、演算制御装置１２内のメモリ１４及びハードディスクドライブ２２の記憶領域に対応する。
【００１９】
入力装置１８は、翻訳対象となる第一言語文書の電子データを入力するものであり、ユーザの入力操作に基づいて翻訳対象となる第一言語文書の電子データを入力する。入力装置１８によって入力された翻訳対象となる第一言語文書は、演算制御装置１２の入力処理部２３により入力処理されて取り込まれ、制御部２４を介して記憶装置２５の文書記憶部２６に記憶される。また、入力装置１８は、入力処理部２３を介して制御部２４に対して各種コマンドを与える。制御部２４は、入力処理部２３、出力処理部３３、文書解析手段２８、専門用語調整手段３０を制御するとともに、記憶装置２５とのデータの授受の制御も行う。
【００２０】
記憶装置２５には、翻訳辞書部２７及び専門用語辞書部３４が記憶されている。翻訳辞書部２７は、文書解析手段２８が翻訳対象となる第一言語文書を解析する際に用いる各種辞書データを格納しており、第一言語から第二言語への翻訳を行うための辞書、及び第二言語から第一言語への翻訳を行うための辞書を格納している。
【００２１】
すなわち、第一言語から第二言語への翻訳を行うための辞書は語尾等に変化のある単語・熟語をその原形に変換するための第一言語活用変化辞書２７ａ、第一言語を解析するための文法が記憶された第一言語解析文法辞書２７ｂ、第一言語の単語・熟語に対応する第二言語の訳語がその品詞情報と共に記憶される第一言語単語・熟語辞書２７ｃ、第一言語から第二言語への変換情報が記憶された第一言語変換文法辞書２７ｄ、第二言語の文の構造を決定する第二言語生成文法辞書２７ｅ、さらに語尾等の語形を変化させて翻訳文を完成させる第二言語形態素生成文法辞書２７ｆを格納している。
【００２２】
それらに加え、第二言語活用変化辞書２７ｈ、第二言語を解析するための文法が記憶された第二言語解析文法辞書２７ｉ、第二言語の単語・熟語に対応する第一言語の訳語が、その品詞情報と共に記憶される第二言語単語・熟語辞書２７ｊ、第二言語から第一言語への変換情報が記憶された第二言語変換文法辞書２７ｋ、第一言語の文の構造を決定する第一言語生成文法辞書２７ｌ、さらに語尾等の語形を変化させて翻訳文を完成させる第一言語形態素生成文法辞書２７ｍ等を格納している。
【００２３】
また、専門用語辞書部３４には、複数の単語列からなる第一言語の専門用語及びその訳語を対訳情報とした専門用語辞書が記憶されている。
【００２４】
文書解析手段２８は、制御部２４からの指示に従って、記憶装置２５の翻訳辞書部２７の翻訳辞書情報及び専門用語辞書部３４の対訳情報を用いて、入力装置１８によって入力され文書記憶部２６に記憶された翻訳対象となる第一言語文書の形態素解析を行い、形態素の属性情報及び訳語情報を解析情報として記憶装置２５の解析情報記憶部２９に記憶する。
【００２５】
それとともに、構文解析を行い構文解析が成功したときは、解析情報の訳語情報に基づき訳文を生成する。一方、専門用語辞書部３４の専門用語辞書の見出し語が使われずに構文解析に失敗したときは不完全な状態で訳文を生成し、専門用語辞書部３４の専門用語辞書の見出し語が使われて構文解析に失敗したときはその見出しを棄却して訳文を得る。また、文書解析手段２８の解析結果や訳文は、必要に応じて、制御部２４及び出力処理部３３を介して表示装置１７に表示・出力される。
【００２６】
専門用語調整手段３０は、構文解析が失敗した際に失敗の原因となる専門用語辞書の見出し語を検出し、見出し語及びその訳語を単語単位に分解して、第一言語と第二言語間で単語レベルの対応関係を抽出する。すなわち、専門用語調整手段３０は、文書解析手段２８が専門用語辞書部３４の見出し語の棄却により訳文を得たときは、その見出し語及び訳語を単語単位に分解して辞書引きを行い、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致しているかどうかを判定する。そして、一致しているものがあるときは、文書解析手段３０で得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える。その結果を、必要に応じて、制御部２４及び出力処理部３３を介して表示装置１７に表示・出力する。
【００２７】
出力処理部３３は、制御部２４を介して供給された第一言語文書の対訳文書、解析結果、構文解析失敗箇所、専門用語調整後の新たな翻訳結果を表示装置１７に出力処理するものであり、これにより、表示装置１７の表示画面上に翻訳情報画面が表示される。また、出力処理部３３は制御部２４への各種コマンドに対する制御部２４からの応答を表示する。
【００２８】
以下の説明では、英語を第一言語とし日本語を第二言語とした場合を一例として説明する。また、図３は、以下の説明で使用する翻訳対象となる第一言語文書の一例の説明図であり、文番号１から文番号３は翻訳対象となる第一言語の文の一例、文番号４は後の説明で使用する第一言語の文の一例である。なお、これらの文は、説明のための一例であるので文同士に連関性はない。
【００２９】
また、以下の説明で使用する専門用語辞書としては、「化学辞書」が選択されているものとする。この専門用語辞書には、図３の文番号１の文にあるような文を念頭に置き、”mixed solution”という見出し語が、品詞を「名詞」、訳語を「混合溶液」として登録されているものとする。ここでは、説明を簡単化するため、標準辞書以外に用いる専門用語辞書は１つとし、ユーザ辞書には何も登録されていないこととする。なお、複合語の登録内容をできるだけ利用するという意味では、１つの専門用語辞書に限らず、ユーザ辞書についてもいえるので、「専門用語辞書」というものを、複合語を見出し語として登録可能なユーザ辞書をも含むものとして実施しても構わない。
【００３０】
図４は、図１の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャートである。まず、制御部２４は、入力装置１８から入力処理部２３を介して入力された翻訳対象となる第一言語文書を記憶する（Ｓ１）。すなわち、翻訳対象となる第一言語を文書記憶部２６に記憶する。
【００３１】
次に、制御部２４は文書解析手段２８を起動し、文書解析手段２８は起動されると、文書記憶部２６から第一言語の文書及び専門用語辞書部３４の専門用語辞書を読み出し、第一言語の文書の各文をそれぞれ形態素に分割し、品詞などの属性情報を得る（Ｓ２）。これは、翻訳対象となる第一言語の文書の各文の統語的特徴を得るためである。ステップＳ２においては、翻訳辞書部２７の第一言語から第二言語への翻訳を行うための辞書、具体的には第一言語活用変化辞書２７ａと第一言語解析文法辞書２７ｂの照合により、各単語につき、品詞、原形、属性が付与され、また、各形態素がどのような関係を有するかを示す文構造（係り受け関係）を得る。
【００３２】
次に、文書解析手段２８は、第一言語単語・熟語辞書２７ｃを用いて、それぞれの形態素に対して翻訳辞書部２７内に定義している訳語情報を得る（Ｓ３）。さらに、構文解析を行い（Ｓ４）、構文解析に成功したかどうかを判定する（Ｓ５）。
【００３３】
文書解析手段２８は、構文解析に成功すれば、第一言語変換文法辞書２７ｄ、第二言語生成文法辞書２７ｅ、第二言語形態素生成文法辞書２７ｆを用いて、第二言語の構造に変換し訳語の形態素生成を行い訳文を得る（Ｓ６）。
【００３４】
一方、文書解析手段２８は、ステップS５の判定で、成功でない（失敗である）と判定したときは、失敗の原因が専門用語辞書に登録されている語であるか否かにあるかの可能性を探るために、形態素解析結果の中に、専門用語辞書由来の見出し語が使われているかどうかを調べる（Ｓ７）。専門用語辞書由来の見出し語が使われていない場合は、構文解析に失敗した不完全な状態で生成できる訳文を得る（Ｓ６）。一方、専門用語辞書由来の見出し語が使われている場合は、該当する見出し語を形態素解析において棄却する（Ｓ８）。そして、ステップＳ４に戻り再度構文解析を行う。
【００３５】
なお、問題となる形態素が複数ある場合は、全部を一気に候補から削除するのではなく、徐々に候補から落としていく。つまり、問題のない形態素はなるべく利用することとする。さて、ここで、ステップＳ５の判定で、再度失敗と判定されたときは、構文解析に失敗した不完全な状態で、生成できる訳文を得る（Ｓ６）。
【００３６】
ここで、ここまでのステップＳ１〜ステップＳ８の処理の具体例について説明する。ステップＳ１〜ステップＳ８の処理で得られた形態素解析情報、訳語情報、係り受け関係、翻訳結果は、制御部２４により解析情報記憶部２９に記憶される。図３の文番号２の場合に、解析情報記憶部２９に記憶される形態素解析情報の一例を図５に示す。
【００３７】
図５は、図３の文番号２の文に対して図４のステップＳ１〜ステップＳ８の処理を行った後の形態素解析情報の一例を示す説明図である。図５に示すように、文番号２の文は１０個の形態素に分割され、英語品詞、原形、活用形、日本語訳語、日本語品詞、出典辞書名の項目を有している。なお、日本語訳語は複数可能である場合、頻度が高い順に格納されている。例えば、solutionには、「解」と「溶液」との２つの訳語が格納されていることがわかる。また、solution以外の訳語については説明の簡単化のために、１つの訳語しか挙げていない。
【００３８】
文番号２の文において、構文解析に最初に採用する形態素列としては、専門用語辞書の見出し語（ここでは番号１０の”mixed solution”）を含んだものとなる。すなわち、１−２−３−４−５−６−１０となる。これを品詞の並びとして書き表すと、「冠詞（１）＋名詞（２）＋動詞（３）＋前置詞（４）＋冠詞（５）＋副詞（６）＋名詞（１０）」となる。
【００３９】
構文解析を行う際は、「冠詞（１）＋名詞（２）」は名詞句として纏め上げることができる。この名詞句は次の動詞（３）の主語ととらえれば接続可能である。また、動詞（３）＋前置詞（４）も接続可能である。前置詞（４）の後ろは名詞句が後続することが期待される。名詞句の冒頭の品詞は冠詞が可能であるので、次の冠詞（５）も問題ない。残った２つの形態素で名詞句を構成することが期待されるが、副詞は名詞を修飾し得ない。従って、「副詞（６）＋名詞（１０）」は名詞句とは認定されない。このようにして、これら２つの形態素が文において果たす役割が解析では不明となり、結果として構文解析は失敗する。
【００４０】
専門用語辞書の見出し語（”mixed solution”）を含んだ場合には、構文解析に失敗するので、名詞（１０）の”mixed solution”を候補から外し（Ｓ７、Ｓ８）、再度構文解析を行う（Ｓ４）。
【００４１】
この再度の構文解析に用いられる形態素列は、番号で表すと、１−２−４−５−６−７−９、または、１−２−３−４−５−６−８−９である。品詞で表すとそれぞれ、「冠詞（１）＋名詞（２）＋動詞（３）＋前置詞（４）＋冠詞（５）＋副詞（６）＋動詞過去形（７）＋名詞（９）」、または、「冠詞（１）＋名詞（２）＋動詞（３）＋前置詞（４）＋冠詞（５）＋副詞（６）＋動詞過去分詞形（８）＋名詞（９）」となる。
【００４２】
最初の候補では解析不能となっていた、冠詞（５）の後続部分に着目すると、英語文法により、前者の「副詞＋動詞過去形＋名詞」は名詞句を構成し得ないが、後者の「副詞＋動詞過去分詞形＋名詞」は名詞句を構成し得るので、「冠詞（１）＋名詞（２）＋動詞（３）＋前置詞（４）＋冠詞（５）＋副詞（６）＋動詞過去分詞形（８）＋名詞（９）」を採用し構文解析を成功させることができる。
【００４３】
図６は図３の文番号２の文に対して構文解析を行った場合の解析結果の一例を示す説明図である。図６に示すように、形態素列が１−２−３−４−５−６−８−９のときに構文解析に成功する。これにより、文番号２の訳文として、図５に示した情報を用いて「反応は入念に混ぜた解の中で続く。」が得られる。
【００４４】
次に、ステップＳ５で訳文を得たのは専門用語の棄却によるものかどうかを判定する（Ｓ９）。専門用語の棄却によるものでない場合には処理を終了する。専門用語の棄却によるものである場合には、ステップＳ６で得られた訳文「反応は入念に混ぜた解の中で続く。」の調整を以下の処理で行う。
【００４５】
制御部２４は専門用語調整手段３０を起動する。専門用語調整手段３０は起動されると、見出し語、訳語をそれぞれ形態素に分割し、品詞などの属性情報を得る（Ｓ１０）。
【００４６】
文番号２の文の場合、問題となっていた見出し語は”mixed solution”（訳語「混合溶液」、品詞「名詞」）である。第一言語単語・熟語辞書２７ｃ、第二言語単語・熟語辞書２７ｊを用いて、見出し語及びその訳語の各形態素に対して辞書引きを行い、訳語を得る（Ｓ１１）。すなわち、その見出し語及び訳語を単語単位に分解して辞書引きを行う。
【００４７】
見出し語部分の「mixed solution」については、図５に示すようにmixed （<mix）とsolutionに分解でき、訳語としてそれぞれ、「混ぜる」と「解、溶液」がある。一方、訳語「混合溶液」は「混合」と「溶液」からなる複合語と形態素解析されると、「混合」はサ変名詞、「溶液」は名詞と判断される。第二言語単語・熟語辞書２７ｊには、「混合」の動詞訳語として”mix, blend, mingle”、名詞訳語としてmixing, mixtureがあり、「溶液」の訳語として、”solution”が入っているものとする。
【００４８】
ここで、以上の説明では、”mixed”と「混合」とが対応することを、「混合」の英語訳語に”mix”があることをもって判断したが、次のケースにもこのような対応関係をみてとることができる。すなわち、標準辞書のmixの第一訳語が「混ぜる」、第二訳語またはそれ以降の訳語に「混合する」がある場合にも、”mixed”と「混合」とが対応すると判断できる。これによりmixと混合するとが対応することがわかり、サ変名詞の性質から”mixed”と「混合」が対応することを導くことができる。
【００４９】
ステップＳ１１での辞書引きが終わると、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致しているかを判定する（Ｓ１２）。
【００５０】
この判定により、「混合」の第一言語への訳語候補の中に、動詞”mix”があり、また、「溶液」については、第一言語への訳語候補の中に名詞”solution”があり、solutionの第二言語への訳語の中に「溶液」があることがわかるので、”mixed”と「混合（する）」、”solution”と「溶液」が単語レベルで対応していることがわかる。
【００５１】
そこで、一旦、標準辞書の訳語で生成した訳文の中の問題の単語列の訳の部分をこれらの用語に置き換える。すなわち、ステップＳ６で得られた訳文の中で、ステップＳ１２で一致を見た部分について訳語を置き換える（Ｓ１３）。
【００５２】
これは、「反応は入念に混ぜた解の中で続く。」においては、“mixed solution”に対応する「混ぜた解」を「混合した溶液」と置き換えることを意味する。最終的な訳文として、「反応は入念に混合した溶液の中で続く。」を得て、処理は終了する。こうして選択した化学分野にあった用語を用いた訳文が生成されることになる。
【００５３】
以上の説明では、図３の文番号２の文のケースを見たが、同じく文番号３の文も”mixed solution”を名詞として採用することで構文解析の失敗を招く。なお、文番号３の文の場合は、mixedは文の主動詞として機能している。
【００５４】
一方、文番号４の文は化学分野以外の文書からの文である。従って、「化学専門用語辞書」は選択されていない。この文は、”mixed solution”は名詞と扱っても構文解析に成功するケースであり、solutionは「解、解決策」といった意味に解釈されるべきものである。このように、文番号４は、化学専門用語辞書にある訳語の調整がかからないことになるので、solutionには、標準辞書の訳語が用いられてsolutionを「解」とするのに対し、文番号１〜３については「化学専門用語辞書」の情報より、すべて「溶液」と調整可能なことから、分野に応じた訳文を出力可能である。
【００５５】
次に、実施形態に係る機械翻訳装置の他の一例を説明する。図７は、実施形態に係る機械翻訳装置の他の一例の機能ブロック構成図である。この他の一例は、図１に示した一例に対し、副専門用語作成手段３１及び副専門用語辞書部３２を追加して設けたものである。図１と同一要素には同一符号を付し重複する説明は省略する。
【００５６】
副専門用語作成手段３１は、専門用語辞書部３４のすべての見出し語について、予め単語単位に分解した第一言語の見出し語の訳語候補のリストを作成するものであり、副専門用語辞書部３２は、副専門用語作成手段３１で作成された見出し語の訳語候補のリストを格納するものである。
【００５７】
図８は、副専門用語作成手段３１での見出し語の訳語候補のリスト作成の処理内容の一例を示すフローチャートである。副専門用語作成手段３１は、選択された専門用語辞書のすべての見出し語と訳語との対について、図８に示すように、図４のステップＳ１０、Ｓ１１、Ｓ１２と同じ処理（Ｃ１、Ｃ２、Ｃ３）を行う。
【００５８】
すなわち、見出し語、訳語をそれぞれ形態素に分割し、品詞などの属性情報を得る（Ｃ１）。次に、翻訳辞書部２７の第一言語単語・熟語辞書２７ｃ、第二言語単語・熟語辞書２７ｊを用いて、見出し語及びその訳語の各形態素に対して辞書引きを行い、訳語を得る（Ｃ２）。そして、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致しているかを判定する（Ｃ３）。
【００５９】
判定した結果、一致した対を品詞とともに副専門用語辞書部３２に記憶する（Ｃ４）。そして、次に見出し語はあるかどうかを判定し（Ｃ５）、見出し語があるときはステップＣ１に戻り、ステップＣ１〜ステップＣ５の処理を繰り返し行う。これにより、見出し語について第一言語の単語とその品詞、対応する訳語のリストが作成され、副専門用語辞書部３２に蓄積される。副専門用語辞書部３２に蓄積されたリストは本来の専門用語辞書部３４を補う補完的な辞書とみなすことができる。
【００６０】
図９は、図７の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャートである。図４に示した処理内容に対し、ステップＳ１２でＮＯと判定された後に新たな処理であるステップＳ１４〜ステップＳ１７が追加されている。
【００６１】
すなわち、専門用語調整手段３０は、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致していないときは、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が正規の専門用語辞書に登録されているか否かを判定する（Ｓ１４）。つまり、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致していないときは、単語単位に分解した第一言語の見出し語の訳語が専門用語辞書部３４にあるかどうかを判定する。
【００６２】
専門用語辞書に登録されているときは、ステップＳ６で得られた訳文の中でステップＳ１４で得られた部分について訳語を置き換える（Ｓ１５）。つまり、文書解析手段２８で得られた訳文中のその見出し語の単語単位の訳語に相当する部分をその専門用語辞書部３４の訳語に置き換える。
【００６３】
一方、ステップＳ１４の判定で、専門用語辞書に登録されていないときは、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が副専門用語辞書に登録されているか否かを判定する（Ｓ１６）。つまり、単語単位に分解した第一言語の見出し語の訳語が副専門用語辞書部３２にあるかどうかを判定する。
【００６４】
副専門用語辞書に登録されているときは、ステップＳ６で得られた訳文の中でステップＳ１６で得られた部分について訳語を置き換える（Ｓ１７）。つまり、文書解析手段２８で得られた訳文中のその見出し語の単語単位の訳語に相当する部分をその副専門用語辞書部３２の訳語に置き換える。
【００６５】
いま、専門用語辞書部３４から選択された専門用語辞書の分野は「コンピュータ」とし、翻訳対象の例文として”These formulas, including both physical and virtual channels, are also permitted.”を用いる。また、このコンピュータ用語辞書には、見出し語”virtual channel”が、訳語「VC」、品詞「名詞」として登録されているものとする。
【００６６】
この見出し語”virtual channel”を優先的に用いて構文解析を行うと構文解析に失敗することになる。これは、構成要素となっている”physical and virtual channels”に着目してみると、複数形の”virtual channels”を名詞として扱うことで、physical （形容詞）＋and （接続詞）＋virtual channels （名詞）という品詞列となるが、この品詞列は英語では構成要素となり得ないがゆえに矛盾が生じるためである。
【００６７】
見出し語”virtual channel”を名詞とはせずに、”virtual channel”を単語レベルで”形容詞＋名詞”とすれば、[[形容詞＋接続詞＋形容詞]＋名詞]となり、構文解析に成功する。専門用語辞書の訳語調整のために、図４のステップＳ１２で”virtual channel”とＶＣとの対応関係を取ろうとするが、対応がとれないものとする。
【００６８】
”virtual channel”は２単語からなるが、日本語としてのＶＣはＶとＣとよりなるともみなせるがＶやＣ自体では意味を持たないからである。一方、このコンピュータ辞書の他の登録語として、”virtual domain”（訳語「バーチャル・ドメイン」、品詞「名詞」）や”virtual memory”（訳語「バーチャル・メモリ」、品詞「名詞」）があるとすれば、図８のステップＣ１〜ステップＣ５の過程で見出し語virtual、訳語「バーチャル」、品詞「形容詞」が獲得され、コンピュータの副専門用語辞書に格納されることになる。
【００６９】
まず、図９のステップＳ１４では、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が正規の専門用語辞書に登録されているか否かの判定する。この場合、”virtual channel”の”channel”が正規の専門用語辞書に、訳語「チャネル」、品詞「名詞」と登録されているとすれば、ステップＳ１５において、上記例文のchannelの訳語を「チャネル」とする。
【００７０】
一方、virtualは、正規の専門用語辞書に登録されていないとすれば、ステップＳ１６に進み、今度は副専門用語辞書が検索される。すると前提条件の説明にあるように、virtualが副専門用語辞書に登録されていることが分かり、訳語「バーチャル」とする（Ｓ１７）。このようにして、標準辞書には、virtual（形容詞）の訳語として「事実上の」、「仮想の」が、channel（名詞）の訳語として「チャンネル」が登録されていたとしても、ステップＳ１４〜ステップＳ１７の処理により、コンピュータの専門用語を用いた訳文を得ることができる。
【００７１】
次に、実施形態に係る機械翻訳装置の別の他の一例を説明する。図１０は、実施形態に係る機械翻訳装置の別の他の一例の機能ブロック構成図である。この別の他の一例は、図７に示した他の一例に対し、構文解析失敗原因判別手段３５及び構文解析失敗環境知識記憶部３６を追加して設けたものである。図７と同一要素には同一符号を付し重複する説明は省略する。
【００７２】
構文解析失敗原因判別手段３５は、文書解析手段２８による図４のステップＳ５で構文解析に失敗した原因の追究を行うものである。構文解析失敗環境知識部３６には、第一言語の単語の品詞の並びで構文解析が失敗する環境知識が格納されている。構文解析失敗原因判別手段３５は、構文解析に失敗した見出し語の登録品詞及びその見出し語を構成する複数の単語の品詞を並べた構成品詞に基づき、構文解析失敗環境知識部３６の構文解析失敗環境知識を参照して構文解析失敗原因を判別する。
【００７３】
図１１は構文解析失敗環境知識部３６に格納された構文解析失敗環境知識の説明図である。構文解析失敗環境知識は、見出し語の「構成品詞」、「登録品詞」、「構文解析が失敗する環境」、「登録品詞による品詞列」からなる。
【００７４】
例えば、タイプ１では見出し語が２個の単語列からなり、その２個の単語の構成品詞が「形容詞＋名詞」であり、一つの見出し語として登録品詞が「名詞」として登録された場合を示している。この場合、見出し語を一つの形態素（一つの単語）として取り扱った場合には、品詞は「名詞」として取り扱われる。従って、「構文解析が失敗する環境」に示すように、「形容詞and/or形容詞名詞」といった語の並びは、本来は正しい品詞列であるが、「形容詞名詞」が一つの形態素の「名詞」として取り扱われると、「登録品詞による品詞列」に示すように、「形容詞and名詞」となり、構文解析に失敗する品詞列となる。
【００７５】
構文解析失敗原因判別手段３５は、このような構文解析失敗環境知識に基づき、構文解析に失敗した原因を判別する。例えば、「登録品詞による品詞列」に示す「形容詞and名詞」で、構文解析に失敗した場合には、見出し語の登録品詞である「名詞」に代えて、見出し語の構成品詞「形容詞＋名詞」として、再度構文解析を行う。そうすると、「構文解析が失敗する環境」に示す「形容詞and/or形容詞名詞」の並びになり、構文解析に成功する。これにより、構文解析の失敗原因は、専門用語辞書の見出し語であることと判別される。
【００７６】
図１１に示した構文解析失敗環境知識部３６に格納された構文解析失敗環境知識の各タイプ１〜６について、構文解析に失敗する一例を以下に示す。
【００７７】
（１）タイプ１
（ａ）administrative personnel (監理担当官)
構文解析に失敗する単語列： scientific, technical and administrative personnel
（ｂ）private interests（私益）
構文解析に失敗する単語列： sectarian or private interests
（２）タイプ２
（ａ）punitive laws（刑罰法規）
構文解析に失敗する単語列：excessively punitive laws
（ｂ）toxic dose (中毒量）
構文解析に失敗する単語列：overtly toxic dose
（３）タイプ３
（ａ）aggregate basis (一括基準)
構文解析に失敗する単語列：on a weighted, aggregate basis
（４）タイプ４
（ａ）earned capital (増殖資本)
構文解析に失敗する単語列:They earned capital.
（５）タイプ５
（ａ）shift operations (交代制)
構文解析に失敗する単語列:They would shift operations to a country.
（６）タイプ６
（ａ）anode effects (陽極効果)
構文解析に失敗する単語列:The impact of the electrons with the anode effects generation of x-ray radiation.
図１２は、構文解析失敗原因判別手段３５の処理内容の一例を示すフローチャートである。図４のステップＳ５で構文解析に失敗し、その原因を追究する際には、構文解析失敗原因判別手段３５が起動される。構文解析失敗原因判別手段３５は、まず、構文解析失敗環境知識の「登録品詞による品詞列」に該当するかどうかを判定する（Ｄ１）。「登録品詞による品詞列」に該当する場合には、注目する語（専門用語辞書の見出し語）は構文解析失敗環境知識の「構成品詞」に該当するか否かを判定する（Ｄ２）。構文解析失敗環境知識の「構成品詞」に該当する場合には、その「構成品詞」を用いて、再度構文解析を行う（Ｄ３）。そして、構文解析に成功するかどうかを判定し（Ｄ４）、構文解析に成功する場合には失敗の原因判明を行う（Ｄ５）。すなわち、注目する語（専門用語辞書の見出し語）の登録品詞が原因であると判別する。
【００７８】
ステップＤ１、Ｄ２、Ｄ４の判定で、判定結果がＮＯのときは、多品詞の有無のチェックや構成要素の仕切り直しなど、通常の構文解析失敗の原因追究の方法を用いる（Ｄ６）。そして、別の候補を用いると、構文解析に成功するかどうかを判定し（Ｄ７）、構文解析に成功する場合には失敗の原因判明を行う（Ｄ８）。一方、構文解析に失敗したときは、別の候補が残っているかどうかを判定し（Ｄ９）、別の候補が残っている場合にはステップＤ７に戻り、別の候補が残っていない場合には失敗の原因不明とし（Ｄ１０）、処理を終了する。
【００７９】
このように、構文解析失敗環境知識に該当するものがあるかどうかをステップＤ１、Ｄ２において判定し、これによりステップＤ４で構文解析に成功すれば、構文解析失敗時と成功時の違いから構文解析の原因を突き止めることができる。
【００８０】
ステップＤ４において、この構文解析失敗環境知識では、構文解析の成功を導けなかった場合は、通常の構文解析解明の方法をとる（ステップＤ６）。ここでは、可能な候補を構文解析が成功するまで、あるいはすべての候補を試すまで（ステップＤ７、Ｄ９）のループ処理となる。ステップＤ７、Ｄ９は、候補数が多いほど時間を要する部分である。従って、構文解析失敗環境知識の導入により、構文解析失敗の場合にステップＤ５に進むことができれば、これらのステップＤ７、Ｄ９の処理は不必要となり、効率化につながることになる。
【００８１】
なお、この構文解析失敗環境知識は辞書構築の支援にも利用できる。図１３はコーパス検索結果の一例の説明図である。例えば、ユーザが”toxic dose”に対して名詞で訳語「中毒量」と登録しようとすると、toxicは形容詞、doseは名詞であるので、図１１のタイプ１、２、３に該当する。そうすると、例えば、該当する分野のコーパスをシステムに与えれば、タイプ１の形態素解析が失敗する環境である「形容詞 and/or 形容詞名詞」、タイプ２の形態素解析が失敗する環境である「副詞形容詞名詞」、タイプ３の形態素解析が失敗する環境である「形容詞, 形容詞名詞」がそのコーパスに出現するかを調べることができる。
【００８２】
その箇所をKWIC（keyword in context）のような形でユーザに提示すれば、ユーザは必要性を判断することができる。この過程で、例えば”potentially （副詞） toxic dose”というタイプ２の形態素解析が失敗する環境に相当する語の並びがこのコーパスに少なからず出現することが分かれば、”toxic dose”と２語の複合語の登録のほかに、”potentially toxic dose”を登録する必要性があると判断できる。
【００８３】
一般に、このように長めの単語列で登録すれば、構文解析に失敗する可能性は相対的に低くなる。以上のような形で、辞書構築を支援すれば、内容面だけではなく、形態素の観点からも翻訳しようとする文書に適した用語が辞書に登録されることになる。つまり、このことは、”形容詞＋名詞”を”名詞”で登録することに、図１１のタイプ１、２、３のような危険性があるとしても、タイプ１、２、３それぞれの形態素解析が失敗する環境が、翻訳しようとしている文書にそもそも生起しないのであれば、問題は生じないということを意味している。ここで、翻訳は一括で行っても、または１文１文対話的に行ってもよい。
【００８４】
次に、実施形態に係る機械翻訳装置のさらに別の他の一例を説明する。図１４は、実施形態に係る機械翻訳装置のさらに別の他の一例の機能ブロック構成図である。この別の他の一例は、図１０に示した別の他の一例に対し、参考情報表示手段３７を追加して設けたものである。図１０と同一要素には同一符号を付し重複する説明は省略する。
【００８５】
参考情報表示手段３７は、専門用語調整手段３０にて文書解析手段２８で得られた訳文中の専門用語の見出し語を調整する際に、専門用語辞書の見出し語の訳語を表示するものである。
【００８６】
前述したように、翻訳は一括で行っても、または１文１文対話的に行ってもよいが、一括翻訳の場合は、翻訳を行う下準備として、専門用語辞書の使用の有無によって、構文解析に失敗する可能性のある箇所を予め検出しておき、２段階に分けて翻訳処理を行うことも可能である。
【００８７】
すなわち、専門用語辞書の使用の有無によって、構文解析に失敗する可能性のある箇所を予め検出しておき、図９のステップＳ１２でＮＯとなるようなケース、つまり、選択した専門用語辞書の語を訳に使用することができなかったものをリストアップし、それらに関してユーザにどのような訳とすべきか、問い合わせ、得られた情報を翻訳辞書部の該当する専門用語辞書の第一言語単語・熟語辞書等に反映させておく。これにより、本番の翻訳処理では、スムーズに翻訳を行うことができる。
【００８８】
例えば、使用する専門用語辞書の中に、”private interests”が名詞「私益」で登録されており、これを単純に優先させると構文解析に失敗する文に遭遇し（例えば”Education serves both public and private interests.”）、システムが判断して、privateとinterestsを２単語として扱い、構文解析を成功させ、さらに専門用語辞書の訳語を活用すべく、”private interest”と「私益」をそれぞれより小さい単位に分解して、それらの間の対応関係を取ることを試みるがそれができなかった場合、”private interests”は標準辞書の訳を使うことになる。
【００８９】
こうしてこの部分の訳は、publicから「公的な」、privateから「私的な」、interestsから「利益」を得て、例えば「公的・私的な利益」となる。このとき、制御部２４は、参考情報表示手段３７を起動し、”private interests”「私益」が選択している専門用語辞書に存在することを参考情報としてユーザに提示して、ユーザにどのような訳とすべきか、問い合わせる。
【００９０】
図１５はその画面の一例の説明図である。これにより、ユーザは、”public and private interests”を手動で「公益・私益」と修正したり、または、”pubic and private interests”を名詞「公益・私益」として、使用中の専門用語辞書に登録する際に助けになる。
【００９１】
実施形態によれば、主に４点の効果が期待できる。第一に、構文解析の失敗を回避しつつ、専門用語辞書の用語に統一を図った訳文を生成することができる。第二に、ある箇所で構文解析の失敗を招いた見出し語を文書全体を通して棄却するのではなく、失敗した箇所のみ棄却することができ、柔軟な翻訳ができる。したがって、人間が、そのような見出し語を棄却すべき見出し語を格納した辞書に登録すべきかどうかを判断する手間を省くことができる。第三に、構文解析の失敗の原因追究にあたり、専門用語辞書の使用の有無が原因であるものはかなりの部分、自動的に検出されるので機械翻訳の訳文の見直し作業を軽減することができる。第四に、翻訳しようとしている分野の文書において現在は未登録であるが、解析上当該辞書に登録が望まれる語を登録するようユーザに促すことにより、質の高い辞書構築に寄与する。
【００９２】
以上の説明では、英日翻訳の場合を中心に説明してきたが、他の言語対にも応用することができる。また、いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【００９３】
１１…機械翻訳装置、１２…演算制御装置、１３…プロセッサ、１４…メモリ、１５…プログラム、１６…作業エリア、１７…表示装置、１８…入力装置、１９…マウス、２０…キーボード、２１…ディスクドライブ、２２…ハードディスクドライブ（ＨＤＤ）、２3…入力処理部、２4…制御部、２５…記憶装置、２６…文書記憶部、２７…翻訳辞書部、２８…文書解析手段、２９…解析情報記憶部、３０…専門用語調整手段、３１…副専門用語作成手段、３２…副専門用語辞書部、３３…出力処理部、３４…専門用語辞書部、３５…構文解析失敗原因判別手段、３６…構文解析失敗環境知識記憶部、３７…参考情報表示手段

【特許請求の範囲】
【請求項１】
単語単位の第一言語と第二言語との対訳情報を記憶装置に格納した翻訳辞書部と、複数の単語列からなる第一言語の専門用語の見出し語及びその訳語を対訳情報として記憶装置に格納した専門用語辞書部と、前記翻訳辞書部の翻訳辞書情報及び前記専門用語辞書部の対訳情報を用いて構文解析を行い、前記専門用語辞書の見出し語が原因で構文解析に失敗したときは、その見出し語及びその訳語を単語単位に分解して辞書引きを行い、単語単位に分割したその見出し語の訳語候補のいずれかが、単語単位に分割した訳語に対応しているかどうかを判定し、対応しているものがあるときは、得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える専門用語調整手段とを備えた機械翻訳装置。
【請求項２】
前記専門用語辞書部のすべての見出し語について、予め単語単位に分解した第一言語の見出し語の訳語候補のリストを格納した副専門用語辞書部を備え、前記専門用語調整手段は、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致していないときは、単語単位に分解した第一言語の見出し語の訳語が前記専門用語辞書部にあるかどうかを判定し、前記専門用語辞書部にあるときは前記訳文中のその見出し語の単語単位の訳語に相当する部分をその専門用語辞書部の訳語に置き換え、前記専門用語辞書部にないときは、単語単位に分解した第一言語の見出し語の訳語が前記副専門用語辞書部にあるかどうかを判定し、前記副専門用語辞書部にあるときは前記訳文中のその見出し語の単語単位の訳語に相当する部分をその副専門用語辞書部の訳語に置き換えることを特徴とする請求項１記載の機械翻訳装置。
【請求項３】
第一言語の単語の品詞の並びで構文解析が失敗する環境知識を格納した構文解析失敗環境知識部と、前記見出し語の登録品詞及び前記見出し語を構成する複数の単語の品詞を並べた構成品詞に基づき前記構文解析失敗環境知識部の構文解析失敗環境知識を参照して構文解析失敗原因を判別する構文解析失敗原因判別手段とを備えたことを特徴とする請求項１または２記載の機械翻訳装置。
【請求項４】
前記専門用語調整手段にて前記訳文中を調整する際に、前記専門用語辞書の見出し語の訳語を表示する参考情報表示手段を備えたことを特徴とする請求項１乃至３のいずれか１項に記載の機械翻訳装置。
【請求項５】
記憶装置に、機械翻訳プログラムと、翻訳対象となる第一言語文書を第二言語に翻訳する際の翻訳処理に用いる知識情報及び単語単位の第一言語と第二言語との対訳情報を翻訳辞書情報として格納した翻訳辞書部と、複数の単語列からなる第一言語の専門用語及びその訳語を対訳情報として格納した専門用語辞書部とを記憶させておき、コンピュータに、前記翻訳辞書部の翻訳辞書情報及び前記専門用語辞書部の対訳情報を用いて前記第一言語文書の形態素解析を行い形態素の属性情報及び訳語情報を解析情報として記憶装置の解析情報記憶部に記憶する機能と、前記第一言語文書の構文解析を行い構文解析が成功したときは訳語情報に基づき訳文を生成する機能と、前記専門用語辞書の見出し語が使われずに構文解析に失敗したときは不完全な状態で訳文を生成する機能と、前記専門用語辞書の見出し語が使われて構文解析に失敗したときはその見出しを棄却して訳文を生成する機能と、前記専門用語辞書の見出し語の棄却により訳文を得たときはその見出し語及び訳語を単語単位に分解して辞書引きを行い単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致しているかどうかを判定する機能と、一致しているものがあるときは前記訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える機能とを実現させるための機械翻訳プログラム。

【図１】