機械翻訳装置及び機械翻訳プログラム

【課題】第一言語の原文には必ずしも表現されておらず、解釈に言外の知識を要する曖昧性がある場合であっても精度よく翻訳可能とすることである。
【解決手段】実施形態の機械翻訳装置によれば、曖昧箇所検出手段は、翻訳対象となる第一言語文書では明示されていないが文書解析翻訳手段で得た第二言語の訳文には必要となる情報が欠落している曖昧箇所を検出する。質問文作成手段は、曖昧箇所ごとに第二言語の訳文に必要となる情報を得るためのユーザへの質問文を作成する。質問文付与手段は第一言語の原文の該当箇所にその質問文を付与し、表示装置に第一言語の原文及び質問文を表示する。回答解析手段は、質問文に対するユーザからの回答から第二言語の訳文に必要となる情報を獲得して第二言語の訳文に反映させる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、自然言語文書を処理する機械翻訳装置及び機械翻訳プログラムに関する。
【背景技術】
【０００２】
グローバル化の進展とともに様々な文書を英語その他の外国語に翻訳したり、逆に外国語の文書を日本語化するニーズがますます高まっている。自然言語処理技術の発達により、機械翻訳技術も向上し、翻訳する必要のある文書を質は別としてもコストや速度の面で人手による翻訳よりも優れ、機械翻訳を使うことも増えた。
【０００３】
その一方で、機械翻訳の翻訳結果を容認可能な文書とするには、人手の介在をなお必要とする。翻訳品質が特に重要視される文書では、特にこの必要性が高い。すでに出来上がった原文に対する人手の編集作業を軽減するための解決策の一つとして、もともとの原文を曖昧性の生じにくい制限言語で記述したり、すでにある原文を専門のライターが制限言語に書き換える(rewriting)方法がとられている。制限言語の代表例として、英語では、STE (Simplified Technical English)があり、日本語では、日本特許情報機構（Japio）による「産業日本語」がある。
【０００４】
制限言語で記述されれば、機械に扱いやすい文書になるが、通常の自然言語では記述できる内容が自由に表現できなくなり、一般からみて不自然な表現となることも少なくない。また、筆者が制限言語に精通しているとは限らないので、制限言語に精通した筆者とは別の専門の編集者に編集を依頼することも考えられるが、そうすると筆者の意図を反映するのに編集者に精神的な負担を伴うだけでなく、忠実な書き換えができない場合がある。さらには、制限言語は、特許明細書やマニュアルといったごく限られた文書を想定しており、自然科学・社会科学の論文については適用が普及していない。
【０００５】
また、言語の違いから、第一言語では問題とならない差異が第二言語では必要となることが少なくない。例えば、日本人の漢字の名前には複数の読み方がある場合があるが、振り仮名がないと正確なアルファベットにおきかえることはできない。日本語原稿では振り仮名がなくとも通用する。この場合、翻訳に必要な情報が原文には盛り込まれていないことになる。
【０００６】
この差異は言語によって異なるため、例えば日本語文書を英語に翻訳することも考えながら作成したとしても、これが英語以外の翻訳にもなじむという保証はない。また、原作者の暗黙知を翻訳者が共有しているとは限らず、広範な文献調査では、原文の意味が把握できないこともある。
【０００７】
ここで、入力された各種メディアに対し複数種類のメディア変換処理を連続して実行する際に、利用者による単語レベルの「曖昧性」についての修正操作は全てのメディア変換処理が終了してから行うようにしたものがある。
【０００８】
従来の機械翻訳装置では、高い翻訳品質を得るために原文を制限言語で記述するか、原文に曖昧性が残る箇所については、制限言語に近い形に書き直しを促したり、あるいは、可能な書き換え候補を提示し、その中から選択させる方法をとっていた。この制限言語は日常の言語と違い、使いこなすためには一定の能力が必要であり、また、制約が多いため、能力のある者にとっても作業の心理的負担が大きい。
【０００９】
例えば、「その場で立ってミネラル水を飲むことができるだけでなく、ボトルに一定量のミネラル水を自動的に入れることができるミネラル水の供給装置を提供する。」のような文があった場合、「ミネラル水の供給装置を提供する。その供給装置からは、その場で立ってミネラル水を飲むことができるだけでなく、ボトルに一定量のミネラル水を自動的に入れることができる。」のように曖昧性が残らない形に書き換えなければならない。
【００１０】
また、すべての文がこのように書き換えが可能であるとは限らない。仮に無理に書き換えても元の意味とは異なってしまったり、また、不自然になったりすることが少なくなかった。書き換えでは必要な情報を表示できない場合、各種記号を原文に挿入することもなされているが、少なくとも一般の人にはなじみのないものであり扱いにくい。従って、機械翻訳において、高い翻訳品質を確保するには、このように自由度の少ない限定された条件下で校正作業を行うしかなく、自然な言語のまま扱うためには従来の人手による処理に頼るしかなかった。
【先行技術文献】
【特許文献】
【００１１】
【特許文献１】特開平９−２６９９４５号公報
【発明の概要】
【発明が解決しようとする課題】
【００１２】
第一言語の原文には必ずしも表現されておらず、解釈に言外の知識を要する曖昧性がある場合であっても精度よく翻訳できる機械翻訳装置及び機械翻訳プログラムを提供することである。
【課題を解決するための手段】
【００１３】
実施形態の機械翻訳装置は、第一言語では曖昧とならないが第二言語の訳出には必要となる単語または文構造を記憶装置に格納した第一言語曖昧箇所文法辞書を備える。文書解析翻訳手段は、翻訳対象となる第一言語文書を解析して第二言語の訳文を求める。曖昧箇所検出手段は、前記文書解析手段で解析された解析情報及び前記第一言語曖昧箇所文法辞書に基づいて前記第一言語文書では明示されていないが第二言語の訳文には必要となる情報が欠落している曖昧箇所を検出する。質問文作成手段は、前記曖昧箇所ごとに前記第二言語の訳文に必要となる情報を得るためのユーザへの質問文を作成する。質問文付与手段は、前記質問文を前記第一言語文書の該当曖昧箇所に付与して表示装置に表示する。回答解析手段は、質問文に対するユーザからの回答を入力装置から入力したときは当該回答に基づいて第二言語の訳文に必要となる情報を獲得し前記文書解析翻訳手段で翻訳した訳文に反映させる。
【図面の簡単な説明】
【００１４】
【図１】実施形態に係わる機械翻訳装置の機能ブロック構成図。
【図２】実施形態に係わる機械翻訳装置のハードウェア構成を示すブロック構成図。
【図３】実施形態に係わる機械翻訳装置の処理内容の一例を示すフローチャート。
【図４】実施形態における校正前の第一言語の文書の一例を示す図。
【図５】図４の文番号１の文に対する形態素解析情報及び格情報の説明図。
【図６】図４の文番号１の文に対する係り受け情報の候補の説明図。
【図７】実施形態における第一言語曖昧箇所文法辞書の中にある曖昧用語辞書の一例の説明図。
【図８】実施形態における第一言語曖昧箇所文法辞書の中にある曖昧構造規則の一例の説明図。
【図９】図４の文番号２の文に対する係り受け解析結果の一例を木構造で示した説明図。
【図１０】図４の文番号３に対する質問文の一例を示す説明図。
【図１１】実施形態における質問文付与の表示画面の一例を示す説明図。
【図１２】実施形態における質問文付与の表示画面への回答入力の一例を示す説明図。
【図１３】図９の木構造の空に質問文の回答に基づき語「トップクォーク」を挿入した場合の説明図。
【図１４】他の実施形態に係わる機械翻訳装置の機能ブロック構成図。
【図１５】他の実施形態において文書編集アプリケーションプログラムで曖昧性解消の処理を行う際の処理の流れを示すフローチャート。
【図１６】他の実施形態におけるコメント参照の場合のプログラムの一例を示す説明図。
【発明を実施するための形態】
【００１５】
以下、実施形態を図面に基づいて説明する。図１は、実施形態に係わる機械翻訳装置の機能ブロック構成図、図２は実施形態に係わる機械翻訳装置のハードウェア構成を示すブロック構成図である。
【００１６】
図２において、機械翻訳装置１１は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置１２のプロセッサ１３において実行されることにより実現される。
【００１７】
演算制御装置１２は機械翻訳に関する各種演算を行うものであり、演算制御装置１２はプロセッサ１３とメモリ１４とを有し、メモリ１４にはプログラム１５が記憶され、プロセッサ１３により処理が実行される際には作業エリア１６が用いられる。演算制御装置１２の演算結果等は表示装置１７に表示出力される。
【００１８】
入力装置１８は演算制御装置１２に情報を入力するものであり、例えば、マウス１９、キーボード２０、読み取り装置２１ａ、読み込み装置２１ｂから構成される。読み取り装置２１ａは、例えばＯＣＲ（光学式文字読み取り装置）等であり、読み込み装置２１ｂは、例えば磁気テープ、磁気ディスク、光ディスク等、コンピュータ可読媒体からの読み込み装置である。
【００１９】
例えば、マウス１９やキーボード２０は表示装置１７を介して演算制御装置１２に各種指令を入力し、キーボード２０、読み取り装置２１ａ、読み込み装置２１ｂは、機械翻訳対象の文書を入力する。すなわち、読み取り装置２１ａ、読み込み装置２１ｂは、機械翻訳対象の文書のファイルを記憶媒体に入出力するものである。さらに、演算制御装置１２の演算結果や機械翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(ＨＤＤ)２２が設けられている。
【００２０】
図１において、演算制御装置１２内の各機能ブロックは、機械翻訳プログラムを構成する各プログラム１５の機能に対応する。すなわち、プロセッサ１３が機械翻訳プログラムを構成する各プログラム１５を実行することで、演算制御装置１２は、各機能ブロックとして機能することとなる。また、記憶装置２５の各ブロックは、演算制御装置１２内のメモリ１４及びハードディスクドライブ２２の記憶領域に対応する。
【００２１】
入力装置１８は、翻訳対象となる文書の電子データを入力するものであり、ユーザの入力操作に基づく（対訳）文書、質問文、その回答などの入力が可能である。また、入力装置１８は、入力処理部２３を介して制御部２４に対して各種コマンドを与える。
【００２２】
入力装置１８から入力される文書は、翻訳対象となる第一言語文書、それに関する第一言語あるいは第二言語の質問文、この質問文に対する第一言語あるいは第二言語の回答である。この質問は対応する回答と対になっている。入力装置１８によって入力された翻訳対象となる第一言語文書、それに関する質問文及び回答は、演算処理部１２の入力処理部２３により入力処理されて取り込まれ、制御部２４を介して記憶装置２５の文書記憶部２６に記憶される。
【００２３】
制御部２４は、入力処理部２３、出力処理部３３、文書解析翻訳手段２８、曖昧箇所検出手段３０、質問文作成手段３２、質問文付与手段３４、回答付与手段３５、回答解析手段３６を制御するとともに、記憶装置２５とのデータの授受の制御も行う。
【００２４】
文書解析翻訳手段２８は、制御部２４からの指示に従って、後述する記憶装置２５の翻訳辞書部２７を用いて、入力装置１８によって入力され、文書記憶部２６に記憶された翻訳対象となる第一言語文書を解析し、その解析情報を解析情報記憶部２９に記憶する。また、その解析結果は、必要に応じて、制御部２４及び出力処理部３３を介して表示装置１７に表示出力される。
【００２５】
曖昧箇所検出手段３０は、解析情報記憶部２９に記憶された解析情報に基づいて曖昧箇所を検出し、必要に応じて、検出結果を制御部２４及び出力処理部３３を介して表示装置１７に表示出力する。
【００２６】
質問文作成手段３２は、解析情報記憶部２９に記憶された解析情報に基づいて、曖昧箇所検出手段３０により検出された箇所ごとに質問文を作成し、記憶装置２５の質問文・回答記憶部３１に記憶する。
【００２７】
質問文付与手段３４は、その質問文を制御部２４及び出力処理部３３を介して、第一言語文の該当箇所に付与して表示装置１７に表示出力する。
【００２８】
回答付与手段３５は、表示装置１７に表示された質問文に対して回答することをユーザに促した後にユーザに回答を入力可能にするものである。
【００２９】
回答解析手段３６は、ユーザにより入力装置１８を介して入力された回答とそれに対応する質問を分析することを通して翻訳上の曖昧性を解消するための情報を獲得し、質問文・回答記憶部３１に記憶するとともに、その情報を用いて対応する第一言語文の各種情報（形態素解析結果、係り受け解析結果など）に対して補充するものである。
【００３０】
出力処理部３３は、制御部２４を介して供給された（対訳）文書、解析結果、曖昧箇所検出箇所、質問文、回答、回答を反映した新たな翻訳結果を表示装置１７に出力処理するものであり、これにより、表示装置１７の表示画面上に翻訳・校正情報画面表示される。また、出力処理部３３は制御部２４への各種コマンドに対する制御部２４からの応答を表示する。
【００３１】
翻訳辞書部２７は、第一言語から第二言語への翻訳を行うための辞書、及び第二言語から第一言語への翻訳を行うための辞書を格納しており、文書解析翻訳手段２８が翻訳対象となる第一言語文書を解析し翻訳する際、質問文作成手段３２が質問文を作成する際、及び回答解析手段３６が回答を翻訳し、大元の第一言語の文書の翻訳結果にその結果を反映する際に用いる各種辞書データを格納している。
【００３２】
翻訳辞書部２７のうち第一言語を解析する辞書は、語尾等に変化のある単語・熟語をその原形に変換するための第一言語活用変化辞書２７ａ、第一言語を解析するための文法が記憶された第一言語解析文法辞書２７ｂ、第一言語の単語・熟語に対応する第二言語の訳語が、その品詞情報と共に記憶される第一言語単語・熟語辞書２７ｃ、第一言語から第二言語への変換情報が記憶された第一言語変換文法辞書２７ｄ、第二言語の文の構造を決定する第二言語生成文法辞書２７ｅ、さらに語尾等の語形を変化させて翻訳文を完成させる第二言語形態素生成文法辞書２７ｆ、第一言語では問題とならない弁別素性(distinctive features)が第二言語の訳出には必要となる単語及びそのような文構造を集めた文法知識である第一言語曖昧箇所文法辞書２７ｇよりなる。
【００３３】
また、第一言語を解析した結果から第二言語への訳文を得るための辞書は、第二言語活用変化辞書２７ｈ、第二言語を解析するための文法が記憶された第二言語解析文法辞書２７ｉ、第二言語の単語・熟語に対応する第一言語の訳語がその品詞情報と共に記憶される第二言語単語・熟語辞書２７ｊ、第二言語から第一言語への変換情報が記憶された第二言語変換文法辞書２７ｋ、第一言語の文の構造を決定する第一言語生成文法辞書２７ｌ、さらに語尾等の語形を変化させて翻訳文を完成させる第一言語形態素生成文法辞書２７ｍよりなる。
【００３４】
ここでは、有用と思われる辞書を挙げたが、必ずしもこれらをすべてを使用する必要はない。
【００３５】
以下、日本語を第一言語とし英語を第二言語とした場合を例にとり説明する。図３は、実施形態に係わる機械翻訳装置の処理内容の一例を示すフローチャートである。
【００３６】
まず、入力装置１８から入力処理部２３を介して翻訳対象となる第一言語の文書が入力されると、制御部２４は、翻訳対象となる第一言語の文書を記憶する（Ｓ１）。この場合、翻訳対象となる第一言語文書は文書記憶部２６に記憶される。
【００３７】
図４は翻訳対象となる第一言語文書の一例の説明図である。図４では文番号１、２、３の文章を示しているが、これは、説明のための一例であるので、文同士に意味の連関性はない。
【００３８】
次に、制御部２４は文書解析翻訳手段２８を起動する。文書解析翻訳手段２８は、文書記憶部２６に記憶された翻訳対象の第一言語の文書を読み出し、各文をそれぞれ形態素に分解し、品詞等の属性情報を得る（Ｓ２）。これは、翻訳対象となる第一言語の文書の各文の統語的特徴を得るためである。
【００３９】
ステップＳ２においては、翻訳辞書部２７の第一言語から第二言語への翻訳を行うための辞書、具体的には第一言語活用変化辞書２７ａと第一言語解析文法辞書２７ｂとの照合により、各単語につき、品詞、原形、属性が付与され、また、各形態素がどのような関係を有するかを示す文構造（係り受け関係）を得る。
【００４０】
次に、文書解析翻訳手段２８は、第一言語単語・熟語辞書２７ｃを用いて、各形態素に対して翻訳辞書部２７内に定義している訳語情報を得る（Ｓ３）。さらに、第一言語変換文法辞書２７ｄ、第二言語生成文法辞書２７ｅ、第二言語形態素生成文法辞書２７ｆを用いて、第二言語の構造変換・形態素生成を行い訳文を得る（Ｓ４）。
【００４１】
図５は図４の文番号１の文に対する形態素解析情報及び格情報の説明図、図６は図４の文番号１の文に対しての係り受け情報の候補の説明図である。図５（ａ）に示すように、形態素解析情報は、形態素ごとに解析が行われ、第一言語の品詞、原形、格・活用形が判定され、第一言語の形態素に対応する第二言語の形態素ごとに訳語、属性・格、品詞が判定される。また、図５（ｂ）に示すように、第一言語の動詞について、格情報として必須格及び格の種類が判定される。
【００４２】
そして、図６に示すように、係り受け情報の候補が解析される。図６では２個の候補が解析された場合を示している。
【００４３】

は第一言語文書では明示されていないが第二言語の訳文には必要となる情報（空）を示している。
【００４４】
また、文書解析翻訳手段２８では、これらの形態素解析情報、格情報、係り受け情報を用いて訳文を作成する際には、第一言語内に曖昧性がある場合、訳語としてデフォルト値を出力するか、デフォルト値がない場合は、非文を生成するかどちらかの形をとることとしている。
【００４５】
こうして得られた形態素解析情報、格情報、係り受け情報、翻訳結果は、制御部２４により解析情報記憶部２９に記憶される。
【００４６】
次に、制御部２４は曖昧箇所検出手段３０を起動する。曖昧箇所検出手段３０は、解析情報記憶部２９から形態素解析情報、格情報、翻訳結果を読み込み、これらと第一言語曖昧箇所文法辞書２７ｇを照合して、文の中に曖昧性はあるか否かの判定を行う（Ｓ５）。
【００４７】
すなわち、第一言語曖昧箇所文法辞書２７ｇの中にある曖昧用語辞書、または曖昧構造規則に適合するものがあるかどうかを判断する。図７は第一言語曖昧箇所文法辞書２７ｇの中にある曖昧用語辞書の一例の説明図、図８は第一言語曖昧箇所文法辞書２７ｇの中にある曖昧構造規則の一例の説明図である。
【００４８】
ここで、本実施形態において検出対象となる曖昧箇所の定義について説明する。曖昧箇所について二つのケースを考慮する。
【００４９】
第一に、第一言語から第二言語に翻訳を行う場合、一般に構造上の(syntactic)曖昧性と意味的な(semantic)曖昧性とがあるとされている。すなわち、第一言語では特定しないが、第二言語では特定せずには、文を作成できなくなる要素をもった第一言語の文は曖昧箇所を持つとみなされる。一方、第一言語で特定せず、第二言語でも同様に特定しないまま文を生成できる場合は、曖昧箇所を持つとはみなされない。
【００５０】
例えば、Lewis CarrollのAlice's Adventures in Wonderlandには以下のようなくだりがある。 "Mine is a long and a sad tale!" said the mouse, turning to Alice, and sighing. "It is a long tail, certainly," said Alice.ここで、long tailはlong taleとかけている。仮に日本語の同音異字語で尻尾と小話と両方を示す漢字があれば、これは曖昧箇所の検出対象にはならない。
【００５１】
第二に、翻訳以前の問題として、第一言語内に限った場合でも、複数の解釈の可能性があるものもある。これが検出すべき曖昧箇所の第二のケースである。第一のケースの記述からわかるように、何が曖昧箇所に相当するかは第一言語、第二言語に何を選ぶかによって大きく異なる。
【００５２】
本実施形態では、冒頭に述べたとおり、第一言語が日本語、第二言語が英語である場合を中心に説明するが、第一言語が英語、第二言語が日本語の場合の例を用いた方がわかりやすい場合は随時後者の言語方向を使う。
【００５３】
前述したように、第一言語曖昧箇所文法辞書２７ｇは、図７に一例を示す曖昧用語辞書と、図８に一例を示す曖昧構造規則とよりなる。
【００５４】
まず、曖昧用語辞書について説明する。曖昧用語辞書は、第一言語では弁別しないが、第二言語では同じ意味レベルの語がなく、語の指定に弁別要素が必要となる語を集めたものである。すなわち、曖昧用語辞書は、曖昧箇所の定義のうち意味的な曖昧性を扱うものである。こうした知識は日英対照研究の蓄積から得られるので、ここではそれを機械可読な形で持たせている。
【００５５】
図７において、用語として、「椅子」、「牛」、「氏」の場合を示している。図７中の「＊１」は互いに背反することを示しており、「＋」は左に示す意味特徴（弁別素性）がある場合、「−」は意味特徴（弁別素性）がない場合、「±」はどちらでもよい場合をそれぞれ示している。翻訳対象の第一文書はすでに形態素解析されているので、この曖昧用語辞書の見出し語が読み込んである形態素解析情報の中に含まれているか否かのチェックを行う。この一例の場合、文番号３の「氏」が該当する。
【００５６】
人間による翻訳でも明らかな誤訳のケース以外は、厳密な面では必ずしも最適な訳語ではなく訳されていることも多い。明らかな誤訳のケースとは、原文では、男女の区別がつかないが、実際は男性のことを語っていたところを翻訳では女性として訳出していたとか、あるいは原文では明示的に示されていないが、複数の人のことを語っていたところを翻訳では一人として訳出していたなどといった場合である。
【００５７】
これとは、対照的に、矛盾はしないケースとしてはfingerと指の対比がある。人体の一部分を示す英語のfingerは日本語では指と訳すことが多いが、実際は指の一種である親指を含まないことが多い。
【００５８】
現状の翻訳システムの観点からいうと、デフォルト規則が適用された部分とみなしてもよい。例えば、原文にtheyという代名詞があり、機械の文脈解釈の限界から、人を指すのか、物を指すのかが決定できない場合がある。これには、例えば、わからない場合、訳出しないわけにはいかないため、一律、第一訳語として、例えば「それら」と訳すと決めてしまうデフォルト規則が適用される。（なお、システムによっては、訳語を「それら/彼ら」とするところもあるが、日本語としては不自然である。）。
【００５９】
次に、曖昧用語辞書について説明する。曖昧構造規則は、曖昧となりうる構造を品詞や活用形、表層の語などの指定により構造式の形で列挙したものである。すなわち、曖昧箇所の定義のうち、構造上の曖昧性を扱うものである。
【００６０】
図８において、下線部はこの曖昧となりうる構造中で最も注目すべき要素で、ユーザにはハイライトして表示させる要素である。ここでは、主語の省略と連体修飾を例として示している。曖昧性を有する文構造についても、言語学で研究が蓄積されているので、その知見を本実施形態では構造式の形に直して持っている。
【００６１】
主語の省略や連体修飾句以外にも、無規定的な接続助詞「が」が知られている。具体例として新聞の記事から引用する。「英語にはnot worth the paper it is printed on（それが書かれている紙の価値もない）というイディオムがあります。worthless（値打ちがない）を強調したものですが、This column is not worth the paper it is printed on. とならないように、新年度も気合いをいれて、ためになる原稿の執筆に取り組んでいきたいと思います。」。
【００６２】
なお、本実施形態において、現時点で考えられる構造上の曖昧性のケースを網羅する必要があるときには、より論理的な言語である英語を第一言語とした方が説明しやすいため、第一言語を英語、第二言語を日本語とした場合を考える。網羅のためには、研究書に依拠して挙げていくのがよい。英語自体の曖昧性については、身近なところでは、例えば吉川洋、友繁義典(2008)『英語の意味とニュアンス』大修館書店がある。
【００６３】
大きな枠組みでいえば、次の３つに集約される。
（１）複数品詞を持つ単語を含むもの
例：Time flies like an arrow.
Timeとflyとは動詞と名詞を持ち、likeは動詞と前置詞を持つ。従って、品詞の並びとしては、time, fly, likeがそれぞれ動詞になって３通りあることになる。
【００６４】
（２）複数の係り受け可能性をもつもの
例：I saw a girl with a telescope
前置詞句は動詞句と名詞句（代名詞を除く）の両方に係りうるので、”with a telescope”は、”a girl”に係る解釈と”saw”に係る解釈とがあり得ることになる。
【００６５】
（３）同一品詞でも複数の用法を持つもの
例１：The chicken is ready to eat.
Eatは他動詞と自動詞がありうるので、the chickenがeatの主語になる解釈とeatの目的語になる解釈との２つがある。
【００６６】
例２:They are flying saucers.
動詞beには進行形の一部としての用法、連結動詞の用法などがある。従って例２ではbe flyingが主動詞、saucersがその目的語である解釈とflyingがsaucersを修飾して名詞句を形成し、theyとflying saucersが等価であるとする解釈があり得る。
【００６７】
個々の単語について、上記の（１）、（２）、（３）に該当するものがあれば、それぞれ規則を書いていくことになる。端的には、意味的な曖昧性のように、機械翻訳処理において構文規則のうちデフォルト規則が適用されるものがこの対象となるとみなせる。例えば、（３）の例２でみたような曖昧性がある場合、統計的にどちらかのほうが頻度が高いなどの理由により、どちらか一方に決めてしまうデフォルト規則が適用されるが、これが裏を返せば検出対象となるのである。
【００６８】
次に、図３のステップＳ５において、曖昧箇所検出手段３０は、文の中に曖昧性はあるか否かの判定を行うにあたり、形態素文字列や品詞や活用形は、解析情報記憶部２９からから読み込まれた形態素解析情報の中に含まれているので、それを所与にして、構造式に該当するものがあるか否かを照合する。
【００６９】
ここで、文番号１は、Ｓ２において、図５に示すように解析されているので、「お金を借りた銀行」の部分に規則２が適用される。
【００７０】
同様に、文番号２は例えば「[[[トップクォーク]名詞[の]格助詞[寿命]名詞]名詞句[は][短い]形容詞終止形] 文[ので]接続詞[、][[自然界]名詞[には]助詞[[存在し]動詞連用形[え]助動詞未然形[ない]助動詞終止形]]文」と解析されており、従って、「自然界には存在しえない」の部分に図８の規則１が合致するため、曖昧性があることになる。木構造で示すと、図９のようになる。
【００７１】
曖昧構造規則が適用されると、図８に示すように、中央の列に曖昧性の種類及び曖昧さの内容が記してあるので、文中のどの箇所に曖昧性があるかが特定できる。これによれば、文番号１の場合は、曖昧性の種類は連体修飾句であり、名詞句２と動詞連体形との意味関係が不明であることになる。図６の＜係り受け情報＞に示すように二つの係り受けの関係が可能である。
【００７２】
図８の曖昧構造規則によれば「名詞句２」（銀行）と「動詞連体形」（借りる）の関係が曖昧であり、事実、図6の木構造では、「銀行」と「借りる」を結ぶアークには、「から」と「が」の２つがある。一方、文番号２の曖昧性は主語の省略であることが、図８の曖昧構造規則より分かる。
【００７３】
こうして、図４に挙げた第一言語の文はいずれも曖昧性を有すると判断されることになる。このように判断されると、次に検出された曖昧箇所に対して、翻訳上の曖昧性を解消する質問文を作成する（Ｓ６）。一方、曖昧性を有しないと判断すると、曖昧性が解消したものとして訳文を確定する（Ｓ１３）。
【００７４】
ステップＳ６において、質問文を作成する際には、［１］可能な候補を列挙できるタイプ（選択型）と、［２］そうでないタイプ（非選択型）とがある。
【００７５】
図７に示す曖昧用語辞書により検出された曖昧箇所については、可能な候補を列挙できるタイプであり、選択疑問文またはYes-No疑問文を作成することができる。曖昧用語辞書内の意味特徴（弁別素性）がすでに質問形式になっているため、そのまま質問として使うことができる。これはYes-No疑問文であるので、回答は選択方式とすることができる。
【００７６】
本実施形態の文番号３の「氏」の場合は、図１０のような質問を作成することができる。ここで、図７（ｃ）の意味素性の列に示すと通りの質問になっていないのは、男性と女性とは、一般には図７（ｃ）に示すように背反することになっているため、冗長性を避けるべく、２つの質問を一つにまとめたためである。
【００７７】
一方、曖昧構造規則により検出された曖昧箇所については、可能な候補を列挙できないタイプであり、例えば次のようにして質問文を作成する。図８の最右列に「質問形式」には、規則ごとに対応する質問文を設けているので、文法範疇を問題となっている実際の文中の具体的な語にあてはめて、必要な変形を行い質問文を作成する。
【００７８】
このように可能な候補が列挙できない場合（非選択型）は、wh疑問文を作成することになる。規則２が適用される文番号１の場合、例えば「「借りた」の主語は何か？」といった質問文が作成される。また、規則１が適用される文番号１の場合、例えば「「存在しえない」の主語は何か？」のような質問文が作成される。選択肢はないため、このようなwh疑問文に対して回答者は自由記述で回答することになる。以上のようにして、すべての曖昧箇所に対する質問文が完成すると、質問文付与手段３４は、質問文を文中の該当箇所に付与する（Ｓ７）。
【００７９】
図１１は、実施形態における質問文付与の表示画面の一例を示す説明図である。図１１（ａ）はMicrosoft社のWord（登録商標）の文書編集アプリケーションプログラムのコメント付与機能を使った場合、図１１（ｂ）はAdobe社のAcrobatの文書編集アプリケーションプログラムの注釈機能を使用した場合を示している。
【００８０】
図１１（ａ）、図１１（ｂ）に示すように、いずれの表示画面においても、文番号３の曖昧箇所である「Ｙ氏」の文字がハイライトされ、目立つようになっている。また、質問文は原文の近傍に出力され、原文を参照しながら質問に回答できるよう工夫がされている。原文は、そのままの状態に保たれている。
【００８１】
図１１（ａ）の文書編集アプリケーションプログラムにおいては、コメントに対するコメントという形で入力はできないため、回答は質問文と同じフィールドに記入することになる。質問文と回答の境界を明確にしておくために、質問文の末尾に[回答欄]という文字列を挿入している。
【００８２】
一方、図１１（ｂ）の文書編集アプリケーションプログラムにおいては、注釈に対する返信という入力が可能であるので、それを利用する。この返信を使うと例えば、図１２のような画面となる。このように質問文と回答とは領域として区別されているが、お互いが関連づけられている。
【００８３】
このように質問文が付与されると、これらの質問に対する回答をユーザに求める。するとユーザは回答付与手段３５を通じて質問文のウィンドウの近傍に示される回答用のウィンドウに回答を埋めていく。なお、選択疑問文の場合は、図１１（ａ）の第３文目や図１２の第３文目にあるように、入力の手間を省くため、選択肢を選べるようになっている。これにより、機械翻訳装置は回答者から質問文に対する回答を得る（Ｓ８）。
【００８４】
次に回答解析手段３６は、質問文は選択型か否かを判定する（Ｓ９）。質問文が文番号３の質問のように選択型である場合には、回答から直接解を導くことができるので、第一言語曖昧箇所文法辞書２７ｇ、解析情報記憶部３２に保存されている各種情報と得られた回答をもとに、正しい解釈を得る（Ｓ１０）。
【００８５】
そして、ステップ１０での解釈はステップＳ４で得た解析と同一であるかどうかを判定し（Ｓ１１）、同一でない場合には、問題箇所を置き換えることによってデフォルトの訳文を修正する（Ｓ１２）。
【００８６】
いま、選択型の質問文として、文番号３に対する質問文を例に取り説明する。例えば、質問（１）については（ｂ）、質問（２）については（ｅ）の回答が得られたとすると、図７（ｃ）の曖昧用語辞書の「氏」のマトリックスより、訳語は”Ms.”に特定できる。
【００８７】
一方、この「氏」のデフォルトの性別は「男性」で、そのデフォルトの訳語は”Mr.”だったとする。この場合、回答者から回答を得ることによって、文番号３の「氏」の属性として「女性」が追加され、ステップＳ４の段階で得られた「氏」の訳語”Mr.”からこの”Ms.”に置き換わる。置き換わると、この文については曖昧性が解消したものとして訳文を確定する（Ｓ１３）。これにより処理は終了する。
【００８８】
下記に「氏」の翻訳規則の一例を模式的に示す。
【００８９】
氏の翻訳規則 {}は条件部（上から順に適用され、適用されれば処理終了）
（１）氏{gender=m}→Mr.
（２）氏{gender=f}→Ms.
（３）氏→Mr. <デフォルト規則＞
（注）genderは性別を示すプロパティ、m（男性）やf（女性）はその値。
【００９０】
これに当てはめて述べると、女性という回答からgender=fという内部形式に落とすことができる。これにより、従来の（３）の規則ではなく、デフォルト規則ではない（２）の規則が適用されることになる。
【００９１】
次に、ステップＳ９の判定で質問文が選択型ではなかった場合には、回答をそれぞれ形態素に分割し、品詞等の属性情報を得る（Ｓ１４）。文番号１や文番号２に対する質問が非選択型である。非選択型の質問に対する回答は自然言語の文や句になるので、これらを訳文に取り込むために、回答の文字列を形態素に分割し品詞等の属性情報を得ることになる。
【００９２】
そして、第一言語曖昧箇所文法辞書、解析情報記憶部から読み出した各種情報と得られた回答とその属性情報より、正しい解釈を得る（Ｓ１５）。例えば、文番号１に対する質問は、図５（ｂ）の＜係り受け情報＞に示した木構造の中の動詞「借りる」から分かれている「が」格（主格）のノードにある要素を求めるものである。候補１では、「銀行」という具体的な語が入っているが、候補２では空になっている。回答者が「銀行」と回答していれば、候補１が正しいことになり、＜係り受け情報＞の候補２は棄却される。一方、回答者が「銀行」以外、例えば、「私」であれば、候補２で空となっている箇所に「私」を挿入するとともに候補１を棄却する。また、＜形態素解析情報＞には、ステップＳ１４で行った回答の文字列の辞書引き結果が追加される。
【００９３】
ここで、回答の中に翻訳処理に必要な情報を入れていないことがある。よくある例としては、「わからない」、「不明」などがある。この種の回答と上記のような回答を区別するために上記のように言語解析が必要である。文番号２の質問文の回答からは、図９の空となっている部分に入るべき要素が得られる。そこで、もし回答が「トップクォーク」であれば、図９の木構造は、図１３のようになる。
【００９４】
そして、このように回答から導かれる情報がステップＳ４での各種解析結果に反映されると曖昧性は解消したものとして訳文を確定し（Ｓ１３）、処理を終了する。
【００９５】
以上の説明では、質問文を作成前に、ひと通りの翻訳が終了しているものとしたが、曖昧性の有無の判断に必要な段階までの解析処理（生成処理の手前）までにとどめ、質問に対する回答が得られた後に、最終段階の訳文まで出力するようにすることもできる。
【００９６】
さらに、本実施形態では、ユーザが回答を付与する手段を構成要素として含めていたが、文書編集アプリケーションプログラムに質問文を付与し、それに対する回答をユーザが入れた結果の文書を機械翻訳の入力とすることもできる。つまり、質問付与を一括して行い、そのあと、ユーザが質問に対する回答を終えた後、その回答を利用して、一括翻訳を行うという流れになる。
【００９７】
この場合、ユーザが回答を付与する手段は必須ではなくなる。また、図３に示したフローチャートにおいて、ステップＳ７で一旦処理を終える。ステップＳ７の結果、出力される質問文つき文書に対し、ユーザが回答を付与した文書が機械翻訳の入力となる。
【００９８】
この場合は、まず、回答解析手段３６は、質問文と回答とから形態素解析情報、格情報、係り受け情報などを導出できる情報を抽出する。次に通常の翻訳処理に進む。このとき、原文のみから得られる形態素解析情報、格情報、係り受け情報、及び質問文と回答の解析により得られた形態素解析情報、格情報、係り受け情報の双方を用いて機械翻訳を行う。翻訳を一通り終えると処理は終了する。
【００９９】
次に、他の実施形態を説明する。図１４は、他の実施形態に係わる機械翻訳装置の機能ブロック構成図である。この他の実施形態は、図１に示した実施形態に対し、質問文付与手段３４及び回答付与手段３５は、文書編集アプリケーションプログラムの校閲または注釈機能を使って行うようにしたものである。図１と同一要素には同一符号を付し重複する説明は省略する。
【０１００】
図１に示した実施形態では、機械翻訳装置の専用のエディタを使用すれば、データの授受は容易であるが、実際の文書作成は、それぞれの目的に応じた文書編集アプリケーションプログラムを用いて行うことが多い。従って、そうした文書編集アプリケーションプログラム上で翻訳を行う際には、機械翻訳装置の機械翻訳プログラムと当該の文書編集アプリケーションプログラムとを連携させることになる。
【０１０１】
そこで、図１４に示すように、機械翻訳装置の機械翻訳プログラムと当該の文書編集アプリケーションプログラム３７とを連携インタフェース３８にて連携を行う。文書編集アプリケーションプログラム３７と機械翻訳装置との連携にはさまざまな方法がある。アプリケーション間のデータ通信インタフェース（技術）としては、DDE (Dynamic Data Exchange), OLE (Object Linking and Embedding), OCX (OLE Custom Control), ActiveX, COM (Component Object Model)などがある。
【０１０２】
また、文書編集アプリケーションプログラム３７で連携翻訳を実現するには、文書編集アプリケーションプログラム３７にマクロやプラグインを組み込む。これらは、一般的にツールバーやメニューコマンドとして実現している。また、これらのマクロやプラグインは、連携インタフェース３８を介して、機械翻訳装置１１の演算制御装置１２の制御部２４と通信しデータの授受を行う。
【０１０３】
文書編集アプリケーションプログラム３７を連携させて曖昧性解消の処理を行う際の処理の流れを図１５に示す。曖昧性解消の処理は、図３に示した場合と同様であるが、機械翻訳プログラムと文書編集アプリケーションプログラム３７とを連携させる際に、連携インタフェース３８及びマクロやプラグインが介在することが異なっている。
【０１０４】
次に、文書編集アプリケーションプログラム３７におけるコメントや注釈部分の識別について簡単に説明する。例えば、文書編集アプリケーションプログラム３７がMicrosoft社のWordの場合は、文(Sentence)オブジェクトにコメントが付与されていれば、コメント(Comments)オブジェクトがあることがわかる。具体的には図１６のようなプログラムでコメントを参照することができる。従って、対象のコメントオブジェクトを取得し、テキストを抽出すれば、そこに記載の質問に対する回答も取得可能である。
【０１０５】
以上述べたように、実施形態によれば、以下の効果が期待できる。第一に、第二言語に機械翻訳し易くするために原文を書き換えるといった負荷の大きい作業を軽減できる。第二に、原文を書き換えることはしないため、原文のオリジナリティを保持することができる。解釈に変更があっても、原文は影響を受けない。第三に、monolingualなユーザが機械翻訳を外国語での情報発信に使う場合、その外国語の知識がなくても、あるいは、第一言語と第二言語の特徴的な差異についての知識がなくても、システムが提示する質問に回答するだけで機械翻訳の精度を上げることができる。第四に、従来は機械翻訳装置内で対話的に曖昧性箇所の問い合わせを行っていたが、実施形態では、機械翻訳装置の外側で対話方式あるいは事前の一括方式のいずれかにて、翻訳に必要とされる情報を付加することができる。
【０１０６】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【０１０７】
１１…機械翻訳装置、１２…演算制御装置、１３…プロセッサ、１４…メモリ、１５…プログラム、１６…作業エリア、１７…表示装置、１８…入力装置、１９…マウス、２０…キーボード、２１ａ…読み取り装置、２１ｂ…読み込み装置、２２…ハードディスクドライブ、２３…入力処理部、２４…制御部、２５…記憶部、２６…文書記憶部、２７…翻訳辞書部、２８…文書解析翻訳手段、２９…解析情報記憶部、３０…曖昧箇所検出手段、３１…質問文・回答記憶部、３２…質問文作成手段、３３…出力処理部、３４…質問文付与手段、３５…回答付与手段、３６…回答解析手段、３７…文書編集アプリケーションプログラム、３８…連携インタフェース

【特許請求の範囲】
【請求項１】
第一言語では曖昧とならないが第二言語の訳出には必要となる単語または文構造を記憶装置に格納した第一言語曖昧箇所文法辞書と、
翻訳対象となる第一言語文書を解析して第二言語の訳文を求める文書解析翻訳手段と、
前記文書解析手段で解析された解析情報及び前記第一言語曖昧箇所文法辞書に基づいて前記第一言語文書では明示されていないが第二言語の訳文には必要となる情報が欠落している曖昧箇所を検出する曖昧箇所検出手段と、
前記曖昧箇所ごとに前記第二言語の訳文に必要となる情報を得るためのユーザへの質問文を作成する質問文作成手段と、
前記質問文を前記第一言語文書の該当曖昧箇所に付与して表示装置に表示する質問文付与手段と、
前記質問文に対するユーザからの回答を入力装置から入力したときは当該回答に基づいて第二言語の訳文に必要となる情報を獲得し前記文書解析翻訳手段で翻訳した訳文に反映させる回答解析手段とを備えた機械翻訳装置。
【請求項２】
前記第一言語曖昧箇所文法辞書は、第一言語では弁別しないが第二言語では同じ意味レベルの語がなく語の指定に弁別要素が必要となる語を集めた曖昧用語辞書を備え、前記質問文作成手段は、前記曖昧用語辞書の弁別要素を選択する選択型の質問文を作成することを特徴とする請求項１記載の機械翻訳装置。
【請求項３】
前記回答解析手段は、前記質問文が選択型である場合には、回答及び前記第一言語曖昧箇所文法辞書の曖昧用語辞書に基づいて第二言語の訳文に必要となる情報を確定することを特徴とする請求項２記載の機械翻訳装置。
【請求項４】
前記第一言語曖昧箇所文法辞書は、曖昧となりうる構造を構造式の形で列挙した曖昧構造規則を備え、
前記質問文作成手段は、前記曖昧構造規則の曖昧構造に起因して欠落している情報を求める非選択型の質問文を作成することを特徴とする請求項１記載の機械翻訳装置。
【請求項５】
前記回答解析手段は、前記質問文が非選択型である場合には、回答の文字列を形態素に分割し属性情報を求め、その属性情報、前記文書解析手段で解析された解析情報及び前記第一言語曖昧箇所文法辞書の前記曖昧構造規則に基づいて第二言語の訳文に必要となる情報を確定することを特徴とする請求項４記載の機械翻訳装置。
【請求項６】
前記質問文付与手段及び前記回答付与手段は、文書編集アプリケーションプログラムの校閲または注釈機能を使ってなされることを特徴とする請求項１乃至５のいずれか１項に記載の機械翻訳装置。
【請求項７】
機械翻訳プログラムを記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力装置と、翻訳対象の第一言語の原文や翻訳後の第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置として機能させるためのコンピュータにおいて、
前記記憶装置に第一言語では曖昧とならないが第二言語の訳出には必要となる単語または文構造を記憶装置に格納した第一言語曖昧箇所文法辞書を記憶させておき、
前記コンピュータを、
翻訳対象となる第一言語文書を解析して第二言語の訳文を求める文書解析翻訳手段と、
前記文書解析手段で解析された解析情報及び前記第一言語曖昧箇所文法辞書に基づいて前記第一言語文書では明示されていないが第二言語の訳文には必要となる情報が欠落している曖昧箇所を検出する曖昧箇所検出手段と、
前記曖昧箇所ごとに前記第二言語の訳文に必要となる情報を得るためのユーザへの質問文を作成する質問文作成手段と、
前記質問文を前記第一言語文書の該当曖昧箇所に付与して表示装置に表示する質問文付与手段と、
前記質問文に対するユーザからの回答を入力装置から入力したときは当該回答に基づいて第二言語の訳文に必要となる情報を獲得し前記文書解析翻訳手段で翻訳した訳文に反映させる回答解析手段として機能させるための機械翻訳プログラム。

【図１】