機械翻訳装置、方法及びプログラム

【課題】第１言語の文書の原文が構文解析に失敗した場合でも、ユーザに負担を課すことなく読みやすい訳文を生成できるとともに、開発者による機械翻訳のチューニングの効率化や省力化を図ることである。
【解決手段】文書解析手段３０は、第１言語で表現された文書の各原文を構文解析する。訳文生成手段３３は、文書解析手段３０で構文解析に成功したときは原文の訳文を生成する。第１言語単語除去手段３４は、文書解析手段３０で構文解析に失敗したときは原文から１単語を除去した単語列を作成する。また、文書解析手段３０は、第１言語単語除去手段３４で得られた１単語を除去した単語列を構文解析し、訳文生成手段３３は、１単語を除去した単語列の構文解析に成功したときはその単語列の訳文を生成し、１単語を除去した単語列の構文解析に失敗したときは原文の不完全な訳文を生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、自然言語文書を処理して第１言語を第２言語に機械翻訳する機械翻訳装置、方法及びプログラムに関する。
【背景技術】
【０００２】
機械翻訳の特徴として、ある１単語が加わるととたんに第１言語の原文の構文解析に失敗し、部分訳として出力されることがある。こうした部分訳は、人間にとって非常に読みづらいものであることが多い。
【０００３】
一方、人間による翻訳の場合、正しく構文解析できなくても、第２言語の文法知識から、第２言語において自然な文書に独自に直して訳文として作成することが多いため、このような読みづらい訳文になることは少ない。人間の訳文はたとえ誤訳だとしても、読みづらさの違いにより、機械の訳文が必要以上に低く評価されやすい。
【０００４】
換言すると、１単語を除いて原文に対する訳文の評点と原文通りに翻訳した場合の訳文の評点との落差は非常に大きい。人間の翻訳では、ある１単語が加わることで、これほど大きな訳質の差がみられることは少ないと思われる。つまり、このような特徴があることで、機械翻訳の訳質が必要以上に低くみられてしまうことがある。
【０００５】
こうした失敗の原因となる単語は、誤植であることもある。すなわち、入力を間違え、たまたま、そこには現れ得ない品詞の単語が入ってしまうことがある。こうした誤植は、母国語話者であれば、自然に検出できることが多いが、第１言語の知識が欠如している者にとっては、誤植であることが峻別できない。
【０００６】
従来より、機械翻訳において、構文解析に失敗した場合の対策として、主に２つの方法が採られてきた。一つは、機械翻訳装置が扱えるように、原文を編集するものであり、前編集と呼ばれる。これは、例えば、原文における係り受け関係を指定する、構成要素の切れ目を指定するなど、原文は変えずに情報を付加する方法、原文そのものの表現を、例えば産業日本語などの機械処理になじむ言語に則って書き換えたり、省略されている語を補う方法などがある。いずれも、第１言語の知識、およびどういった表現は機械にとって扱いにくいかという知識が必要であり、特殊な技術を要する。また、編集自体、負荷の大きい作業である。場合によっては、人間が直接翻訳した方が効率が高いこともある。
【０００７】
もう一つの方法は、原文において、構文解析に成功した部分（部分訳）をうまく組み合わせて、訳文を生成する方法である。例えば、単文ごとの分割、句ごとの分割、節ごとの分割、または単語ごとの分割のいずれか複数を含む分割手段を有し、もっとも大きなテキストの構成要素から順に、より小さなテキストの構成要素に分割することによって部分訳を作成し、それらを一組にして全体の翻訳結果を合成するようにしたものがある（例えば、特許文献１参照）。
【０００８】
しかし、部分訳を組み合わせるものでは、部分訳を合成しても全体の訳になるとは限らない場合がある。すなわち、非単調性が存在する（http://www.jaist.ac.jp/~kshirai/lec/i223/14.pdf）。
【０００９】
単文レベルの合成であれば別だが、それより低いレベルの部分訳の合成となると、それらをどのように組み合わせればよいかという知識は、非常に高度な知識であり、お互いの修飾関係を把握しておく必要がある。単純に前から、順に合成していっても、意味をなさない訳文になる可能性が高い。
【００１０】
このことから、合成はもともと人間が行うことを前提としているものもある（例えば、特許文献２参照）。すなわち、特許文献２には以下のように書かれている。「部分訳として翻訳された結果は、翻訳者が編集手段によって自由に並び替えたり、連結をし、文全体を構成すればよい。部分訳自体は正しく翻訳されている可能性が高いので、翻訳結果の修正の手間が省ける。」
このように従来の方式では、何らかの人間の介在が前提となっている。前編集の方法をとる場合、第１言語の知識を必要とし、負荷の高い作業、いわゆるチューニングが発生する。これは、通常の第１言語の知識だけでなく、どのような言語表現が機械にとって処理しにくいかといった（人間が処理しやすい言語表現とは必ずしも一致しない）特殊な知識も必要とする。したがって、パーソナル・ユーザのように、単に大意をつかむために、機械翻訳を利用している場合には適切といえない。特に、第１言語をまったく解さないユーザの場合は、特にそのことがいえる。
【００１１】
また、部分訳を合成する場合であるが、分割した単位が単純な関係にある場合は、それらを結合するだけで、理解可能な訳文が生成されることが予測される（非特許文献１参照）。しかし、分割が多くなるほど、それらの関係は複雑になり、どのようにそれらを組み合わせるかを判断することは困難になる。また、単純に長文であるため、解析しにくい場合は、従来の場合で処理可能であろうが、ある単語が原因で全体の構文解析を難しくしている場合は、極端にいえば、単語レベルまで分割しなければ処理できない。単語ごとの翻訳を合成した結果は、他との関係を参照していないので、正しい解釈とならないと予想される。そもそも、「全体は部分の総和以上のものである」というゲシュタルト的な考えに立てば、このように部分訳を単純に合成するだけでは、正しい意味解釈の目的を十分果たせない。
【００１２】
視点を変えて、機械翻訳装置の開発者の立場からすると、従来のような方式は、簡単にいえば、現状のシステムが受け入れやすい方法に原文を変えるものであり、システム自体の改善にはつながらない。原文そのものは変えずに、システムを頑強にすることによって受理できるようにするという位置づけになっていない。また、構文解析の失敗の原因は具体的にどこであるか効率的に特定できていない。現状では、原文を少しずつ変化させてみて、開発者が自らの経験知から、原因を探りあてるということが行われている。
【先行技術文献】
【特許文献】
【００１３】
【特許文献１】特開平５−２６０４号公報
【特許文献２】特開平６−１２４３０３号公報
【非特許文献】
【００１４】
【非特許文献１】吉田節行(2007) 山形大学工学部情報科学科平成１８年度卒業論文「特許文の機械翻訳における正しい係り受け判定のための文章分割」平成１９年３月 (http://isyus2.yz.yamagata-u.ac.jp/xoops/kenkyuu_seika/2007/2007_B4_yoshida.pdf)
【発明の概要】
【発明が解決しようとする課題】
【００１５】
本発明が解決しようとする課題は、第１言語の文書の原文が構文解析に失敗した場合でも、ユーザに負担を課すことなく読みやすい訳文を生成できるとともに、開発者による機械翻訳のチューニングの効率化や省力化を図ることができる機械翻訳装置、方法及びプログラムを提供することである。
【課題を解決するための手段】
【００１６】
本発明の実施形態に係る機械翻訳装置は、機械翻訳プログラム、翻訳対象の第１言語の原文を翻訳目的の第２言語の訳文に翻訳するための機械翻訳辞書を記憶した記憶装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備える。
【００１７】
文書解析手段は、第１言語で表現された文書の各原文を構文解析する。訳文生成手段は、文書解析手段で構文解析に成功したときは原文の訳文を生成する。第１言語単語除去手段は、文書解析手段で構文解析に失敗したときは原文から１単語を除去した単語列を作成する。
【００１８】
また、文書解析手段は、第１言語単語除去手段で得られた１単語を除去した単語列を構文解析し、訳文生成手段は、１単語を除去した単語列の構文解析に成功したときはその単語列の訳文を生成し、１単語を除去した単語列の構文解析に失敗したときは原文の不完全な訳文を生成する。
【図面の簡単な説明】
【００１９】
【図１】本発明の実施形態に係る機械翻訳装置のハードウエア構成を示すブロック構成図。
【図２】本発明の実施例１に係る機械翻訳装置の機能ブロック図。
【図３】本発明の実施例１に係る機械翻訳装置の処理内容を示すフローチャート。
【図４】本発明の実施例１での翻訳対象となる第１言語の文書の一例の説明図。
【図５】図４の文番号１の原文に対して、図３の処理を行った場合の形態素解析情報の説明図。
【図６】１４単語からなる図４の文番号１の原文から１単語を除去した１４個の単語列の説明図。
【図７】本発明の実施例１による訳文の表示画面の一例の説明図。
【図８】本発明の実施例２に係る機械翻訳装置の機能ブロック図
【図９】本発明の実施例２に係る機械翻訳装置の処理内容を示すフローチャート。
【図１０】本発明の実施例３に係る機械翻訳装置の機能ブロック図。
【図１１】本発明の実施例３に係る機械翻訳装置の処理内容を示すフローチャート。
【図１２】図４の文番号１の原文からthusという語を除去した単語列に対しての辞書引き結果の説明図。
【図１３】本発明の実施例３における第１言語解析文法辞書の一例を示す説明図。
【図１４】本発明の実施例４に係る機械翻訳装置の機能ブロック図。
【図１５】本発明の実施例４に係る機械翻訳装置の処理内容を示すフローチャート。
【図１６】本発明の実施例４に係る機械翻訳装置のコーパス検索手段での検索結果の一例の説明図。
【図１７】本発明の実施例５に係る機械翻訳装置の機能ブロック図。
【図１８】本発明の実施例５に係る機械翻訳装置の処理内容を示すフローチャート。
【図１９】本発明の実施例５における辞書登録問い合わせ画面の一例を示す説明図。
【発明を実施するための形態】
【００２０】
以下、本発明の実施形態を図面に基づいて説明する。図１は本発明の実施形態に係る機械翻訳装置のハードウエア構成を示すブロック構成図である。
【００２１】
図１において、機械翻訳装置１１は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置１２のプロセッサ１３において実行されることにより実現される。
【００２２】
演算制御装置１２は機械翻訳に関する各種演算を行うものであり、演算制御装置１２はプロセッサ１３とメモリ１４とを有し、メモリ１４には翻訳に関する機械翻訳プログラム１５が記憶され、プロセッサ１３により処理が実行される際には作業エリア１６が用いられる。演算制御装置１２の演算結果等は出力装置１７である表示装置１８、印刷装置１９、ディスクドライブ２０に出力され、また、通信制御装置２１を介して通信ネットワークに出力される。
【００２３】
入力装置２２は演算制御装置１２に情報を入力するものであり、例えば、マウス２３、キーボード２４、ディスクドライブ２０、通信制御装置２１から構成され、例えば、マウス２３やキーボード２４は表示装置１８を介して演算制御装置１２に各種指令を入力し、キーボード２４、ディスクドライブ２０、通信制御装置２１は翻訳対象の文書を入力する。
【００２４】
すなわち、ディスクドライブ２０は翻訳対象の文書のファイルを記憶媒体に入出力するものであり、通信制御装置２１は機械翻訳装置１１をインターネットやＬＡＮなどの通信ネットワークに接続するものである。通信制御装置２１はＬＡＮカードやモデムなどの装置であり、通信制御装置２１を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置１２に送受信される。さらに、演算制御装置１２の演算結果や翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ（ＨＤＤ）２５が設けられている。
【００２５】
（実施例１）
図２は本発明の実施例１に係る機械翻訳装置１１の機能ブロック図である。図２において、演算制御装置１２内の各機能ブロックは、上述の機械翻訳プログラム１５を構成する各プログラムに対応する。すなわち、プロセッサ１３が機械翻訳プログラム１５を構成する各プログラムを実行することで、演算制御装置１２は、各機能ブロックとして機能することとなる。また、記憶装置２６の各ブロックは、演算制御装置１２内のメモリ１４及びハードディスクドライブ２５の記憶領域に対応する。
【００２６】
入力装置２２は、翻訳対象となる文書の電子データを入力するものであり、ユーザの入力操作に基づく（対訳）の入力が可能である。入力装置２２から入力される文書は、翻訳対象となる第１言語文書である。
【００２７】
なお、入力装置２２としては、ＯＣＲ（光学式文字読み取り装置）や、磁気テープ、磁気ディスク、光ディスク等、コンピュータ可読媒体からの読み込み装置を採用することも可能であり、入力装置２２によって入力された翻訳対象となる第１言語文書は、演算制御装置１２の入力処理部２７により入力処理されて取り込まれ、制御部２８を介して記憶装置２６の文書記憶部２９に記憶される。また、入力装置２２は、入力処理部２７を介して制御部２８に対して各種コマンドを与える。制御部２８は、入力処理部２７、出力処理部３２、文書解析手段３０を制御するとともに、記憶装置２６とのデータの授受の制御も行う。
【００２８】
文書解析手段３０は、第１言語で表現された文書の各原文を構文解析するものである。すなわち、制御部２８からの指示に従って、後述する記憶装置２６の機械翻訳辞書である翻訳辞書部３１を用いて、入力装置２２によって入力され、文書記憶部２９に記憶された翻訳対象となる第１言語文書の原文を解析し、その解析情報を文書記憶部２９に記憶する。また、その解析結果は、必要に応じて、制御部２８及び出力処理部３２を介して出力装置１７に出力される。以下の説明では、出力装置１７は表示装置１８である場合について説明する。
【００２９】
訳文生成手段３３は、文書解析手段３０で構文解析に成功したときは原文の訳文を生成するものであり、その訳文を文書記憶部２９に記憶するとともに、必要に応じて、制御部２８及び出力処理部３２を介して表示装置１８に表示・出力する。
【００３０】
第１言語単語除去手段３４は、文書解析手段３０で構文解析に失敗したとき、原文から１単語を除去した単語列を作成するものであり、文書解析手段３０で構文解析に失敗したときは、ｎ単語からなる原文(word1, word2, word3,.., wordn)から、１単語を除去したｎ種の単語列を作成するものである。すなわち、
word2, word3, word4, ..wordn（word1を除去）
word1, word3,word4,…wordn（word2を除去）
…
word1, word2, word3,…wordn-1（wordnを除去）
のようなｎ−１単語からなる単語の並びをｎ種作成した上で、それぞれに対して構文解析を行う。これらの構文解析の結果は、必要に応じて、制御部２８及び出力処理部３２を介して表示装置１８に表示・出力される。
【００３１】
出力処理部３２は、制御部２８を介して供給された（対訳）文書、解析結果、構文解析失敗箇所、専門用語調整後の新たな翻訳結果を表示装置１８に出力処理するものであり、これにより、表示装置１８の表示画面上に翻訳情報画面が表示される。また、出力処理部３２は制御部２８への各種コマンドに対する制御部２８からの応答を表示する。
【００３２】
なお、出力装置１７として表示装置１８を示しているが、出力装置１７としては、前述したように、表示装置１８だけではなく、印字機等の印刷装置、磁気テープ、磁気ディスク、光ディスク等のコンピュータ可読媒体への出力装置や、他のメディアに文書を送信する送信装置（通信制御装置２１）等を採用することもできる。
【００３３】
翻訳辞書部３１は、文書解析手段３０が翻訳対象となる第１言語文書を解析する際に用いる各種辞書データを格納している。翻訳辞書部３１は、第１言語から第２言語への翻訳を行うための辞書、及び第２言語から第１言語への翻訳を行うための辞書を格納している。
【００３４】
第１言語から第２言語への翻訳を行うための辞書は、語尾等に変化のある第１言語の単語・熟語をその原形に変換するための第１言語活用変化辞書３１ａ、第１言語を解析するための文法が記憶された第１言語解析文法辞書３１ｂ、第１言語の単語・熟語に対応する第２言語の訳語がその品詞情報と共に記憶される第１言語単語・熟語辞書３１ｃ、第１言語から第２言語への変換情報が記憶された第１言語変換文法辞書３１ｄ、第２言語の文の構造を決定する第２言語生成文法辞書３１ｅ、さらに語尾等の語形を変化させて翻訳文を完成させる第２言語形態素生成文法辞書３１ｆから構成される。
【００３５】
また、第２言語から第１言語への翻訳を行うための辞書は、語尾等に変化のある第２言語の単語・熟語をその原形に変換するための第２言語活用変化辞書３１ｈ、第２言語を解析するための文法が記憶された第２言語解析文法辞書３１ｉ、第２言語の単語・熟語に対応する第１言語の訳語がその品詞情報と共に記憶される第２言語単語・熟語辞書３１ｊ、第２言語から第１言語への変換情報が記憶された第２言語変換文法辞書３１ｋ、第１言語の文の構造を決定する第１言語生成文法辞書３１ｌ、さらに語尾等の語形を変化させて翻訳文を完成させる第１言語形態素生成文法辞書３１ｍから構成される。
【００３６】
なお、図２では、第１言語文書を解析する際に有用と思われる辞書を挙げたが、第１言語文書を解析する際に必ずしもすべてを使用する必要はない。
【００３７】
図３は、本発明の実施例１に係わる機械翻訳装置の処理内容を示すフローチャートである。まず、制御部２８は、入力装置２２から入力処理部２７を介して入力された翻訳対象となる第１言語の文書を記憶する（Ｓ１）。すなわち、翻訳対象となる第１言語の文書を記憶装置２６の文書記憶部２９に記憶する。
【００３８】
図４は、翻訳対象となる第１言語の文書の一例の説明図である。以下の説明では、英語を第１言語とし日本語を第２言語とした場合を例にとり説明する。
【００３９】
次に、制御部２８は文書解析手段３０を起動する。文書解析手段３０は、文書記憶部２９から第１言語の文書を読み出し、第１言語の文書の各原文（各文）をそれぞれ形態素に分割し、品詞等の属性情報を得る（Ｓ２）。これは、翻訳対象となる第１言語の文書の各原文の統語的特徴を得るためである。
【００４０】
ステップＳ２においては、翻訳辞書部３１の第１言語から第２言語への翻訳を行うための辞書、具体的には第１言語活用変化辞書３１ａと第１言語解析文法辞書３１ｂとの照合により、各単語につき、品詞、原形、属性が付与され、また、各形態素がどのような関係を有するかを示す文構造（係り受け関係）を得る。
【００４１】
次に、文書解析手段３０は第１言語単語・熟語辞書３１ｃを用いて、それぞれの形態素に対して翻訳辞書部３１内に定義している訳語情報を得る（Ｓ３）。さらに、構文解析を行う（Ｓ４）。そして、訳文生成手段３３は構文解析に成功したかを判断し（Ｓ５）、構文解析に成功ならば原文の訳文を生成する（Ｓ６）。すなわち、第１言語変換文法辞書３１ｄ、第２言語生成文法辞書３１ｅ、第２言語形態素生成文法辞書３１ｆを用いて第２言語の構造に変換し、構文解析に成功ならば、訳語の形態素生成を行い最終的な訳文を得る。
【００４２】
一方、ステップＳ５において訳文生成手段３３が構文解析に成功しなかった（失敗した）と判断したときは、第１言語単語除去手段３４は、ｎ単語からなる原文から１単語を除去したｎ種の単語列を作成する（Ｓ７）。これは、ｎ単語からなる原文(word1, word2, word3,..wordn)から１単語を除去した単語列を構文解析し、その構文解析に成功するかどうかの可能性を探るためである。
【００４３】
そこで、文書解析手段３０は、ｎ単語からなる原文(word1, word2, word3,.. wordn)から１単語を除去したｎ種の単語列に対して構文解析を行う（Ｓ８）。そして、訳文生成手段３３は、構文解析に成功した単語列があるかを判断し（Ｓ９）、構文解析に成功した単語列があるときは、構文解析に成功した単語列の訳文を生成する（Ｓ１０）。すなわち、訳文生成手段３３は構造変換・形態素生成を行い訳文を得る。
【００４４】
一方、構文解析に成功した単語列がないときは、訳文生成手段３３は、ｎ種の単語列すべてを棄却し、原文の不完全な訳文を生成する（Ｓ１１）。すなわち、１単語を除去しない元の原文を形態素解析し、可能な部分の構造変換・形態素生成を行い、構文解析に失敗した不完全な訳文を得る。
【００４５】
以上の説明では、第１言語単語除去手段３４は、文書解析手段３０で構文解析に失敗したときに、原文から１単語を除去した単語列を作成するようにしたが、１単語を除去した単語列に対して構文解析に成功しないときは、１単語ではなく隣接する２単語を除去した単語列を作成し、１単語の除去の場合と同様に、そのそれぞれに対して構文解析を行い、構文解析に成功するものがあれば、翻訳処理まで進めるようにしてもよい。
【００４６】
２単語を除去する際は、ｎ単語から構成される文の場合、ｎ−１の組ができる。また、２単語を除去した単語列に対しても構文解析に成功しないときは、隣接する３単語を除去するようにしてもよい。どこで処理を終了とするかについては、除去する単語の最大値を予め設定しておき、その上限まで実行することや、上限を設けずに成功する単語列ができるまで、単語を除去するようにしてもよい。
【００４７】
図５は、図４の文番号１の原文に対して、図３の処理を行った場合の形態素解析情報の説明図である。文番号１の原文は１４単語から構成されている。いま、図３のステップＳ５の判定で、構文解析に成功しなかったと判定されたとする。図３のステップＳ７〜Ｓ１０の処理がない場合（従来の場合）には、文番号１の原文の不完全な訳文として、例えば、「使用したがってプライマーを設計する、人間の遺伝子のポリメラーゼ連鎖反応が達成された」という部分訳が出力されるものとする（Ｓ１１）。
【００４８】
本発明の実施形態の実施例１では、図３のステップＳ７〜Ｓ１０の処理を行う。まず、図３のステップＳ７において、図６に示すように１４通りの単語列を作成する。図６は、１４単語からなる図４の文番号１の原文から１単語を除去した１４個の単語列の説明図である。「^」は省いた単語がもと存在していた位置を示す。
【００４９】
候補１は省いた単語が「using」である単語列、候補２は省いた単語が「the」である単語列、候補３は省いた単語が「thus」である単語列、候補４は省いた単語が「designed」である単語列、候補５は省いた単語が「primers」である単語列、候補６は省いた単語が「a」である単語列、候補７は省いた単語が「polymerase」である単語列、候補８は省いた単語が「chain」である単語列、候補９は省いた単語が「reaction」である単語列、候補１０は省いた単語が「of」である単語列、候補１１は省いた単語が「human」である単語列、候補１２は省いた単語が「genes」である単語列、候補１３は省いた単語が「was」である単語列、候補１４は省いた単語が「effected」である単語列である。
【００５０】
図３のステップＳ８では、これら１４候補について構文解析を行う。この例では、候補３の単語列のみが構文解析に成功したものとする。その場合、ステップＳ９では、構文解析に成功した単語列があると判定されるので、ステップＳ１０において、その構文解析に成功した候補３の単語列の訳文を生成する。つまり、候補３の単語列に対して構造変換・形態素生成を行い、最終的に訳文として、例えば、次のような日本語の構文として適切な訳文を得る。「設計されたプライマーを使用して、人間の遺伝子のポリメラーゼ連鎖反応が達成された。」
これは、先のすべての単語を取り込んで翻訳した結果、「使用したがってプライマーを設計する、人間の遺伝子のポリメラーゼ連鎖反応が達成された」と比較して、「使用」と「プライマー」との関係が明らかになっていること、「使用」「したがって」と日本語として接続していない表現がないことから、読みやすさが増していることがわかる。”thus”を省くことによる情報量の損失の量よりも、構成要素の関係の明確化による増大する情報の量のほうが高いといえる。つまり、大意をつかむには十分である。
【００５１】
ここで、実際にユーザに提示する場合は、例えば、図７に示すように表示装置１８に表示・出力する。図７に示すように、通常の翻訳とは異なり、１単語を除いて翻訳してあることを、例えば、翻訳モードの欄に概要モード翻訳であることを表示し、その１単語が何で、どこに位置していたかを、例えば、原文の省いた単語を四角で囲って表示する。色違いやアンダーラインを表示して省いた単語を識別できるように表示してもよい。また、図７では図示を省略しているが、その１単語の辞書引き結果をあわせて表示するようにしてもよい。
【００５２】
図７では、１単語を除去した原文と訳文との翻訳方式を「概要モード翻訳」と通常の単語を省かない翻訳方式を「通常モード翻訳」と称して区別して表示している。また、四角で囲った単語は省いた単語がどれかをユーザが一目でわかるようになっている。省いた単語の意味が表示されていれば、ユーザは機械翻訳の訳文の中に除去した１単語（除去語）の訳語をうまく取り込んで、もともとの原文の意味を理解しようと試みることもできる。訳文を作成することが必須でなければ、意味をとる上ではこれで十分である。
【００５３】
実施例１によれば、構文解析に成功しないときは、１語を除去して構文解析に成功したときは、その訳文を提供するので、構成要素の関係の明らかな訳文を提供でき、原文の不完全な訳文を少なくできる。
【００５４】
（実施例２）
図８は、本発明の実施例２に係る機械翻訳装置の機能ブロック図である。この実施例２は、図２に示した実施例１に対し、文書解析手段３０で構文解析に成功した１単語を除去した単語列が複数あるときは、その複数の各単語列について除去した１単語の重要度を判断する単語重要度判定手段３５を追加して設け、訳文生成手段３３は、単語重要度判定手段で除去した１単語の重要度が最も低いと判定された単語列の訳文を生成するようにしたものである。
【００５５】
また、図９は本発明の実施例２に係る機械翻訳装置の処理内容を示すフローチャートである。図３に示した実施例１のフローチャートに対し、ステップＳ１２〜Ｓ１４が追加されている。図２と同一要素には同一符号を付し、図３と同一ステップには同一符号を付し重複する説明は省略する。
【００５６】
図９のステップＳ９において、訳文生成手段３３は構文解析に成功した単語列はあると判断したときは、訳文生成手段３３は、さらに構文解析に成功した単語列は複数かどうかを判断する（Ｓ１２）、そして、構文解析に成功した単語列の候補が複数あった場合には、単語重要度判定手段３５は、構文解析に成功した単語列の各単語列について、除去した１単語の重要度を判断する（Ｓ１３）。そして、訳文生成手段３３は、除去した１単語の重要度が最も低い単語列の訳文を生成する。
【００５７】
このように、構文解析に成功した単語列の候補が複数あった場合、翻訳対象とする文書の意味を解釈する際の相対的な重要度が最も低い単語を除去した単語列の訳文を生成する。これにより、１単語を除去した場合でも翻訳対象とする文書の意味を保持した訳文が得られる。
【００５８】
次に、単語重要度判定手段３５での単語の重要度を判定するための判断基準について説明する。この判断基準として、次のような分類を用いる。例えば、内容語は機能語より重要度が高いとする。一般に、機能語は文の中の機能を示し実質的な意味を有していないという点で、内容語よりも重要度が低いと考えることができるからである。また、同じ機能語の中でも、特に第２言語には対応するものがない機能語の場合は、重要性が低いとする。例えば、冠詞は日本語にはないため、省略しても少なくとも大意をつかむ用途に大きな影響はないからである。
【００５９】
また、品詞について、名詞や動詞は形容詞や副詞よりも重要性が高いという基準を設ける。英語の品詞で内容語となるものにはおおざっぱにいえば、名詞、動詞、形容詞、副詞があるが、このうち、文の骨格となるのは名詞と動詞である。名詞を修飾する形容詞、動詞を修飾する副詞により表出する意味は、いわば付加的な情報である。したがって、名詞や動詞は、形容詞や副詞よりも重要性が高いという基準を設ける。なお、否定辞のように、その有無で、文の意味がまったく逆になるものも重要度を高くする。
【００６０】
さらに、辞書由来情報について、専門用語は非専門用語より重要度が高いとする。一般に、専門用語は、標準的な単語（非専門用語）より意味が限定されており、単語が有する情報量が多いと考えられるからである。
【００６１】
以上のような単語の重要度の判断基準を用いることで、除去された単語（除去した１単語）の重要度が最も低いものを優先して訳文として生成する。ここで、最も低い候補を一つに絞り込めない場合は、その残ったすべてを訳文として提供することもできる。あるいは、任意に一つに選択することもできる。
【００６２】
実施例２によれば、除去した１単語の重要度が最も低いと判定された単語列の訳文を生成するので、１単語を除去した場合でも翻訳対象とする文書の意味を保持した訳文が得られる。
【００６３】
（実施例３）
図１０は、本発明の実施例３に係る機械翻訳装置の機能ブロック図である。この実施例３は、図２に示した実施例１に対し、１単語を除去した単語列の構文解析に成功したときは、除去した１単語の直前の単語の品詞と直後の単語の品詞とを参照し、それらの品詞の間に生起し得る品詞を翻訳辞書部３１に基づいて抽出し、その生起し得る品詞に基づいて除去した１単語の品詞を変更して調整する品詞調整手段３６を設け、訳文生成手段３３は、１単語を除去した単語列の訳文を生成することに代えて、品詞調整手段３６で変更した品詞を、除去した１単語に割当て原文の訳文を生成するようにしたものである。
【００６４】
また、図１１は本発明の実施例３に係る機械翻訳装置の処理内容を示すフローチャートである。図３に示した実施例１のフローチャートに対し、ステップＳ１５〜Ｓ１７が追加されている。図２と同一要素には同一符号を付し、図３と同一ステップには同一符号を付し重複する説明は省略する。
【００６５】
実施例１では、原文から単語を除去して、現状レベルで最大限改善可能な訳文を生成することに主眼があるのに対し、実施例３では、原文から単語を除去せずとも、構文解析が可能なように形態素解析能力を高めるようにしたものである。すなわち、図１１のステップＳ９で構文解析に成功しなかったときは、ステップＳ１５〜Ｓ１７の処理を行う。
【００６６】
ステップＳ９において、訳文生成手段３３が構文解析に成功した単語列はないと判断したときは、品詞調整手段３６は、除去した１単語の前後の単語の品詞を参照し（Ｓ１５）、品詞調整手段３６は、除去した１単語の前後の単語の品詞間に生起する品詞に基づいて、除去した１単語の品詞を変更する（Ｓ１６）。そして、訳文生成手段３３は、除去した１単語に変更した品詞を割当て原文の訳文を生成する（Ｓ１７）。
【００６７】
例として、図４の文番号１の原文を用いて説明する。前述したように、文番号１の原文のままでは文書解析手段３０は構文解析に失敗し、thusという語を除去すると、初めて形態素解析に成功するものであるとする。図１２は、図４の文番号１の原文からthusという語を除去した単語列に対しての辞書引き結果の説明図である。
【００６８】
品詞調整手段３６は、除去した１単語(すなわちここではthus)の前後の任意の数の単語を取り出しその品詞を調べる（Ｓ１５）。ここでは、除去した１単語(thus)の前後の単語を２単語ずつ取り出すことにする。除去した１単語(thus)の前の２単語は直前のtheとその前のusingであり、除去した１単語(thus)の後ろの２単語は直後のdesignedとその後ろのprimersである。図１２より、thusの前のtheは冠詞、その前のusingは現在分詞である。一方、thusの後ろのdesignedは過去分詞であり、そのまた後ろのprimersは名詞である。
【００６９】
一方、第１言語解析文法辞書３１ｂは英語の品詞列として生起可能な組を例えば、図１３のような形でもっている。図１３は説明のためのものであるので、第１言語解析文法辞書の内容｛英語の品詞列として生起可能な組の知識（ａ）〜（ｄ）｝を非常に簡略化して示している。品詞調整手段３６は、これを除去した１単語の品詞の判断に用いる。
【００７０】
冠詞は名詞句の冒頭に来る品詞であり、その前の単語とは大きな切れ目と判断できる。このことから、ここでは、”the thus designed primers”に着目することになる。
【００７１】
品詞調整手段３６は、図１３に示す品詞列として生起可能な組の知識と、過去分詞は形容詞のようにふるまう用法があるという知識とから、”the designed primers”は図１３に示す生起可能な組の知識（ｃ）に該当することがわかる。
【００７２】
ここで、生起可能な組の知識（ｄ）を参照して、thusを知識（ｄ）の副詞に割り当てれば、英語の品詞の並びとして適切なものになることがわかる。つまり、”thus designed”を形容詞句とし、それを分解した、thusは副詞、designedは形容詞とみる。つまり、thusの品詞を副詞と変更する。
【００７３】
これを一般化していうと、第１言語解析文法辞書の知識とステップＳ１５で得られた品詞とを結果を照らし合わせ、除去した１単語として構文的に許される品詞に変更する（Ｓ１６）。次に、訳文生成手段３３は除去した１単語をこの新たな品詞に設定して、もとの何も省略していない状態の原文を翻訳し直す（Ｓ１７）。
【００７４】
ここで、最初の辞書引きで抽出された訳語を適用可能な場合はそれを用いて訳文を作成し（Ｓ６）、可能でない場合は外部からその訳語を補うようにする。thusの最初の辞書引きで抽出された訳語は接続詞としての訳語（したがって）であった。そこで、例えば、「このように」といった別の訳語を与えることが考えられる。すると、例えば、元の原文に対して「このように設計されたプライマーを使用して、人間の遺伝子のポリメラーゼ連鎖反応が達成された。」のような訳文を得ることができる。
【００７５】
以上を今後の構文解析に生かすために、このような用法のthusが生起する環境を条件部分として、thusの品詞を調整するという規則を追加するようにしてもよい。つまり、前に冠詞、後ろに形容詞があった場合、thusの品詞を副詞に変更するという規則を追加する。
【００７６】
このように問題となった単語の品詞を調整する以外に、図１３のような第１言語解析文法辞書を精緻化して、除去した１単語を受理できるようにする。別の見方をすれば、前者は個別規則での対応、後者は一般規則での対応である。
【００７７】
実施例３によれば、１単語を除去した単語列の訳文を生成することに代えて、品詞調整手段３６で変更した品詞を除去した１単語に割当て原文の訳文を生成するので、翻訳対象とする文書の意味を保持した訳文が得られる。
【００７８】
（実施例４）
図１４は、本発明の実施例４に係る機械翻訳装置の機能ブロック図である。この実施例４は、図２に示した実施例１に対し、１単語を除いた単語列が構文解析に成功したときは、除去した１単語の前後ｍ語のｍ単語の単語列をコーパスから検索するコーパス検索手段を設けたものである。
【００７９】
コーパス検索手段３７は、記憶装置２６に記憶された図示省略のコーパス、通信制御装置２１を介して通信ネットワークに接続されたサーバのコーパスにアクセスして、除去した１単語の前後ｍ語のｍ単語の単語列をコーパスから検索する。
【００８０】
また、図１５は本発明の実施例４に係る機械翻訳装置の処理内容を示すフローチャートである。図３に示した実施例１のフローチャートに対し、ステップＳ１８〜Ｓ２４が追加されている。図２と同一要素には同一符号を付し、図３と同一ステップには同一符号を付し重複する説明は省略する。
【００８１】
実施例３では、除去した１単語の前後の品詞から除去した１単語の新たな品詞を推測したが、これは実際には高度な知識を要し、新たな品詞が得られない可能性もある。そこで、問題となった単語とその前後の並びが、英語の文書において頻度が低ければ、その例文だけ意味が解釈できればよいとし、特に辞書文法を拡張する必要もないと考えられる。一方、頻度が高ければ、その語を省かない原文を構文解析できるようにしておく必要がある。そこで、実施例４では、除去した１単語を扱うことが全体の辞書文法開発において、どの程度重要かの指針を与えることとする。
【００８２】
以下、例文として、図４の文番号２の原文を用いて説明する。文番号２の原文での除去した１単語はplacedであるとする。図１５のステップＳ９で構文解析に成功した単語列があるときは、構文解析に成功した単語列の訳文を生成し（Ｓ１０）、その後に、除去した１語の前後ｍ語のｍ単語の単語列を検索対象として設定する（Ｓ１８）。
【００８３】
すなわち、除去した１単語の前後m語を検索対象として設定する。例えば、除去した１単語を文頭からｎ番目の語として、wordnと表記すると、検索対象語は、wordn-m, wordn-m+1,….wordn-1, wordn(除去した１単語)、wordn+1,..wordn+mとなる。例えば、ｍを３に設定すると、除去した１単語がplacedであることから、“making it better placed to withstand shocks”が検索対象となる。
【００８４】
次に、検索対象につきコーパスの検索を実施し（Ｓ１９）、検索ヒット率は高いかを判断する（Ｓ２０）。検索ヒット率は、検索対象の語数を考慮して、コーパスにから検索されたヒット件数が予め設定した基準値を超えたか否かで、検索ヒット率が高いか低いかを判断する。検索ヒット率が高い場合は辞書文法の拡張が必要と判断する（Ｓ２１）。
【００８５】
一方、検索ヒット率が低い場合は、除去した１語の前後の単語を１からｍの範囲でずらしたものを検索対象としてコーパスの検索を実施する（Ｓ２２）。そして、検索ヒット率は高いかを判断し（Ｓ２３）、検索ヒット率が高い場合は辞書文法の拡張が必要と判断する（Ｓ２１）。一方、検索ヒット率が低い場合は辞書文法の拡張は必要なしと判断する（Ｓ２４）。
【００８６】
ステップＳ２２では、ｍ＝３とした場合には、３×３−１＝８通りの検索を試みることになる。この８通りは以下となる。
【００８７】
（１）better placed to withstand shocks (前１単語、後ろ３単語) 22
（２）better placed to withstand（前１単語、後ろ２単語）26,800
（３）better placed to (前１単語、後ろ１単語) 4,600,000
（４）it better placed to withstand shocks (前２単語、後ろ３単語) 1
（５）it better placed to withstand (前２単語、後ろ２単語) 1,820
（６）it better placed to (前２単語、後ろ１単語) 286,000
（７）making it better placed to withstand （前３単語、後ろ２単語）114
（８）making it better placed to (前３単語、後ろ１単語) 6,410
右の数字は、ある実際の検索サイトを使って検索した場合のヒット件数を示すものである。検索対象の単語の数が少ないほど、検索ヒット率が高まるのは当然である。しかし、検索対象の語数が同一であっても、検索ヒット率には大きな差があることがわかる。例えば、同じ４語であっても、making it better placed toは6,000台、it better placed to withstandは1,800台、better placed to withstand shocksは20程度と幅がある。３単語の場合はit better placed toが群を抜いて高く、辞書文法が扱えるようにする必要があると判断できる。このことから、検索対象の語数ごとに予め設定した基準値を決めておき、コーパスにから検索されたヒット件数がその基準値を超えたときに検索ヒット率が高いと判断する。
【００８８】
このように、検索ヒット率が高い検索語の組み合わせがあることになり、その組み合わせは辞書文法の拡張が必要と判断される。一方、検索ヒット率が高い検索語の組み合わせがない場合は、辞書文法の拡張必要なしという判断を下すことができる。
【００８９】
以上の説明では、除去した１単語の前後ｍ語のｍ単語の単語列を検索対象としたが、これに代えて、除去した１単語に先行するｉ個の単語、除去した１単語に後続するｊ個の単語、除去した１単語を任意の単語に置き換えたｉ＋ｊ＋１個の単語列を検索対象とすることも可能である。
【００９０】
ここでは、ｉ＝３、ｊ＝１であるとし、前の語３単語making it better、後ろ１単語 toを検索対象とする。図１６はその検索結果の一例の説明図である。ここで囲みのある単語は除去した１単語placedと同じ位置にある任意の単語である。図１６によれば、making it better (任意の単語) toの場合には、除去した１単語placedと同じ位置にableが起こりやすいことがわかる。任意の単語であるableの他の語としては、suited, adapted, equippedがあり、いずれも適合するといったニュアンスがある点で共通している。こうした情報は、”making it better placed to”を解釈するための文法を記述する上で参考となる情報である。
【００９１】
実施例４によれば、１単語を除いた単語列が構文解析に成功したときは、除去した１単語の前後ｍ語のｍ単語の単語列、または、除去した１単語に先行するｉ個の単語、除去した１単語に後続するｊ個の単語、除去した１単語を任意の単語に置き換えたｉ＋ｊ＋１個の単語列をコーパスから検索するので、除去した１単語（除去語）をどのように扱うことが全体の辞書文法開発においてどの程度重要かの指針を与えることができる。
【００９２】
（実施例５）
図１７は、本発明の実施例５に係る機械翻訳装置の機能ブロック図である。この実施例５は、図２に示した実施例１に対し、１単語を除いた単語列が構文解析に成功したときは、除去した１単語Ｂの直前の単語Ａと除去した単語Ｂとから構成される２語の単語列ＡＢ、または、除去した単語Ｂと除去した単語Ｂの直後の単語Cとから構成される２語の単語列ＢＣを見出し語とした品詞の辞書登録をユーザに問い合わせる辞書登録問い合わせ手段３８を設けたものである。
【００９３】
また、図１８は本発明の実施例５に係る機械翻訳装置の処理内容を示すフローチャートである。図３に示した実施例１のフローチャートに対し、ステップＳ２５が追加されている。図２と同一要素には同一符号を付し、図３と同一ステップには同一符号を付し重複する説明は省略する。
【００９４】
実施例５は、除去した１単語を適切な品詞として辞書に取り込むために辞書登録を行うものである。図１８のステップＳ９にて構文解析に成功した単語列がある場合、構文解析に成功するということは、除去した１単語をＢ、除去した１単語の直前の単語をＡ、除去した１単語の直後の単語をＣとすると、複合語ＡＢを直前の単語Ａと同一の品詞に割り当てるか、複合語ＢＣを直後の単語Cと同一の品詞に割り当てれば、構文解析が成功することを意味する。
【００９５】
以下、例文として、図４の文番号３の原文を用いて説明する。図４の文番号３の原文において、文書解析手段３０が単語doを省くと構文解析に成功するものとする。この場合、除去した１単語doの直前の単語は冠詞の”the”であり、直後の単語は名詞のstatementである。従って、機械的には、”the do”を冠詞として、あるいは、”do statement”を名詞として解釈すれば、全体の構文解析は成功する。
【００９６】
前者は英語として、適切とはいえないため後者をとる。つまり、”do statement”の品詞を名詞として、見出し語”do statement”を人間が与える訳語とともに辞書登録を行えるようにする。
【００９７】
すなわち、辞書登録問い合わせ手段３８は、文書解析手段３０により、１単語を除いた単語列が構文解析に成功したときは、図１９に示すような辞書登録問い合わせ画面を表示装置１８に表示出力する。図１９では、見出し語”do statement”を辞書登録するか否かの辞書登録問い合わせ画面を示している。これは、前述したように、”the do”を冠詞することは英語として、適切とはいえないためである。なお、”the do”を冠詞する辞書登録問い合わせ画面を表示するようにしてもよい。第１言語の知識を有するユーザは、”the do”を冠詞する辞書登録問い合わせ画面を見て、そのような辞書登録は適切でないと判断することになる。
【００９８】
実施例５によれば、除去した１単語Ｂの直前の単語Ａと除去した単語Ｂとから構成される２語の単語列ＡＢ、または、除去した単語Ｂと除去した単語Ｂの直後の単語Cとから構成される２語の単語列ＢＣを見出し語とした品詞の辞書登録をユーザに問い合わせるので、除去した１単語を適切な品詞として辞書登録することを促すことができる。これにより、機械翻訳装置のユーザあるいは開発者は翻訳辞書の増強を図ることができる。
【００９９】
本発明のいくつかの実施例を説明したが、これらの実施例は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施例は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施例やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【０１００】
１１…機械翻訳装置、１２…演算制御装置、１３…プロセッサ、１４…メモリ、１５…機械翻訳プログラム、１６…作業エリア、１７…出力装置、１８…表示装置、１９…印刷装置、２０…ディスクドライブ、２１…通信制御装置、２２…入力装置、２３…マウス、２４…キーボード、２５…ハードディスクドライブ(HDD)、２６…記憶装置、２７…入力処理部、２８…制御部、２９…文書記憶部、３０…文書解析手段、３１…翻訳辞書部、３２…出力処理部、３３…訳文生成手段、３４…第１言語単語除去手段、３５…単語重要度判定手段、３６…品詞調整手段、３７…コーパス検索手段、３８…辞書登録問い合わせ手段

【特許請求の範囲】
【請求項１】
機械翻訳プログラム、翻訳対象の第１言語の原文を翻訳目的の第２言語の訳文に翻訳するための機械翻訳辞書を記憶した記憶装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置において、前記機械翻訳プログラムは、
第１言語で表現された文書の各原文を構文解析する文書解析手段と、
前記文書解析手段で構文解析に成功したときは前記原文の訳文を生成する訳文生成手段と、
前記文書解析手段で構文解析に失敗したときは前記原文から１単語を除去した単語列を作成する第１言語単語除去手段とを備え、
前記文書解析手段は、前記第１言語単語除去手段で得られた１単語を除去した単語列を構文解析し、
前記訳文生成手段は、前記１単語を除去した単語列の構文解析に成功したときはその単語列の訳文を生成し、前記１単語を除去した単語列の構文解析に失敗したときは前記原文の不完全な訳文を生成する機械翻訳装置。
【請求項２】
前記文書解析手段で構文解析に成功した前記１単語を除去した単語列が複数あるときは、その複数の各単語列について除去した単語の重要度を判断する単語重要度判定手段を設け、
前記訳文生成手段は、前記単語重要度判定手段で除去した単語の重要度が最も低いと判定された単語列の訳文を生成する請求項１記載の機械翻訳装置。
【請求項３】
前記１単語を除去した単語列の構文解析に成功したときは、除去した単語の直前の単語の品詞と直後の単語の品詞とを参照し、それらの品詞の間に生起し得る品詞を前記機械翻訳辞書に基づいて抽出し、その生起し得る品詞に基づいて前記除去した１単語の品詞を変更する品詞調整手段を設け、
前記訳文生成手段は、前記１単語を除去した単語列の訳文を生成することに代えて、前記品詞調整手段で変更した品詞を前記除去した１単語に割当て前記原文の訳文を生成する請求項１記載の機械翻訳装置。
【請求項４】
前記１単語を除去した単語列が構文解析に成功したときは、除去した１単語の前後ｍ語のｍ単語の単語列、または、除去した１単語に先行するｉ個の単語、除去した１単語に後続するｊ個の単語、除去した１単語を任意の単語に置き換えたｉ＋ｊ＋１個の単語列をコーパスから検索するコーパス検索手段を備えた請求項１記載の機械翻訳装置。
【請求項５】
前記１単語を除去した単語列が構文解析に成功したときは、除去した１単語の直前の単語と除去した１単語とから構成される２語の単語列、または、除去した１単語と除去した１単語の直後の単語とから構成される２語の単語列を見出し語とした品詞の辞書登録をユーザに問い合わせる辞書登録問い合わせ手段を備えた請求項１記載の機械翻訳装置。
【請求項６】
機械翻訳プログラム、翻訳対象の第１言語の原文を翻訳目的の第２言語の訳文に翻訳するための機械翻訳辞書を記憶した記憶装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えたコンピュータを操作して、
入力装置から入力された第１言語で表現された文書の各原文を構文解析し、
前記原文の構文解析に成功したときは前記原文の訳文を生成し、
前記原文の構文解析に失敗したときは前記原文から１単語を除去した単語列を作成し、
前記１単語を除去した単語列を構文解析し、
前記１単語を除去した単語列の構文解析に成功したときはその単語列の訳文を生成し、
前記１単語を除去した単語列の構文解析に失敗したときは前記原文の不完全な訳文を生成する機械翻訳方法。
【請求項７】
機械翻訳プログラム、翻訳対象の第１言語の原文を翻訳目的の第２言語の訳文に翻訳するための機械翻訳辞書を記憶した記憶装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えたコンピュータに用いられ、前記コンピュータに、
入力装置から入力された第１言語で表現された文書の各原文を構文解析する機能と、
前記原文の構文解析に成功したときは前記原文の訳文を生成する機能と、
前記原文の構文解析に失敗したときは前記原文から１単語を除去した単語列を作成する機能と、
前記１単語を除去した単語列を構文解析する機能と、
前記１単語を除去した単語列の構文解析に成功したときはその単語列の訳文を生成する機能と、
前記１単語を除去した単語列の構文解析に失敗したときは前記原文の不完全な訳文を生成する機能とを実現させるための機械翻訳プログラム。

【図１】