機械翻訳システム及びそのためのコンピュータプログラム

【課題】翻訳可能な文の範囲を拡大できる機械翻訳装置を提供する。
【解決手段】機械翻訳システム３２は、入力文３０を翻訳する機械翻訳システムであって、翻訳可能文からなるコーパス４６と、入力文を翻訳する第１の機械翻訳装置４２とを含む。機械翻訳装置は、訳文の訳質の指標を出力する。機械翻訳システム３２はさらに、訳質が悪い場合には入力文３０と類似した文をコーパス４６から検索する類似文検索部４８と、類似文検索部４８により検索された文を翻訳する第２の機械翻訳装置５０とを含む。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は機械翻訳技術に関し、特に、話し言葉のように機械翻訳が困難な文を多く含む原文に対する翻訳性能を向上させるための技術に関する。
【背景技術】
【０００２】
音声翻訳は、音声発話をリアルタイムで翻訳して音声で出力することを目的とする。その構成技術には、音声認識、機械翻訳、及び音声合成がある。
【０００３】
音声翻訳における機械翻訳部は、音声認識部から出力される発話文を翻訳対象とする。しかしこれらの文は話し言葉特有の性質を有するため、その翻訳には困難が伴う。例えば、話し言葉発話には言いよどみ、言直し、繰返し、助詞省略などのような不適格性が多く出現する。これらの現象は形態素解析及び構文解析などの処理の精度低下を招く。加えて、話し言葉では様々な待遇表現が多用されるという点も言語現象を複雑にしている。例えば、話し言葉においては、「して下さい」「していただけませんか」「をお願いします」等と書き言葉ではあまり見られない様々な文末表現が出現する。
【０００４】
また音声認識に由来する問題点として、音声認識部から得られる発話が翻訳処理に適した「文」であるとは限らないことが挙げられる。音声認識では無音区間により発話を分割する。しかし話し言葉では、文中に長い無音区間が出現したり、文と文との間に短い無音区間が出現したりすることが多い。そのため、音声認識部から得られる発話は、意味的にまとまりのある文とは限らない。
【０００５】
こうした問題を解決するための一つの手段は、いわゆる前処理と呼ばれる技術である。これは、機械翻訳に与える前に、機械翻訳に有利な文となるように入力文を書換える技術をいう。これはまた、前編集とも呼ばれる。
【０００６】
前処理に関し、非特許文献１は、省略要素の補完、冗長表現の簡素化、構文組替えなどの変換規則を人手で作成し、入力文に適用することを試みている。また非特許文献２は、機械翻訳に与えられた長文の入力文を短文に分割することで機械翻訳の精度の向上を試みている。非特許文献３は、構文解析の失敗を導く現象として、倒置、省略、挿入、及び強調を取上げ、これらの現象を解消する書換え規則を適用することで構文解析の成功率向上を図っている。さらに非特許文献４は、表現の簡素化及び重要でない語の削除など、局所的な書換え規則を入力文に適用している。さらに非特許文献５は、無音区間の情報と、認識された発話のｎ−グラムとを利用して、意味的にまとまりのある文を得るために発話単位の接合及び分割を試みている。
【０００７】
【非特許文献１】白井諭他３名、「日英機械翻訳における原文自動書き換え型翻訳方式とその効果」、情報処理学会論文誌、３６（１）、１２−２１、１９９５年
【非特許文献２】金淵培他１名、「日英機械翻訳のための日本語長文自動短文分割と主語の補完」、情報処理学会論文誌、３５（６）、１０１８−１０２８、１９９４年
【非特許文献３】吉見毅彦他２名、「頑健な英日機械翻訳システム実現のための原文自動前編集」、自然言語処理、７（４）、９９−１１８、２０００年
【非特許文献４】ヤマモト、Ｋ．、「パラフレーザとトランスファとの相互作用による機械翻訳」、第１９回計算機言語国際大会（ＣＯＬＩＮＧ−２００２）、ｐｐ．１１０７−１１１３、２００２年（Yamamoto, K., "Machine Translation by Interaction between Paraphraser and Transfer." In Proc. of the 19th International Conference on Computational Linguistics (COLING-2002), pp. 1107-1113, 2002.）
【非特許文献５】竹澤寿幸他１名、「発話単位の分割または接合による言語処理単位への変換手法」、自然言語処理、６（２）、８０００３−９５、１９９９年
【０００８】
【非特許文献６】タケザワ、Ｔ．他４名、「実世界における旅行会話の言語翻訳のための、広範囲のバイリンガルコーパスに向けて」第３回ＬＲＥＣ−２００２予稿集、ｐｐ．１４７−１５２、２００２年（Takezawa， T. et al., "Toward a Broad-coverage Bilingual Corpus for Speech Translation of Travel Conversations in the Real World", In Proc. of the 3rd LREC， pp. 147-152, 2002）
【非特許文献７】タケザワ、Ｔ．他１名、「コーパスベースの発話翻訳のための機械翻訳を用いた２言語対話の収集」、Ｅｕｒｏｓｐｅｅｃｈ−２００３、ｐｐ．２７５７−２７６０、２００３年（Takezawa， T. et al., "Collecting Machine-Translation-Aided Bilingual Dialogues for Corpus-Based Speech Translation." In Eurospeech-2003, pp. 2757-2760, 2003）
【非特許文献８】キクイ、Ｇ．他３名、「発話間翻訳のためのコーパスの作成」、Ｅｕｒｏｓｐｅｅｃｈ−２００３予稿集、ｐｐ．３８１−３８４、２００３（Kikui, G. et al., "Creating Corpora for Speech-to-Speech Translation." In Eurospeech-2003, pp. 381-384, 2003）
【発明の開示】
【発明が解決しようとする課題】
【０００９】
しかし、上記した従来の技術では、前編集のための書換え規則を用意するために大きなコストがかかるという問題点がある。また、従来技術の大部分では、構文解析の情報も要するため、構文解析が正しく行なえないと正しい前処理を行なうことができないという問題点もある。話し言葉では、既に説明したように不適格性を含む入力文が大部分であり、構文解析の精度を高くすることはむずかしく、その点で上記した従来技術を話し言葉翻訳に有効に適用することは困難である。
【００１０】
それゆえに本発明の目的は、話し言葉のように不適格性を多く含む入力文を対象とする場合であっても翻訳可能な文の範囲を拡大できる機械翻訳システムを提供することである。
【課題を解決するための手段】
【００１１】
本発明の第１の局面に係る機械翻訳システムは、第１の言語の入力文を第２の言語に翻訳するための機械翻訳システムであって、第２の言語への翻訳が可能であるとして予め選択された、第１の言語の複数の文を含む第１のコーパスと、入力文を第２の言語に翻訳するための第１の機械翻訳手段と、第１の機械翻訳手段による訳文の訳質の指標を出力するための指標出力手段と、指標出力手段の出力する指標が訳質が悪いことを示す所定の条件に合致することに応答して、入力文と所定の関係にある文を第１のコーパスから検索するための検索手段と、検索手段により検索された文を第２の言語に翻訳するための第２の機械翻訳手段とを含む。
【００１２】
第１の機械翻訳手段の訳質の指標により訳質が悪い場合、入力文に対し所定の関係にある文を第１のコーパスから検索し、その文を第２の機械翻訳手段によって翻訳して入力文に対する訳文とする。第１のコーパス中の文は翻訳可能として選ばれた文であるから、第２の機械翻訳手段により翻訳できる可能性が高い。第１の機械翻訳手段の訳質が悪い場合でも、入力文と所定の関係にある文に対する翻訳で訳文が置換えられるので、訳質が悪い翻訳をそのまま出力することが避けられる。その結果、機械翻訳システムで翻訳可能な入力文の範囲を、第１の機械翻訳手段により翻訳可能な文の範囲と比較して広げることができる。
【００１３】
好ましくは、検索手段は、指標出力手段の出力する指標が所定の条件に合致していることに応答して、入力文との間で所定の算出方式に従い算出される類似度によって最も入力文と類似していると判定される文を第１のコーパスから検索するための類似文検索手段を含む。
【００１４】
第１の機械翻訳手段による訳質が悪い場合、入力文に対し最も類似している文を第１のコーパスから検索しそれを第２の機械翻訳手段により翻訳する。入力文に最も類似している文を第２の機械翻訳手段で訳すため、その結果得られる訳文は入力文に対する訳文と同様の内容を表す。第１の機械翻訳手段による訳質の悪い翻訳をそのまま出さず、かつ第２の機械翻訳によって得られた、入力文とほぼ同じ内容の訳文を出力できる。
【００１５】
さらに好ましくは、類似文検索手段は、第１のコーパスに含まれる複数の文の各々と、入力文との間の共通部分に基づいて定義される類似度を算出するための類似度算出手段と、類似度算出手段により算出された類似度に基づき、最も入力文と類似していると判定された文を第１のコーパスより抽出するための手段とを含む。
【００１６】
入力文と第１のコーパスの各文とが類似しているか否かが、入力文との間の共通部分に基づいて定義される類似度で表される。実験結果から、このように定義した類似度により、入力文とよく似た内容の文を第１のコーパスから検索できることが分かっている。
【００１７】
より好ましくは、類似度算出手段は、入力文の単語数、候補文の単語数、及び入力文及び候補文に共通する単語数を算出するための単語数算出手段と、入力文と、類似度の算出対象となる候補文との間の類似度を、次の式
適合率＝（入力文と候補文に共通する単語数）／候補文の単語数
再現率＝（入力文と候補文に共通する単語数）／入力文の単語数
で定義される適合率と再現率との双方の関数として算出するための手段を含む。
【００１８】
適合率と再現率との関数を用いれば、入力文と候補文との間で共通する部分の大きさを的確に表した類似度を算出できる。
【００１９】
単語数算出手段は、入力文の単語数、候補文の単語数、並びに入力文及び候補文に共通する単語数を、各単語の種類に従って予め定められる重みを乗じて算出するための手段を含んでもよい。
【００２０】
単語の種類によって、文の内容を表す際の重みを変える。その結果、例えば文の内容を表す上で重要な種類の単語と、そうでない単語との重みを区別でき、目的に応じて適切な候補文を検索するための類似度が算出できる。
【００２１】
好ましくは、算出するための手段は、入力文の単語数、候補文の単語数並びに入力文及び候補文に共通する単語数を、内容語には予め定める第１の重みを、機能語には予め定める第２の重みを、それぞれ乗じて算出するための手段を含み、第２の重みは、第１の重みよりも小さな正の値である。
【００２２】
内容語の方が、機能語と比較して文の内容を表す上でより重要と考えられる。そこでこのように内容語に対する第１の重みを機能語に対する第２の重みより大きくすることで、文の内容に重点をおいて入力文に類似する候補文を検索できる。
【００２３】
さらに好ましくは、単語数算出手段は、入力文の単語数、候補文の単語数、並びに入力文及び候補文に共通する単語数を、文中のｎ−グラム数（ｎ＞０）により算出するための手段を含む。ｎの値は実験により定めることが好ましく、例えばｎ＝１でもよく、ｎ＝２でもよい。
【００２４】
このようにｎ−グラムによって単語数を算出すると良い結果が得られることが実験により分かっている。
【００２５】
好ましくは、単語数算出手段は、入力文の単語数及び候補文の単語数をそれぞれ算出するための手段と、入力文及び候補文に共通する単語数を、入力文及び候補文の双方に共通して、一致した順序で出現する単語数により算出するための手段とを含む。
【００２６】
共通単語数をこのように算出した場合にも比較的良い結果が得られることが実験により分かっている。
【００２７】
さらに好ましくは、類似度算出手段は、入力文と、候補文との間の類似度を以下の式
類似度＝２×適合率×再現率／（適合率＋再現率）
に従って算出するための手段を含む。
【００２８】
このようにして定めた類似度を用いて検索した文は、入力文に対し類似した内容を表すものであることが多いことが実験により分かった。従ってこの類似度を用いることで第１の機械翻訳手段では良好な翻訳が得られない場合でも、入力文と同様の内容を表す訳文を第２の機械翻訳手段の翻訳により得ることができる。
【００２９】
より好ましくは、類似文検索手段はさらに、入力文に含まれない内容語を含む候補文を抽出するための手段による抽出の対象から除外するための手段を含む。
【００３０】
このように入力文に含まれない内容語は、文の意味に対し不必要な限定を付加するものであることが多い。そうした内容語を含む候補文を除外することで、最終的に得られる訳文が入力文の内容を的確に伝えるものとなる確率を上げることができる。
【００３１】
好ましくは、抽出するための手段は、類似度算出手段により算出された類似度に基づき、最も入力文と類似していると判定され、かつ入力文に含まれない内容語を含まない候補文であって、かつ以下の条件
（１）入力文に含まれる内容語のうち、候補文にない内容語が１語以内である、又は
（２）入力文と共通する内容語が２語以上である、
のいずれかを充足する候補文を第１のコーパスより抽出するための手段を含む。
【００３２】
実験では、このような条件を付した場合に最もよい結果が得られた。
【００３３】
さらに好ましくは、第１の機械翻訳手段は、互いに良好な訳である第１の言語の文と第２の言語の文とからなる用例を複数個含む２言語用例コーパスと、所定の類似基準に従って入力文との間で最も類似している第１の言語の文を含む用例を２言語用例コーパスから検索するための手段と、検索するための手段により検索された第１の言語の文の対訳である第２の言語の文を、検索するための手段により検索された第１の言語の文及び入力文の間の相違に基づき修正することにより、入力文の翻訳を行なう用例翻訳手段とを含み、指標出力手段は、検索するための手段によって検索された第１の言語の文と入力文との間で定義される所定の類似度が、予め定める基準を充足しているか否かを判定し、判定結果を指標として出力するための手段を含む。
【００３４】
第１の機械翻訳手段として用例翻訳手段を用いることで、用例翻訳における用例文検索の過程で得られた類似度を訳質の指標として用いることが可能になる。訳質を評価するために独立した機能モジュールは必要ない。
【００３５】
より好ましくは、第１の機械翻訳手段と第２の機械翻訳手段とが同一の機械翻訳手段により実現される。
【００３６】
第１の機械翻訳手段と第２の機械翻訳手段とを同一の機械翻訳手段により実現することで、翻訳に必要な資源の増大を防ぎながら、翻訳可能な文の範囲を広げることができる。
【００３７】
本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの機械翻訳システムとして動作させるものである。
【発明を実施するための最良の形態】
【００３８】
本実施の形態に係る機械翻訳システムは、音声翻訳において、翻訳が困難と判定される発話文について、予め準備した翻訳可能文のコーパスからその文に類似する文を検索することにより、機械翻訳可能な文の範囲を拡大させるシステムである。以下、この実施の形態に係る機械翻訳システムの構成及び動作の順に説明する。なお、以下の説明において同一の部品には同一の参照番号を付してある。それらの名称及び機能もそれぞれ同一である。従ってそれらについての詳細な説明は繰返さない。
【００３９】
なお、以下の実施の形態のシステムの構成の説明中では、予備実験の結果に従って予め決定したパラメータ値を用いている。それらの予備実験は日本語を対象として行なっており、実験では２種類の日本語コーパスを用いた。入力文の集合である発話コーパスと、入力文との類似文を検索する基となる候補文の集合体である候補文コーパスとである。
【００４０】
発話コーパスには、旅行中のある状況を想定して行なわれた対話を書き起こして作成した発話コーパス（非特許文献７）から抽出した４３７文の異なり文を用いた（第１の発話コーパス）。非特許文献７の発話コーパスのうち、第１の発話コーパス以外の部分（第２の発話コーパス）は最後に説明する実験に使用している。候補文コーパスには、旅行会話の基本的な表現を収録したコーパス（非特許文献８記載）を使用した（第１の基本表現コーパス）。第１の基本表現コーパスには異なりで１７６，１４５文が含まれている。
【００４１】
［構成］
図１は、本発明の一実施の形態に係る機械翻訳システム３２のブロック図である。図１を参照して、この機械翻訳システム３２は、日本語の入力文３０を英語に翻訳することを試み、翻訳可能であれば出力文３４を出力し、さらに翻訳が不可能であるか否かを示す翻訳可否信号３６を出力するものである。後述するようにこの機械翻訳システム３２は、コンピュータシステム及びその上で実行されるコンピュータプログラムにより実現可能である。
【００４２】
機械翻訳システム３２は、用例に基づく機械翻訳システム（用例翻訳システム）であって、日本語の文（これを用例文と呼ぶ。）とそれに対する英語の訳との対を多数含むコンピュータ読取可能な２言語用例コーパス（以下単に「用例コーパス」と呼ぶ。）４０と、入力文３０に類似する日本語文を用例コーパス４０の中で検索し、検索された日本語文に対する英語訳を、入力文３０と検索された用例文との相違に基づいて修正することによって入力文３０の翻訳を行ない翻訳結果５８を出力するとともに、検索された用例文と入力文３０との類似度が所定の値を上回っているか否かを表す判定信号を出力するための機械翻訳装置４２とを含む。なお機械翻訳装置４２で使用する類似度は正の値であり、値が小さいほど用例文と入力文３０とが類似していることを示す。
【００４３】
本実施の形態では、用例翻訳を用いているため、入力文とよく似た用例文が見つかれば訳質の高い翻訳が得られる可能性が高い。用例文が入力文に似ていなければ、一般的に訳質が低くなる。そこで、この類似度を翻訳結果の訳質の指標として用いる。
【００４４】
機械翻訳装置４２は、この検索にあたって、入力文３０と用例文との間の類似度を、単語を単位とした編集距離（入力文３０を用例文に変換するまでに必要な、単語の削除、挿入、及び置換数）に基づいて算出する。従って本実施の形態では、一致する文同士の類似度は０となる。判定信号６０は、検索された用例文の類似度が規定の基準を上回っている場合、すなわち検索された用例文と入力文３０とがそれほど類似していない場合には論理１レベルとなり、それ以外の場合には論理０レベルとなる。さらにこの編集距離は、単語の意味的な距離により補正される。すなわち、意味的に近い関係にある２語の置換は、その意味的な距離が近いほど編集距離が小さくなるように補正される。機械翻訳システム３２は、この補正処理を行なうために、コンピュータ読取可能なシソーラス４４を含む。すなわち、意味的に近い関係にある２語の置換は、シソーラス上の各語の階層の差の大きさに応じて重みを減少させる。
【００４５】
機械翻訳システム３２はさらに、予め準備された、翻訳可能な文の集まりからなるコンピュータ読取可能な翻訳可能文コーパス４６と、入力文３０と判定信号６０とを受けるように接続され、判定信号６０が論理１レベルであるとき（すなわち機械翻訳装置４２による翻訳が不可能と判定されたとき）に、入力文３０に最も類似する文であってかつ類似度が所定の値より小さい類似文６２を翻訳可能文コーパス４６から検索して出力し、あわせて上記した条件を充足する類似文６２が検索されたか否かを示す検索結果信号６４を出力するための類似文検索部４８とを含む。検索結果信号６４は、上記した条件を充足する文があったときには論理０レベルをとり、なかったときには論理１レベルをとる。
【００４６】
機械翻訳システム３２はさらに、用例コーパス４０及び日本語シソーラス４４に接続され、かつ機械翻訳装置４２から判定信号６０を、類似文検索部４８から類似文６２及び検索結果信号６４を、それぞれ受けるように接続され、検索結果信号６４が論理０レベルであるとき（すなわち所定の条件を充足する類似文６２が検索されたとき）に、機械翻訳装置４２と同様にして用例コーパス４０及び日本語シソーラス４４を用いて類似文６２に対する用例翻訳を行ない、翻訳結果６６及び翻訳ができたか否かを表す翻訳可否信号６８を出力するための機械翻訳装置５０とを含む。翻訳可否信号６８は、機械翻訳装置５０による翻訳が不可能である場合には論理１レベルをとり、可能である場合には論理０レベルをとる。翻訳可能文コーパス４６に、機械翻訳装置５０では翻訳できない文が入っている可能性もあるため、このように翻訳可否信号６８により実際に機械翻訳装置５０による翻訳ができたか否かを表示する。
【００４７】
機械翻訳システム３２はさらに、翻訳可否信号６８と検索結果信号６４とをそれぞれ受けるように接続された二つの入力を持つＡＮＤゲート５４と、機械翻訳装置４２からの翻訳結果５８と機械翻訳装置５０からの翻訳結果６６とを受けるように接続され、判定信号６０が論理０レベルのときは翻訳結果５８を、それ以外のときには翻訳結果６６を、それぞれ選択して出力文３４として出力するための選択部５２とを含む。
【００４８】
図２は、図１に示す類似文検索部４８による処理を説明するための模式図である。図２を参照して、一般に、機械翻訳システム３２への入力文は、用例コーパス４０（図１参照）を用いた用例翻訳が可能な文からなる翻訳可能文集合８０と、翻訳が不可能な文からなる翻訳不能文集合８２とに分けられる。図１に示す機械翻訳装置４２による入力文３０の翻訳が不能と判定された場合、すなわち入力文３０が翻訳不能文集合８２に属する場合、類似文検索部４８の類似文検索技術８４によって、予め準備した翻訳可能文コーパス４６から、入力文３０に類似した文を検索する。すなわち、類似文検索技術８４は、翻訳不能文９０、９２、９４、９６、９８等を、（もしあれば）それらに類似する翻訳可能文１００、１０２、又は１０４に置換することにより、本来翻訳不能文であった入力文３０の翻訳を可能とする技術である。これにより、機械翻訳システム３２による翻訳可能な文の範囲が広がることになる。
【００４９】
図３は、図１に示す類似文検索部４８の構成を示す図である。図３を参照して、類似文検索部４８は、入力文３０と翻訳可能文コーパス４６中の全ての文とを順次選択するための選択部１１０と、選択部１１０の出力する文に対して形態素解析を行なうための形態素解析部１１２と、形態素解析部１１２が形態素解析を行なう際に使用する単語情報を記憶するためのコンピュータ読取可能な辞書１１４と、形態素解析部１１２による入力文３０の解析結果を第１の出力に、翻訳可能文コーパス４６の各文の解析結果を第２の出力に、それぞれ分岐させるための分岐部１１６と、分岐部１１６の第１の出力に接続され、分岐部１１６から出力される入力文３０の形態素解析結果を記憶するための入力文記憶部１１８と、分岐部１１６の第２の出力に接続され、翻訳可能文コーパス４６の各文（以下「候補文」と呼ぶ。）に対する形態素解析結果と、入力文記憶部１１８に記憶された入力文３０に対する形態素解析結果との間で類似度を算出するための類似度算出部１２０とを含む。
【００５０】
形態素解析部１１２が行なう形態素解析では、数字列は特殊記号を用いて汎化される。名詞には地名、組織名、人名などの属性情報が付与されるので、これらの名詞も属性情報を用いて汎化される。類似文検索処理で２語が一致していると認定されるためには、語の基本形か属性情報が一致し、かつ品詞も一致することが必要十分条件である。
【００５１】
本実施の形態では、類似度算出部１２０による類似度算出は、入力文３０と候補文との間の共通部分が入力文３０と候補文との双方に対して占める比率を基として行なう。共通部分が双方の文に対して占める比率が高いほど、入力文３０に対するその候補文の類似度が高くなる。本実施の形態では、類似度としてＦ値を用いる。Ｆ値は以下の式（１）により定義される。
【００５２】
Ｆ値＝２ＰＲ／（Ｐ＋Ｒ）（１）
ただし
Ｐ（適合率）＝入力文と候補文に共通する単語数／候補文の単語数
Ｒ（再現率）＝入力文と候補文に共通する単語数／入力文の単語数
２文間の共通部分の定義としては、一般にｎ−グラム、単語列、単語集合の３方式がよく用いられる。本実施の形態では、ｎ−グラムを用いて共通部分を定義する。この方式については後述する。
【００５３】
図３を参照して、本実施の形態ではさらに、共通する単語数の算出においては、内容語に対する機能語の重みを変えている。この重みは正の値である。またこの重みは可変であることが望ましい。そのために類似文検索部４８は、類似度算出部１２０に接続され、機能語に対する重みを記憶し類似度算出部１２０に与えるための機能語重み記憶部１２８を含む。
【００５４】
類似文検索部４８はさらに、類似度算出部１２０によって、翻訳可能文コーパス４６に含まれる各文と入力文３０との間で算出された類似度を形態素解析結果とともに記憶するための記憶部１２２と、入力文記憶部１１８に記憶された入力文３０の形態素解析結果と、記憶部１２２に記憶された、翻訳可能文コーパス４６の各文の形態素解析結果とに基づいて、入力文３０にない内容語を含む候補文を除外する処理を行なうための除外処理部１２４と、除外処理部１２４による除外がされなかった候補文のうちで、入力文３０に最も類似する候補文であって、かつ（１）入力文に含まれる内容語のうち、候補文にない内容語が１語以内であるか、又は（２）入力文と共通する内容語が２語以上であること、という条件を満たすものを類似文６２として出力するとともに、上記条件を満たす類似文が存在したか否かを検索結果信号６４として出力するための選択処理部１２６と、判定信号６０の値が論理１レベルである場合に、類似文検索部４８の各機能部を制御して、入力文３０と最も類似する文を翻訳可能文コーパス４６から検索するように動作させるためのシーケンス制御部１３０とを含む。
【００５５】
類似文検索部４８による類似文の検索では、上記したように様々な条件を課したり、特定の方式を採用したりしている。これは、実際に種々の実験をした結果、上記した条件を課したり方式を採用したりしたことにより得られた類似文から、最終的に入力文３０に対する好ましい訳文を得ることができる可能性が高いということが判明したためである。以下、各条件について説明する。
【００５６】
なお、以下の説明では類似文について種々の評価をしている。その評価基準を図４に示す。評価基準は、対話の場面においてどの程度まで入力文の代用文としての役割を果たすかという観点により定めた。図４に示すように、評価ランクは、代用できる度合いが高い順にＡ１，Ａ２，Ｂ１，Ｂ２の４段階である。検索された文のうちＡ１，Ａ２ランクの文が類似文として適切とされ、Ｂ１，Ｂ２の文は不適切とされる。
【００５７】
図４中、「代用文としての評価」は、検索された文を入力文の代用文として用いた場合に果たす役割の目安を表す。代用文としての適性は主に「意味的差異」を判断基準とし、丁寧度などの副次的情報は評価対象としない。
【００５８】
評価例を図５に示す。例１の候補文は、表現の違いはあるものの入力文と同じ意味を表しており、評価はＡ１となる。例２の候補文は複文からなる入力文の主文部分であり、主要な部分を捉えているといえる。ただし、主文の要求の原因を示す副文が欠落しているために評価Ａ２となる。例３の候補文は複文からなる入力文の副文部分であり、主要部分を表していないため評価Ｂ１となる。例４の候補文は主文を捉えているが重要な目的語が欠落しているため評価Ｂ１となる。例５の候補文は「明日は」という入力文にない条件を付加している。このような条件は、会話においては重大かつ発見が困難な誤解である。従って例５の評価はＢ２となる。例６の候補文はモダリティという基本レベルで入力文と異なるため、評価はＢ２となる。
【００５９】
＜類似度算出方式＞
類似文検索部４８の類似度算出部１２０による類似度算出の基本方式として、前述したとおりＦ値を用いる。その差異の入力文と候補文との共通部分の定義として、ｎ−グラム、単語列、又は単語集合を用いるものがある。本実施の形態ではｎ−グラムを用いている。以下、ｎ−グラムを用いた類似度算出方式について説明する。
【００６０】
ｎ−グラムによる方式では、入力文と候補文とで共通するｎ−グラムを基に類似度を算出する。この算出では各ｎ−グラムに対して重み付けを行なう。本実施の形態では、この重みとして、ＢＬＥＵと呼ばれる翻訳文自動評価方式で採用されているものと同じ式を採用した。すなわち本実施の形態では、例えば適合率Ｐは以下の式で算出される。
【００６１】
【数１】

ただしｐ_nは各ｎにおける適合率を表しており、下式で表される。
【００６２】
【数２】

Count(x)は候補文ｘ中の頻度、Count_clip(x)は、入力文中のｘの頻度と候補文中のｘの頻度のいずれか少ない方を表す。再現率もこれと同様の考え方で算出される。
【００６３】
なお、本実施の形態ではｎ−グラムとしてバイグラムまでを用いる。ｎの大きさは、適用対象となる翻訳のドメインの性質（構成単語数）によって異なる。旅行会話などであれｎ＝２まで、新聞記事などの場合であればｎ＝４程度がよいと考えられる。
【００６４】
比較のため、類似度算出方式として、共通部分の定義として単語列を用いる方式（最長共通単語列に基づく方式）について説明する。この方式は、入力文と候補文との間でＤＰ（Dynamic Programming）マッチングを行なって得られる最長共通単語列を利用して類似度を算出する。端的に言えば、語順を考慮した上での共通単語を抽出するという方式である。
【００６５】
ＤＰマッチングを利用した方式では、編集距離を用いる方式が多く用いられるが、ここでは「共通部分に基づく類似度」を基本としているため、この最長共通単語列について考える。編集距離と最長共通単語列は相補的な関係にあり、入力文との編集距離が最も大きい候補文は最長共通単語列が短くなるという性質がある。なお、予備実験において、編集距離に基づく方式と最長共通単語列に基づく方式とではほとんど性能差がないことが判明している。
【００６６】
また、３基本方式のうち、単語集合に基づくものは、文を単語集合とみなし、入力文と候補文との両方で共通する単語数を共通部分とする方式である。この方式は、ｎ−グラム方式においてｎ＝１とした場合に相当する。
【００６７】
図６に、各基本方式によるＦ値算出例を示す。なお、図６の単語列方式において、共通単語として「です」が除外されているが、これは「です」の位置が入力文と候補文との間で大きく異なっており、ＤＰマッチングの過程で採用されなかったためである。
【００６８】
＜入力文にない内容語を含む候補文の除外＞
除外処理部１２４では、入力文にない内容語を含んだ候補文は類似文として採用されず除外されている。これは、予備実験より、そのような候補文は入力文の代用とならない場合が多く生じることが判明したためである。余剰内容語を含む候補文は、入力文の文意をさらに限定したものであることが多く、その場合には入力文を候補文と置換えると誤解を生じる危険性が高い。
【００６９】
図７に、余剰内容語を含むことで不適切となる候補文の例を示す。例１では、候補文には「現金」という内容語が加わり「クレジットカード」が欠落している。この例では、入力文と候補文との意味は全く異なったものとなっている。例２では、候補文の方に「七時」という内容語が追加されているが、これにより入力文の文意に重大な制約条件を付与してしまっている。例３の場合にも、候補文に加わっている「中華」という内容語は、入力文の文意に不適切な制約を課してしまっている。
【００７０】
上記した各基本方式について余剰内容語を含む候補文を検索対象とする方式（余剰内容語あり）としない方式（余剰内容語なし）で類似文を検索し、評価を行なった。ここで、内容語は名詞、動詞、形容詞、数字、ローマ字などと定義し、機能語は、判定詞、助詞、助動詞、接続詞、副詞、感動詞などと定義している。サ変動詞「する」はほとんど具体的意味を表していないと考えられるので、機能語として扱った。実験結果を図８に示す。
【００７１】
図８を参照して、どの方式を用いても、余剰内容語を含まないという制約を課すことにより、検索精度に８％の改善が見られる。
【００７２】
＜内容語と機能語の重み付け＞
話し言葉を対象として、共通単語により２文間の類似度を測る場合、内容語と比較すると機能語の価値は低いと考えられる。その理由として、話し言葉では助詞の欠落や多様な文末表現により表されるように、機能語の多様性が大きいことが挙げられる。同じ意味を表す機能語が多様な表現をとる場合、入力文と候補文との間における機能語の一致度の大小は有効な指標とはならない。また、旅行会話のように会話内容が大体定まっているドメインでは、含まれる内容語によりそれらの関係、格関係や修飾関係、はほとんど一意に定まることが多い。例えば、（泥棒、私、財布、盗む）という内容語を含む文には、理論的には様々な意味の文が考えられるが、実際には「泥棒が私の財布を盗んだ」という文以外はほとんど起こりえない。つまり、内容語集合により自ずとそれらの関係が限定されるなら、機能語の果たす役割は小さくなる。
【００７３】
以上から、類似文の検索のための類似度の算出においては、内容語に対する重みと比較すると機能語の重みを小さくすることが望ましいと考えられる。実際に、内容語の重みを１とし、機能語の重みを内容語と同じ１とした場合と０．４とした場合とで、検索精度を比較する実験を行なった。ｎ−グラム方式のバイグラムにおいては、バイグラムを構成する２単語が共に機能語である場合だけ重みを０．４、それ以外の場合を１とした。実験結果を図９に示す。
【００７４】
図９を参照して、いずれの方式においても検索精度が１〜２％程度向上している。端的にいえば、機能語の重みを減らすことで主要な情報を多く共通する候補文を優先する効果がある。この効果が現れた事例を図１０に示す。
【００７５】
図１０において、検索文中の共通単語を太字で表している。機能語の重みを減らすことにより、文末部分が異なるものの主要な情報を全て含んだ文を出力することができている。
【００７６】
実験により、基本方式にｎ−グラム方式を採用した上で、入力文にない内容語を含む候補文の除外と機能語の重み減少とを採用した場合に、最も高い正解率が得られた。本実施の形態の構成は、その場合に対応している。なお、この処理での機能語の重みの値（本実施の形態では０．４）は図３に示す機能語重み記憶部１２８に記憶される。
【００７７】
＜選択処理部１２６による候補文の選択＞
候補文の集合として用いる翻訳可能文コーパス４６は、入力文３０として現れる発話を全て網羅しているわけではない。翻訳可能文コーパス４６中の文では代用できない入力文３０が与えられる場合も多いと考えられる。従って、検索された文を類似文として認定する条件を設け、類似度が高い文であっても条件を満足しない場合は類似文として選択しないようにする必要がある。前述したとおり、選択処理部１２６は、次の二つの条件のいずれかを満たす候補文のみを類似文として選択する。以下、これら条件を採用した理由について説明する。
【００７８】
（１）入力文と比較して候補文に不足している内容語の数が１語以下
（２）入力文と候補文とで共通する語数が２語以上
入力文では、入力文にない内容語を持つ候補文は除外するというヒューリスティックを導入した。従って、検索された候補文が持つ内容語集合は常に入力文３０の内容語集合の部分集合である。検索された候補文の内容語集合を基に類似度を考えると、最も一致度が高いのは両文の内容語集合が一致する場合である。そして、検索された文に不足する内容語の数が増加するに従って類似度が下がっていく。
【００７９】
検索された候補文について、入力文と比較して不足している内容語の数と、その正解率との関係を図１１に示す。入力文と検索された候補文との間で内容語集合が一致している場合は正解率は８９．１％という高い値となっている。不足する内容語の数が増えると正解率が大きく減少していく。不足内容語数が２以上の場合には正解率が５０％を下回り、十分な精度といえない。そこで、上記した（１）の条件を課すことにした。
【００８０】
次に、条件（２）について考える。類似文は入力文の大意を表す文であればよいという観点から考えると、検索された候補文と入力文との、大意を表す部分についての内容語が共通していれば、他の部分の内容語が共通していなくても十分であると考えられる。従って、候補文と入力文とで共通する内容語の数（以下「共通内容語数」）により類似文の判定ができると考えられる。
【００８１】
図１２に、共通内容語数と、それに対する検索された候補文の正解率との関係を示す。図１２から、大きな傾向として、共通内容語数が増えると正解率は向上する。ただしその傾きは緩やかである。不足している内容語数に関する条件（１）では、境界の正解率は５８．８％であった。そこで、図１２から、この正解率に近い条件として、共通内容語数が２語以上の候補文のみ、類似文として選択することとする。共通内容語数が２語の場合の正解率は、６３．０％である。
【００８２】
［動作］
以上に構成を述べた本実施の形態に係る機械翻訳システム３２は、以下のように動作する。図１を参照して、予め用例コーパス４０及びシソーラス４４、並びに翻訳可能文コーパス４６が準備されているものとする。機械翻訳装置４２は、日本語の入力文３０が与えられると、シソーラス４４を参照して用例コーパス４０中の各用例のうちで入力文３０に最も類似した日本語文を持つ用例文を検索する。この検索では、入力文３０と各用例文の日本語文との間の編集距離が最も近い用例文が検索される。ただし、編集距離算出の際、語の置換については、シソーラス４４を参照して得られる、置換される２語間の意味的距離により編集距離の重み付けがなされる。このようにして算出された編集距離が、入力文３０と用例文との類似度となる。
【００８３】
機械翻訳装置４２は、検索された用例文のうち類似度が最も小さなものを選択する。機械翻訳装置４２はこの際、選択された用例文の類似度が所定の値を上回っていれば、すなわち選択された用例文と入力文３０とがそれほど類似していない場合には判定信号６０の値を論理１レベルとし、それ以外の場合には論理０レベルとする。
【００８４】
機械翻訳装置４２は、選択された用例文と入力文３０との類似度が所定の値以下であれば、用例文の英語部分を、入力文３０と用例文の日本語部分との相違に基づいて修正することで入力文３０の翻訳文を生成し、翻訳結果５８を出力する。翻訳結果５８は選択部５２に与えられる。
【００８５】
判定信号６０の値が論理０レベルの場合、選択部５２は翻訳結果５８を選択して出力文３４として出力する。
【００８６】
判定信号６０の値が論理１レベルの場合には、次のような処理が行なわれる。類似文検索部４８は、入力文３０と類似する候補文を翻訳可能文コーパス４６の中から検索する。すなわち、図３を参照して、選択部１１０は、シーケンス制御部１３０の制御に従い、まず入力文３０を選択し、形態素解析部１１２に与える。形態素解析部１１２は辞書１１４を参照して入力文３０を形態素解析し、単語列に分解して分岐部１１６に与える。この際、各単語には辞書１１４を参照して得られる各種の情報が付与される。分岐部１１６は、シーケンス制御部１３０の制御に従い、形態素解析部１１２の出力する単語列を入力文記憶部１１８に与える。入力文記憶部１１８はこの単語列を格納する。
【００８７】
次に選択部１１０は、シーケンス制御部１３０の制御に従い、翻訳可能文コーパス４６に含まれる用例文のうち１番目の日本語部分を読出し、形態素解析部１１２に与える。形態素解析部１１２はこの日本語部分を辞書１１４を参照して形態素解析し、得られた単語列を分岐部１１６に与える。この場合も、各単語には属性情報が付与される。分岐部１１６は、シーケンス制御部１３０の制御に従い、今度はこの単語列を類似度算出部１２０に与える。
【００８８】
類似度算出部１２０は、分岐部１１６から与えられる用例文の形態素解析結果と入力文記憶部１１８に記憶された入力文３０の形態素解析結果とに基づき、式（１）に示すｎ−グラムを用いた類似度算出方式に従い、入力文３０と翻訳可能文コーパス４６の１番目の候補文との類似度を算出し、記憶部１２２に与える。このとき、類似度算出における入力文３０と候補文との共通単語数のうち、機能語数には、機能語重み記憶部１２８に記憶された値が重みとして乗じられる。記憶部１２２はこの類似度を、１番目の候補文の形態素解析結果とともに記憶する。
【００８９】
以下、シーケンス制御部１３０の制御に従い、翻訳可能文コーパス４６に記憶されている各候補文が形態素解析部１１２により形態素解析され、入力文３０との間の類似度が類似度算出部１２０により算出される。その結果得られた各候補文の類似度が、その候補文の形態素解析結果とともに記憶部１２２に記憶される。
【００９０】
全ての候補文について類似度が算出されると、除外処理部１２４が入力文記憶部１１８に記憶された入力文３０の形態素解析結果を参照し、候補文の中で入力文３０にない内容語を日本語部分に含む候補文を除外し、それ以外の候補文と類似度とを選択処理部１２６に与える。選択処理部１２６は、与えられた候補文のうち、（１）入力文に含まれる内容語のうちで候補文にない内容語が１語以内であること、又は（２）入力文と共通する内容語が２語以上であること、という前述の条件を満たし、かつ入力文３０に最も類似する候補文を類似文６２として出力するとともに、上記条件を満たす類似文が存在したか否かを検索結果信号６４として出力する。検索結果信号６４は、上記した条件を充足する文があったときには論理０レベルをとり、なかったときには論理１レベルをとる。
【００９１】
再び図１を参照して、機械翻訳装置５０は、検索結果信号６４が論理０レベルであるときは、類似文検索部４８からの類似文６２に対し、用例コーパス４０及びシソーラス４４を用いた用例翻訳を行なう。この用例翻訳処理は、機械翻訳装置４２で行なわれるものと同じである。機械翻訳装置５０は、用例コーパス４０から適切な用例文を検索できなかったときは信号６８を論理１レベルとして処理を終了する。用例コーパス４０から適切な用例文を検索できたときは、機械翻訳装置５０はその用例文の日本語部分と類似文６２との相違を基に、用例文の英語部分を修正することで類似文６２の翻訳を行なう。そして、この翻訳処理の結果を翻訳結果６６として選択部５２に与える。
【００９２】
選択部５２は、判定信号６０が論理１レベルのときには、このようにして機械翻訳装置５０から選択部５２に与えられた翻訳結果６６を選択し、出力文３４として出力する。
【００９３】
以上のように機械翻訳システム３２は、入力文３０に対し、機械翻訳装置４２が機械翻訳可能な場合には、その翻訳結果を出力文３４として出力する。入力文３０が機械翻訳装置４２による翻訳のできない文であるときには、図２に示す翻訳不能文９０、９２、９４、９６、９８を翻訳可能文コーパス４６中の文１００、１０２、１０４等に置換するのと同様、この入力文３０を翻訳可能文コーパス４６中のいずれかの候補文と置換える。翻訳可能文コーパス４６は予め翻訳可能な文を集めて準備されたものであるので、機械翻訳装置５０においてはこの候補文を翻訳できる可能性が高い。その結果、機械翻訳システム３２が翻訳できる文の範囲は、類似文検索部４８による類似文の検索を行なわなかった場合と比較して広くなるという効果が得られる。
【００９４】
なお、前述したとおり類似文検索部４８により翻訳可能文コーパス４６から類似文を検索できないような入力文３０もあり得る。その場合には検索結果信号６４が論理１レベルとなり、翻訳可否信号３６が論理１レベルとなる。
【００９５】
また、翻訳可能文コーパス４６が翻訳可能文からなる以上、類似文検索部４８による類似文の検索ができれば機械翻訳装置５０による翻訳も可能と考えられる。ただし、翻訳可能文コーパス４６の内容に不備がある場合も考えられるので、機械翻訳装置５０から翻訳可否信号６８を出力するようにしている。すなわち、翻訳可否信号６８が論理０レベルであれば機械翻訳装置５０による翻訳が可能ということであり、翻訳可否信号６８が論理１レベルであれば機械翻訳装置５０による翻訳が不可能ということになる。
【００９６】
ＡＮＤゲート５４は検索結果信号６４と翻訳可否信号６８とのＡＮＤをとっているので、その出力ＡＮＤゲート５４が論理１レベルであれば翻訳ができなかったことが分かり、それ以外の場合には翻訳が可能であったことが分かる。
【００９７】
［実験結果］
以上述べた実施の形態に係る機械翻訳システム３２の類似文検索部４８を用いて日英翻訳を行なう実験を行なった。この実験では、二種類のコーパスを使用する。翻訳不能文の集合である翻訳不能文コーパスと、図１に示す翻訳可能文コーパス４６とである。
【００９８】
図１３を参照して、翻訳不能文コーパス１４６は、発明の実施の形態に関する冒頭の説明で言及した第２の発話コーパス１４０の各文を機械翻訳１４２に与え、翻訳不能となった文を集めることで作成した。第２の発話コーパス１４０は１，６９８文を含み、その中で翻訳可能文からなるコーパス１４４は１３９３文であり、翻訳が不能な文からなる翻訳不能文コーパス１４６は３０５文であった。
【００９９】
翻訳可能文コーパス４６は、発明の実施の形態の説明の冒頭で言及した第１の基本表現コーパスの中から機械翻訳で翻訳可能と判定された７０，６７１文を含む。
【０１００】
翻訳不能文コーパス１４６の各文を類似文検索部４８に与えたところ、得られた類似文からなる検索類似文コーパス１５０は１６４文となった。すなわち、１６４文の翻訳不能文について類似文を検索することができた。検索された類似文１６４文について類似性を人手で評価したところ、図１３の正解類似文１５４にも示すとおり、８１文については正しい類似文であることが判明した。
【０１０１】
さらに、検索された類似文１６４文を機械翻訳装置５０に与えて得られる翻訳文と、入力文とを評価者に提示して翻訳文としての評価を行なった。翻訳文は、英語のネイティブスピーカによりＧｏｏｄ，Ｆａｉｒ，Ａｃｃｅｐｔａｂｌｅ，Ｂａｄの４種類のランクで評価される。この内、Ｇｏｏｄ，Ｆａｉｒ及びＡｃｃｅｐｔａｂｌｅの評価の文を「適切な訳文」とする。なお、この評価基準は機械翻訳の訳質評価のために定めたものであり、図４に示した類似文の評価基準とは別のものである。
【０１０２】
図１３に示すように、この結果、正解訳文１５６として６１文が得られた。内訳は、Ｇｏｏｄが１２文、Ｆａｉｒが１０文、Ａｃｃｅｐｔａｂｌｅが３９文である。
【０１０３】
図１４に、類似文、翻訳文における正解率及び翻訳不能文の救済率をそれぞれ示す。図１４を参照して、類似文、つまり入力文と同一言語の段階では翻訳不能文の２６．６％について類似文検索により適切な類似文を検索できた。また、翻訳文の段階でも、翻訳不能文の２０％について適切な訳文を得ることができた。
【０１０４】
以上のとおり、本実施の形態に係る機械翻訳システム３２によれば、単言語コーパスという入手が容易な言語資源を用いた類似文検索技術を機械翻訳と組合わせることで、既存の機械翻訳の翻訳可能文の範囲を拡大することができる。前編集のための規則を定めるという手間のかかる作業なしに、話し言葉のように同じ意味で多くのバリエーションがある入力文の翻訳可能性を高めることができる。
【０１０５】
なお、上記した実施の形態では、類似文検索における類似度算出方式として、入力文と候補文とに共通するｎ−グラムを用いる方式を採用した。しかし本発明はそのような方式に限定されるわけではない。例えば、入力文と候補文との間の最長共通単語列に基づく類似度算出方式を用いてもよいし、入力文と候補文との単語集合の共通部分に基づく類似度算出方式を用いてもよい。また、これ以外の類似度算出方式を用いてもよいが、その場合でも入力文と候補文とが内容上でどの程度類似しているかを有効に示す類似度を採用することが望ましい。
【０１０６】
また、上記した実施の形態では、ｎ−グラムに基づく類似度算出方式において、内容語の重みを１としたときの機能語の重みを０．４としている。しかしこの重みはそのような値に限定されるわけではなく、機能語に対しては内容語の重み以下の重みであればどのような重みを付与するようにしてもよい。
【０１０７】
さらに、上に説明した各パラメータの値は、対象となる言語により、また対象となるドメインにより変わり得るものである。それらは、実際に本発明を実施する環境にあわせて行なう実験に基づいて決定することが望ましい。
【０１０８】
上記した実施の形態では、機械翻訳装置として用例翻訳を使用している。そして，用例翻訳の過程において入力文とよく類似した用例文が得られたか否かを訳質の指標として用いている。この場合、用例翻訳の過程で訳質が評価できる。しかし本発明はそのような実施の形態には限定されない。例えば、機械翻訳装置として任意のものを用い、その出力する訳文の訳質を何らかの基準に従って評価し、その結果を類似文検索するか否かを決定するための指標として用いても良い。例えば予め準備された複数個の参照訳との比較結果により訳質を評価したり、訳文を言語モデル又は翻訳モデル又はその双方を用いて評価したりするようにしてもよい。この場合、それらは機械翻訳装置とは独立した機能モジュールとして機械翻訳システム内に設けることができる。逆に言えば、上記した実施の形態での第１の機械翻訳装置のように翻訳過程で訳質の指標に相当するものが得られる場合、訳質を評価するための独立した機能モジュールは不要である。
【０１０９】
［コンピュータによる実現］
上記した実施の形態に係る機械翻訳システム３２は、コンピュータシステムにより実現できる。図１５は上記した実施の形態による機械翻訳システム３２を実現するコンピュータシステム２５０の全体構成を示す外観図である。システム２５０はマイクロフォン２６４及びスピーカ２７８の組と、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）ドライブ２７０及びＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ２７２を有するコンピュータ２６０と、いずれもコンピュータ２６０に接続されたモニタ２６２、キーボード２６６及びマウス２６８とを含む。
【０１１０】
マイクロフォン２６４とスピーカ２７８とは、必要であれば音声翻訳の入力及び出力に用いられるものであって、この発明の一部を構成するものではない。従って、システムのうちマイクロフォン２６４及びスピーカ２７８に関する部分の詳細はここでは説明しない。
【０１１１】
図１６はコンピュータ２６０のハードウェアブロック図である。図１６を参照して、コンピュータ２６０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央処理装置）３４０と、ＣＰＵ３４０に接続されたバス３４２と、バス３４２に接続された読出専用メモリ（ＲＯＭ）３４４と、バス３４２に接続されたランダムアクセスメモリ（ＲＡＭ）３４６と、バス３４２に接続されたハードディスク３４８と、ＣＤ−ＲＯＭ（コンパクト・ディスクＲＯＭ）３６０が装着され、ＣＤ−ＲＯＭからデータを読出すＣＤ−ＲＯＭドライブ２７０と、ＦＤ（フレキシブル・ディスク）３６２が装着され、ＦＤからデータを読出し、データを書込むＦＤドライブ２７２と、マイクロフォン２６４及びスピーカ２７８が接続されるサウンドボード３５０と、バス３４２に接続されローカルエリアネットワーク（ＬＡＮ）等のデータ通信ネットワークに接続する機能を提供するネットワークボード３５２とを含む。
【０１１２】
図１〜図１４を参照して説明した実施の形態に係る機械翻訳システム３２は、コンピュータシステム２５０のハードウェア、その上で実行されるコンピュータプログラム、及びコンピュータシステム２５０のハードディスク３４８、ＲＡＭ３４６等に格納される各種のコーパスなどのデータにより実現可能である。コンピュータプログラムの構成については後述する。それらコンピュータプログラム及びコーパスなどのデータ（以下「プログラム等」と呼ぶ。）はＣＤ−ＲＯＭ３６０などの記憶媒体に格納されて流通する。それらプログラム等はそうした記憶媒体からハードディスク３４８に読込まれる。システムの起動時には、プログラムはハードディスク３４８から読出されてＲＡＭ３４６にロードされ、ＣＰＵ３４０により読出されて実行される。プログラムの読出アドレスは図示しないプログラムカウンタにより指定される。プログラムカウンタの内容は，プログラムの実行に伴って書換えられる。データの読出及び書込アドレスはプログラムに従った演算結果によって指定される。
【０１１３】
図１７は、上記した実施の形態に係る機械翻訳システム３２を実現するプログラムのフローチャートである。各ステップの内容の詳細については図１〜図１４を参照して説明したとおりである。ここでは、プログラムにより機械翻訳システム３２を実現する際のプログラムの全体の好ましい構成を示す。
【０１１４】
図１７を参照して、ステップ４００で、入力文に対して機械翻訳を実行する。この機械翻訳は用例翻訳によるものであり、用例翻訳の基となる用例文の類似度が翻訳結果とともに得られる。ステップ４０２では、この類似度の値が所定の値より大きいか否かが判定される。前述したとおり、本実施の形態で使用される用例翻訳では、二つの文が類似しているほど類似度は小さくなり、両者が完全に一致していると類似度は０となる。もし両者が類似していれば（すなわち類似度＞所定値という条件が成立していなければ）、制御はステップ４１４に進み、ステップ４００で得られた翻訳文を全体の翻訳結果として出力し処理を終了する。両者が類似していなければ制御はステップ４０４に進む。
【０１１５】
ステップ４０４では、この機械翻訳処理の結果が、入力文に対する機械翻訳処理により得られたものか、入力文を類似文で置換した後の機械翻訳処理により得られたものかを判定する。置換後であれば制御はステップ４１０に進み、翻訳不能であった旨の出力（表示）をステップ４１０で行なって処理を終了する。置換前であれば制御はステップ４０６に進む。
【０１１６】
ステップ４０６では、入力文に対する類似文を翻訳可能文コーパスから検索する処理が行なわれる。ここで検索される類似文が満たすべき条件については既に説明したとおりである。この後、ステップ４０８において、ステップ４０６で入力文に類似するという条件を満足した翻訳可能文（類似文）が検索されたか否かを判定する。ここで類似文がなかったと判定された場合、ステップ４１０で翻訳不能を表示して処理を終了する。類似文があれば、ステップ４１２に進む。
【０１１７】
ステップ４１２では、検索された類似文で入力文を置換する処理を行なう。制御はステップ４００に戻る。この後、置換された文に対してステップ４００、４０２、４１４という処理が実行されるか、又はステップ４００、４０２、４０４、４１０という処理が実行され、全体の機械翻訳処理が終了する。
【０１１８】
以上のように、図１では機械翻訳装置４２と機械翻訳装置５０とを別のものとして示したが、これらを同一のもので実現するようにしてもよい。このように同一のもので機械翻訳装置４２と機械翻訳装置５０とを実現することで、翻訳に必要な資源の増大を防ぎながら、翻訳可能な文の範囲を広げることができる。もちろん、両者が別々のものでもよい。また、両者が別々の場合、両者の機械翻訳の原理は互いに同一でもよいし、同一でなくてもよい。
【０１１９】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
【図面の簡単な説明】
【０１２０】
【図１】本発明の一実施の形態に係る機械翻訳システム３２のブロック図である。
【図２】機械翻訳システム３２における類似文検索技術の概念を示す図である。
【図３】機械翻訳システム３２の類似文検索部４８のブロック図である。
【図４】類似文を評価する際の評価基準を説明する図である。
【図５】入力文に対する様々な類似文の候補の評価例を示す図である。
【図６】類似度算出の３つの基本方式によるＦ値算出例を示す図である。
【図７】余剰内容語を含むことで不適切となる候補文の例を示す図である。
【図８】類似度算出の３つの基本方式における、余剰内容語の存在の影響を示す図である。
【図９】類似度算出の３つの基本方式における、機能語の重みの影響を表形式で示す図である。
【図１０】機能語の重みを減らすことによる検索結果への影響を表形式で示す図である。
【図１１】検索された類似文において入力文と比較して不足している内容語の数と、その正解率との関係を示す図である。
【図１２】入力文との共通内容語数と検索された候補文の正解率との関係を示す図である。
【図１３】実験において使用したコーパスと実験結果とを示す図である。
【図１４】実験において得られた類似文、翻訳文における正解率及び翻訳不能文の救済率をそれぞれ示す図である。
【図１５】本発明の一実施の形態による機械翻訳システムを実現するコンピュータシステム２５０の外観図である。
【図１６】図１５に示すコンピュータ２６０のハードウェアブロック図である。
【図１７】本発明の一実施の形態に係る機械翻訳システムをコンピュータシステムで実現するためのプログラムのフローチャートである。
【符号の説明】
【０１２１】
３２機械翻訳システム、３６，６８翻訳可否信号、４０用例コーパス、４２機械翻訳装置、４４シソーラス、４６翻訳可能文コーパス、４８類似文検索部、５０機械翻訳装置、５２，１１０選択部、５４ＡＮＤゲート、５８翻訳結果、６０判定信号、６２類似文、６４検索結果信号、６６翻訳結果、８０翻訳可能文集合、８２翻訳不能文集合、８４類似文検索技術、１１２形態素解析部、１１４辞書、１１６分岐部、１１８入力文記憶部、１２０類似度算出部、１２２記憶部、１２４除外処理部、１２６選択処理部、１２８機能語重み記憶部、１３０シーケンス制御部

【特許請求の範囲】
【請求項１】
第１の言語の入力文を第２の言語に翻訳するための機械翻訳システムであって、
前記第２の言語への翻訳が可能であるとして予め選択された、前記第１の言語の複数の文を含む第１のコーパスと、
前記入力文を前記第２の言語に翻訳するための第１の機械翻訳手段と、
前記第１の機械翻訳手段による訳文の訳質の指標を出力するための指標出力手段と、
前記指標出力手段の出力する前記指標が前記訳質が悪いことを示す所定の条件に合致することに応答して、前記入力文と所定の関係にある文を前記第１のコーパスから検索するための検索手段と、
前記検索手段により検索された前記文を前記第２の言語に翻訳するための第２の機械翻訳手段とを含む、機械翻訳システム。
【請求項２】
前記検索手段は、前記指標出力手段の出力する前記指標が前記所定の条件に合致していることに応答して、前記入力文との間で所定の算出方式に従い算出される類似度によって最も前記入力文と類似していると判定される文を前記第１のコーパスから検索するための類似文検索手段を含む、請求項１に記載の機械翻訳システム。
【請求項３】
前記類似文検索手段は、
前記第１のコーパスに含まれる前記複数の文の各々と、前記入力文との間の共通部分に基づいて定義される類似度を算出するための類似度算出手段と、
前記類似度算出手段により算出された類似度に基づき、最も前記入力文と類似していると判定された文を前記第１のコーパスより抽出するための手段とを含む、請求項２に記載の機械翻訳システム。
【請求項４】
前記類似度算出手段は、
前記入力文の単語数、前記候補文の単語数、及び前記入力文及び前記候補文に共通する単語数を算出するための単語数算出手段と、
前記入力文と、類似度の算出対象となる候補文との間の前記類似度を、次の式
適合率＝（入力文と候補文に共通する単語数）／候補文の単語数
再現率＝（入力文と候補文に共通する単語数）／入力文の単語数
で定義される適合率と再現率との双方の関数として算出するための手段を含む、請求項３に記載の機械翻訳システム。
【請求項５】
前記単語数算出手段は、前記入力文の単語数、前記候補文の単語数、並びに前記入力文及び前記候補文に共通する単語数を、各単語の種類に従って予め定められる重みを乗じて算出するための手段を含む、請求項４に記載の機械翻訳システム。
【請求項６】
前記第１の機械翻訳手段は、
互いに良好な訳である前記第１の言語の文と前記第２の言語の文とからなる用例を複数個含む２言語用例コーパスと、
所定の類似基準に従って前記入力文との間で最も類似している前記第１の言語の文を含む用例を前記２言語用例コーパスから検索するための手段と、
前記検索するための手段により検索された前記第１の言語の文の対訳である前記第２の言語の文を、前記検索するための手段により検索された前記第１の言語の文及び前記入力文の間の相違に基づき修正することにより、前記入力文の翻訳を行なう用例翻訳手段とを含み、
前記指標出力手段は、前記検索するための手段によって検索された前記第１の言語の文と前記入力文との間で定義される所定の類似度が、予め定める基準を充足しているか否かを判定し、判定結果を前記指標として出力するための手段を含む、請求項１〜請求項５のいずれかに記載の機械翻訳システム。
【請求項７】
コンピュータにより実行されると、当該コンピュータを、請求項１〜請求項６のいずれかに記載の機械翻訳システムとして動作させる、コンピュータプログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【公開番号】特開２００６−４３６６（Ｐ２００６−４３６６Ａ）
【公開日】平成１８年１月５日（２００６．１．５）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 自然言語データの取扱い (7,890)
        
        自然言語の処理または翻訳 (1,147)
      - 情報検索；そのためのデータベース構造 (17,914)

【出願番号】特願２００４−１８２８５８（Ｐ２００４−１８２８５８）
【出願日】平成１６年６月２１日（２００４．６．２１）
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成１６度独立行政法人情報通信研究機構、研究テーマ「大規模コーパスベース音声対話翻訳技術の研究開発」に関する委託研究、産業活力再生特別措置法第３０条の適用を受ける特許出願
【出願人】（３９３０３１５８６）株式会社国際電気通信基礎技術研究所 (905)
【Ｆターム（参考）】

[ Back to top ]

機械翻訳システム及びそのためのコンピュータプログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

機械翻訳システム及びそのためのコンピュータプログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク