説明

機械翻訳方法

【課題】
翻訳処理が高速であり、翻訳結果は自然な文章が得られ、利用者ごとのカスタマイズが容易であり、多言語間の翻訳に適した、機械翻訳方法を提供する。
【解決手段】
本発明に基づく機械翻訳は、入力された原言語文を名詞除去文と名詞に分割し、条件付対応式データベースと名詞データベースを検索することにより、目的言語の名詞除去文と名詞に翻訳し、該目的言語の名詞除去文と該目的言語の名詞を組み合わせるのみで目的言語文への翻訳を行う。
名詞以外の語句は全て、単なる文字列である名詞除去文として扱い、構文解析及び意味解析は行わない。条件付対応式及び名詞についても、それぞれのデータベースの検索を行うのみであり、解析は一切行わない。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は原言語を目的言語に翻訳する機械翻訳方法に関し、より詳しくは、多言語間の翻訳に適した機械翻訳方法に関する。
【背景技術】
【0002】
現代社会は高度情報化社会であり、インターネットを始めとする通信技術の発達により、世界中の情報を地理的な制限無く瞬時に入手することが可能となったが、必要とする情報が母国語以外の言語で表記されている場合も多く、機械翻訳の需要が高まっている。既に機械翻訳は各種サービスが実用化されており、大部分が文法規則に基づくルールベース型の翻訳方法である(特開2004−86919号公報参照)。しかし、ルールベース型の翻訳方法では、翻訳処理に時間を要する、不自然な翻訳文が作成されるなど利用者が満足しているとは言い難い状況である。
【特許文献1】特開2004−86919号 公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
機械翻訳利用者の要望は、操作が容易であり、翻訳処理が速く、自然な翻訳文が得られ、各自の利用状況に応じてカスタマイズしやすく、多言語間の翻訳に適した機械翻訳方法である。しかし、従来のルールベース型の機械翻訳方法は、構文解析及び意味解析に基づく処理を行うため、翻訳処理に時間を要し、翻訳結果についても利用者の要望に応えるには限界があった。これに対して、構文解析及び意味解析を必要としない機械翻訳方法が発明されている(特開2002−7392号公報、特開2002−7393号公報、特開2002−7395号公報参照)。しかし、これらは、時制を含む動詞の解析や、文型による命令文・疑問文などの判定も行っているため、翻訳処理を簡略化しきれないという課題が残っていた。
【特許文献2】特開2002−7392号 公報
【特許文献3】特開2002−7393号 公報
【特許文献4】特開2002−7395号 公報
【0004】
以上の現状を勘案し、本発明の目的は、翻訳処理が高速であり、翻訳結果は自然な文章が得られ、利用者ごとのカスタマイズが容易であり、多言語間の翻訳に適した、機械翻訳方法を提供することである。
【課題を解決するための手段】
【0005】
発明者は前記課題を解決するために長年にわたり鋭意研究を続け、構文解析及び意味解析を必要としない機械翻訳方法及びシステムを開発し、以下の発明に至った。
【0006】
第一の発明は、原言語を目的言語に翻訳する機械翻訳方法であって、
(1)原言語の名詞除去文と、目的言語の名詞除去文を対応させた条件付対応式を記憶する条件付対応式データベースを作成する工程と、
(2)原言語の名詞と、該原言語の名詞に対応する目的言語の名詞と、該原言語の名詞と該目的言語の名詞に対応する名詞の属性を記憶する名詞データベースを作成する工程と、
(3)翻訳対象として、原言語文を入力する工程と、
(4)該原言語文から名詞を抽出し、原言語の名詞除去文と、原言語の名詞に分割する工程と、
(5)該原言語の名詞をもとに、名詞データベースを検索して、原言語の名詞の属性を判定すると共に、該原言語の名詞を目的言語の名詞に翻訳する工程と、
(6)該原言語の名詞除去文をもとに、名詞の属性を条件として、条件付対応式データベースを検索し、条件付対応式を決定して、該原言語の名詞除去文を目的言語の名詞除去文に翻訳する工程と、
(7)該目的言語の名詞除去文に、工程(5)で得た該目的言語の名詞を導入し、目的言語文を作成する工程と、
(8)翻訳結果として、該目的言語文を出力する工程、
からなる機械翻訳方法である。
【0007】
第二の発明は、前記条件付対応式データベースが、文体によって分類された複数の条件付対応式データベースの集合体であり、利用者が利用目的に応じた条件付対応式データベースを1つ以上選択して使用することを特徴とする、第一の発明に記載される翻訳方法である。
【0008】
第三の発明は、前記条件付対応式データベースに、利用者が条件付対応式を追加できることを特徴とする、第一〜二の発明のいずれかに記載される機械翻訳方法である。
【0009】
第四の発明は、前記名詞データベースが、分野によって分類された複数の名詞データベースの集合体であり、利用者が利用目的に応じた名詞データベースを1つ以上選択して使用することを特徴とする、第一〜三の発明のいずれかに記載される機械翻訳方法である。
【0010】
第五の発明は、前記名詞データベースに、利用者が名詞を追加できることを特徴とする、第一〜四の発明のいずれかに記載される機械翻訳方法である。
【0011】
第六の発明は、前記条件付対応式データベース及び前記名詞データベース内の各項目を音韻順に登録して、該条件付対応式データベース及び該名詞データベースを検索する際に、文字列の前から順番に一文字ごとに音韻を判定することを特徴とする、第一〜五の発明のいずれかに記載される機械翻訳方法である。
【0012】
第七の発明は、原言語を目的言語に翻訳する機械翻訳システムであって、
(1)翻訳対象である原言語文を入力する入力装置と、
(2)翻訳結果である目的言語文を出力する出力装置と、
(3)原言語の名詞除去文と、目的言語の名詞除去文を対応させた条件付対応式を記憶する条件付対応式データベースと、
(4)原言語の名詞と、該原言語の名詞に対応する目的言語の名詞と、該原言語の名詞と該目的言語の名詞に対応する名詞の属性を記憶する名詞データベースと、
(5)入力された原言語文をもとに、条件付対応式データベース及び名詞データベースを検索し、目的言語への翻訳処理を行う翻訳エンジン、
からなる機械翻訳システムである。
【0013】
第八の発明は、前記条件付対応式データベースと、前記名詞データベースと、前記翻訳エンジンと、をサーバーに保存し、各通信端末から該サーバーにアクセスし利用することを特徴とする、第七の発明に記載される機械翻訳システムである。
【0014】
第九の発明は、前記通信端末が携帯電話であることを特徴とする、第八の発明に記載される機械翻訳システムである。
【0015】
本発明の説明に先立ち、「名詞除去文」「属性」「条件付対応式」という用語を定義する。
【0016】
本発明における「名詞除去文」とは原言語文や目的言語文から名詞を取り除いた残りの部分を示すものである。名詞以外の、動詞や助詞を含む語句により構成される「名詞除去文」は全て、単なる文字列として扱う。
【0017】
本発明における名詞の「属性」とは、人物・動物・場所・道具・食物・交通手段など、名詞の概念で分類されたものである。ひとつの名詞が、複数の「属性」と成り得る場合には、出現頻度に応じた優先順位をもつ。
【0018】
本発明における「条件付対応式」とは、原言語の名詞除去文と、目的言語の名詞除去文を対応させた式であって、本来名詞が存在する部分に名詞の属性を入れた文である。
【0019】
同じ動詞を使用する「条件付対応式」は、疑問文や命令文又は時制の変化など、語順や単語が異なる場合は、それぞれ異なる「条件付対応式」として扱われるが、文末が多少異なっていても同じ内容の場合(例えば、行く、行きます等)、条件付対応式データベース内でひとつの集合として保存することができる。
【発明の効果】
【0020】
本発明に基づく機械翻訳は、入力された原言語文を名詞除去文と名詞に分割し、条件付対応式データベースと名詞データベースを検索することにより、目的言語の名詞除去文と名詞に翻訳し、該目的言語の名詞除去文と該目的言語の名詞を組み合わせるのみで目的言語文への翻訳を行う。
名詞以外の語句は全て、単なる文字列である名詞除去文として扱い、構文解析及び意味解析は行わない。条件付対応式及び名詞についても、それぞれのデータベースの検索を行うのみであり、解析は一切行わない。
【0021】
従来のルールベース型の機械翻訳方法が必須としていた、構文解析及び意味解析を必要とせずに翻訳を行うことが可能であるため、高速な処理速度が得られる。
【0022】
条件付対応式データベースに保存されている条件付対応式は、もともと各言語の自然な文章を一件ずつ名詞除去文と属性に分割して入力したものであるため、翻訳結果は自然な文章が得られる。
【0023】
対訳文を入力することにより容易に条件付対応式を構築し、条件付対応式データベース及び名詞データベースを追加できるため、利用者ごとのカスタマイズが容易である。
【0024】
本発明に基づく機械翻訳は、各言語の自然な文章を、名詞除去文と属性に分割して入力した条件付対応式データベース及び名詞データベースを用いるのみであり、文法を考慮する必要がないため、多言語間の翻訳に適している。
【発明を実施するための最良の形態】
【0025】
本発明による機械翻訳システムの構成図を図1に示す。
【0026】
図1に示す機械翻訳システムは、
翻訳対象である原言語文を入力する入力装置100と、
翻訳結果である目的言語文を出力する出力装置200と、
入力された原言語文をもとに、条件付対応式データベース及び名詞データベースを検索し、目的言語への翻訳処理を行う翻訳エンジン300と、
原言語の名詞除去文と、目的言語の名詞除去文を対応させた条件付対応式を記憶する条件付対応式データベース400と、
原言語の名詞と、該原言語の名詞に対応する目的言語の名詞と、該原言語の名詞と該目的言語の名詞に対応する名詞の属性を記憶する名詞データベース500、
を備える。
【0027】
入力装置100は、キーボード、外部記憶媒体、インターネットからのダウンロードなど通常コンピュータの操作に利用されるどのようなものであってもよい。さらには、音声入力システムを併用してもよい。
【0028】
出力装置200は、ディスプレイ、プリンターなど通常コンピュータの操作に利用されるどのようなものであってもよい。さらには、音声出力システムを併用してもよい。
【0029】
条件付対応式データベース400は、文体によって分類された文体別条件付対応式データベースの集合体410であっても良い。
本発明による機械翻訳は、自然な翻訳文を作成するために、条件付対応式データベースが充実していることが望ましい。しかし、大学や研究機関などにおいて機械翻訳を利用する場合、学術論文や講演原稿などを対象とすることが多く、文語的な表現が重要であり、一方、日常的に、インターネットや携帯電話を使用中に機械翻訳を利用する場合は、口語的な表現の方が利用される頻度が高いと想定される。
条件付対応式を、会話調や論文調など文体別に分割して保存し、機械翻訳を行う際に利用目的に応じた該文体別条件付対応式データベースを選択可能とすることにより、それぞれのデータベースの容量を軽減し、処理速度のさらなる向上を図ることができる。
【0030】
さらに、利用者が条件付対応式を追加することのできる利用者別条件付対応式データベース420を設定し、前記文体別条件付対応式データベースと同様に処理を行うことにより、利用者ごとの必要に応じたカスタマイズが容易となる。
【0031】
名詞データベース500は、分野によって分類された分野別名詞データベースの集合体510であっても良い。
名詞データベースの語彙数は翻訳能力を左右する大きな要因であるが、学術論文を翻訳する場合と日常会話を翻訳する場合では、必要とする語句は全く異なると言って良い。特に学術論文を翻訳するには、各専門分野で語彙が充実していることが望ましい。
名詞を、生化学や機械工学など分野別に分割して保存し、翻訳を行う際に利用目的に応じた該分野別名詞データベースを選択可能とすることにより、それぞれのデータベースの容量を軽減し、処理速度のさらなる向上を図ることができる。
【0032】
さらに、利用者が名詞を追加することのできる利用者別名詞データベース520を設定し、前記分野別名詞データベースと同様に処理を行うことにより、利用者ごとの必要に応じたカスタマイズが容易となる。
【0033】
前記条件付対応式データベース及び前記名詞データベース内の各項目を音韻順に登録して、該条件付対応式データベース及び該名詞データベースを検索する際に、文字列の前から順番に一文字ごとに音韻を判定する検索方法を採用しているため、検索時間に影響を与える要素は、対象となる名詞除去文又は名詞の文字数のみであり、データベースに含まれる項目数にかかわらず、高速な検索が可能である。
また、名詞除去文をもとに条件付対応式データベースを検索する場合は、名詞の前後の文字列をそれぞれ分割して検索を行う。
【0034】
本発明を実施する機械翻訳システムは、単一のコンピュータ内で利用するのみでなく、イントラネット上、あるいはインターネット上など、個人が使用する通信端末から共通のサーバーにアクセス可能な環境において、前記条件付対応式データベースと、前記名詞データベースと、前記翻訳エンジンと、をサーバーに保存し、各個人が使用する通信端末から該サーバーにアクセスし利用するとしても良い。記憶容量を必要とする該条件付対応式データベース及び該名詞データベースをサーバーに保存することにより、各通信端末の負担が軽減される。
【0035】
さらに、前記通信端末を携帯電話やPDAなどの携帯端末としても良い。本発明による機械翻訳は、翻訳処理が簡易であるため、メモリ容量や消費電力の負担が軽微であり、携帯電話やPDAなどの携帯端末での利用に適した機械翻訳方法である。
【実施例1】
【0036】
入力文が日本語であり、英語及び中国語に翻訳する場合を例として、多言語間の翻訳の工程を説明する。
文中で使用する表記は、J:日本語文、E:英語文、C:中国語文、j:日本語名詞、e:英語名詞、c:中国語名詞、x:名詞(属性)をそれぞれ意味している。
J(x)、E(x)、C(x)は条件付対応式である。条件付対応式では名詞は属性のみが意味を持つので、言語を考慮しない名詞としてxを用いて表記している。
【0037】
機械翻訳フローチャートを図2に示す。機械翻訳の工程は請求項1記載のようになる。工程(1)及び(2)に記載している、条件付対応式データベース及び名詞データベースの作成は完了しているものとする。表1に条件付対応式データベース、表2に名詞データベースを示す。
【0038】
【表1】

【0039】
【表2】

【0040】
工程(3)翻訳対象として、原言語文を入力する。
例として、日本語文「彼は駅までタクシーに乗った。」を入力したとする。
【0041】
工程(4)該原言語文から名詞を抽出し、原言語の名詞除去文と、原言語の名詞に分割する。
原言語の名詞除去文は「J:j1はj2までj3に乗った。」となり、抽出された名詞は「j1=彼、j2=駅、j3=タクシー」となる。
【0042】
工程(5)該原言語の名詞をもとに、名詞データベースを検索して、原言語の名詞の属性を判定すると共に、該原言語の名詞を目的言語の名詞に翻訳する。
名詞データベースを検索し、各名詞の属性は「x1:人物、x2:場所、x3:交通手段」となり、英語及び中国語の名詞に翻訳すると、「e1=he、e2=the station、e3=a taxi」、「c1=他、c2=車站、c3=出租車」となる。
【0043】
工程(6)該原言語の名詞除去文をもとに、名詞の属性を条件として、条件付対応式データベースを検索し、条件付対応式を決定して、該原言語の名詞除去文を目的言語の名詞除去文に翻訳する。
名詞除去文「J:j1はj2までj3に乗った。」をもとに、各名詞の属性「x1:人物、x2:場所、x3:交通手段」を条件として、条件付対応式データベースを検索すると、条件付対応式は、「J(x)=x1はx2までx3に乗った。(条件 x1:無条件、x2:場所、x3:交通手段)」となる。
さらに、日本語の名詞除去文を、英語及び中国語の名詞除去文に翻訳すると、
「E:e1 took e3 to e2.」、「C:c1乗c3去了c2。」という結果が得られる。
【0044】
工程(7)該目的言語の名詞除去文に、工程(5)で得た該目的言語の名詞を導入し、目的言語文を作成する。
英語の名詞除去文「E:e1 took e3 to e2.」に英語名詞「e1=he、e2=the station、e3=a taxi」を導入し英語文を作成する。
中国語の名詞除去文「C:c1乗c3去了c2。」に中国語名詞「c1=他、c2=車站、c3=出租車」を導入し中国語文を作成する。
【0045】
工程(8)翻訳結果として、該目的言語文を出力する。
翻訳対象として入力した「J:彼は駅までタクシーに乗った。」に対する翻訳結果として、英語文「E:He took a taxi to the station.」、
中国語文「C:他乗出租車去了車站。」を表示する。
【実施例2】
【0046】
日本語の助詞と英語の前置詞は、同様の働きを持ちながら、単語が一対一に対応しないため、従来の機械翻訳では、充分な精度が得られず、対策が望まれている。本発明では、名詞データベースに設定されている属性により助詞や前置詞を区別している。
【0047】
日本語文イ)「J:〜食堂で食べる〜」、ロ)「J:〜ナイフで食べる〜」を英語に翻訳する場合を例として、前置詞の区別を説明する。先に翻訳結果を示すと、
イ)「E:〜eat “in” the dining room〜」、
ロ)「E:〜eat “with” a knife〜」
である。
【0048】
日本語の名詞除去文は、どちらも「J:〜j1“で”食べる〜」となるため、名詞の持つ属性を考えないとすると、目的言語の名詞除去文、
イ)「E:〜eat “in” e1〜」、
ロ)「E:〜eat “with” e1〜」
を区別できない。(表1参照)
【0049】
ここにおいて、名詞データベースに属性という項目を設定していることにより、
イ)「j1=食堂」には「場所」、
ロ)「j1=ナイフ」には「道具」、
という属性が付加される。
【0050】
名詞除去文が同一であっても、条件すなわち名詞の属性の違いにより、条件付対応式が、
イ)「〜x1で食べる〜(x1:場所)=〜eat “in” x1〜」、
ロ)「〜x1で食べる〜(x1:道具)=〜eat “with” x1〜」
と区別することが可能となる。
【実施例3】
【0051】
データベース検索の処理方法を説明する。本発明においては、条件付対応式データベース及び前記名詞データベース内の各項目を音韻順に登録して、検索する際には、文字列の前から順番に一文字ごとに音韻を判定する。
また、名詞除去文をもとに条件付対応式データベースを検索する場合は、名詞の前後の文字列をそれぞれ分割して検索を行う。
検索時間に影響を与える要素は、対象となる名詞又は名詞除去文の文字数のみであり、データベースに含まれる項目数にかかわらず、高速な検索が可能である。
【0052】
「e1=he」を検索する場合を例として図3に示す。1文字目「h」、2文字目「e」、3文字目「/(終了)」として名詞データベースの検索を行う。
【0053】
名詞除去文「E:e1 took e3 to e2.」をもとに、条件付対応式データベースを検索する際は、検索対象となる文字列は、名詞除去文を「空白(e1)took(e3)to(e2).」と考え、「/」「took/」「to/」「./」の四カ所に分割して順次検索を行う。
【実施例4】
【0054】
本発明に基づく機械翻訳は、特定の名詞が複数の意味を持ち、属性による判断も不可能な場合、機械翻訳システムが独断することなく、複数の翻訳結果を表示し、利用者に選択決定の権限を与える。
【0055】
例として、英語名詞「bank」を日本語名詞に翻訳すると、「銀行」又は「河岸」に相当しどちらも属性は「場所」である。従って、「E:〜go to the bank〜」を日本語に翻訳する場合には、例えば「J:〜(銀行/河岸)に行く〜」のように表示され、利用者がいずれかを選択することになる。
【図面の簡単な説明】
【0056】
【図1】機械翻訳システム構成図
【図2】機械翻訳フローチャート
【図3】名詞データベース検索例
【符号の説明】
【0057】
100 入力装置
200 出力装置
300 翻訳エンジン
400 条件付対応式データベース
410 ・文体別条件付対応式データベース
420 ・利用者別条件付対応式データベース
500 名詞データベース
510 ・分野別名詞データベース
520 ・利用者別名詞データベース


【特許請求の範囲】
【請求項1】
原言語を目的言語に翻訳する機械翻訳方法であって、
(1)原言語の名詞除去文と、目的言語の名詞除去文を対応させた条件付対応式を記憶する条件付対応式データベースを作成する工程と、
(2)原言語の名詞と、該原言語の名詞に対応する目的言語の名詞と、該原言語の名詞と該目的言語の名詞に対応する名詞の属性を記憶する名詞データベースを作成する工程と、
(3)翻訳対象として、原言語文を入力する工程と、
(4)該原言語文から名詞を抽出し、原言語の名詞除去文と、原言語の名詞に分割する工程と、
(5)該原言語の名詞をもとに、名詞データベースを検索して、原言語の名詞の属性を判定すると共に、該原言語の名詞を目的言語の名詞に翻訳する工程と、
(6)該原言語の名詞除去文をもとに、名詞の属性を条件として、条件付対応式データベースを検索し、条件付対応式を決定して、該原言語の名詞除去文を目的言語の名詞除去文に翻訳する工程と、
(7)該目的言語の名詞除去文に、工程(5)で得た該目的言語の名詞を導入し、目的言語文を作成する工程と、
(8)翻訳結果として、該目的言語文を出力する工程、
からなる機械翻訳方法。
【請求項2】
前記条件付対応式データベースが、文体によって分類された複数の条件付対応式データベースの集合体であり、利用者が利用目的に応じた条件付対応式データベースを1つ以上選択して使用することを特徴とする、請求項1に記載される翻訳方法。
【請求項3】
前記条件付対応式データベースに、利用者が条件付対応式を追加できることを特徴とする、請求項1〜2のいずれかに記載される機械翻訳方法。
【請求項4】
前記名詞データベースが、分野によって分類された複数の名詞データベースの集合体であり、利用者が利用目的に応じた名詞データベースを1つ以上選択して使用することを特徴とする、請求項1〜3のいずれかに記載される機械翻訳方法。
【請求項5】
前記名詞データベースに、利用者が名詞を追加できることを特徴とする、請求項1〜4のいずれかに記載される機械翻訳方法。
【請求項6】
前記条件付対応式データベース及び前記名詞データベース内の各項目を音韻順に登録して、該条件付対応式データベース及び該名詞データベースを検索する際に、文字列の前から順番に一文字ごとに音韻を判定することを特徴とする、請求項1〜5のいずれかに記載される機械翻訳方法。
【請求項7】
原言語を目的言語に翻訳する機械翻訳システムであって、
(1)翻訳対象である原言語文を入力する入力装置と、
(2)翻訳結果である目的言語文を出力する出力装置と、
(3)原言語の名詞除去文と、目的言語の名詞除去文を対応させた条件付対応式を記憶する条件付対応式データベースと、
(4)原言語の名詞と、該原言語の名詞に対応する目的言語の名詞と、該原言語の名詞と該目的言語の名詞に対応する名詞の属性を記憶する名詞データベースと、
(5)入力された原言語文をもとに、条件付対応式データベース及び名詞データベースを検索し、目的言語への翻訳処理を行う翻訳エンジン、
からなる機械翻訳システム。
【請求項8】
前記条件付対応式データベースと、前記名詞データベースと、前記翻訳エンジンと、をサーバーに保存し、各通信端末から該サーバーにアクセスし利用することを特徴とする、請求項7に記載される機械翻訳システム。
【請求項9】
前記通信端末が携帯電話であることを特徴とする、請求項8に記載される機械翻訳システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2006−65542(P2006−65542A)
【公開日】平成18年3月9日(2006.3.9)
【国際特許分類】
【出願番号】特願2004−246349(P2004−246349)
【出願日】平成16年8月26日(2004.8.26)
【出願人】(304020292)国立大学法人徳島大学 (307)
【Fターム(参考)】