説明

機械翻訳を行う装置、方法およびプログラム

【課題】確実性や自然性を損なわずにコーパスベースの機械翻訳を実行する機械翻訳装置を提供する。
【解決手段】用例記憶部121に記憶された用例対それぞれについて、第1言語の用例に含まれる語句に対応する第1概念と第2言語の用例に含まれる語句に対応する第2概念とを概念記憶部122から取得する概念取得部103と、第1概念と第2概念との間で一致しない不一致概念が存在するか否かを判断し、不一致概念が存在する用例対が利用できないと判断する利用可否判断部104と、第1言語による入力文を受付ける受付部101と、入力文に類似または一致する第1言語の用例を含む用例対を検索する用例対検索部102と、検索された用例対のうち、利用できないと判断された用例対を除く用例対に含まれる第2言語の用例を翻訳結果として出力する出力制御部105と、を備えた。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、入力された原言語文を対象言語文に機械翻訳する装置、方法およびプログラムに関するものである。
【背景技術】
【0002】
近年、例えば日本語と英語などのように異なる言語間でそれぞれの言語による表現を意味的に等価な表現へと自動的に翻訳する機械翻訳技術が開発されている。特に、書き言葉を対象として機械翻訳を行うシステムが広く利用されている。この機械翻訳を実現するために利用されている技術としては、規則ベース翻訳およびコーパスベース翻訳の2通りの方法に大別することができる。
【0003】
規則ベース翻訳は、各言語の文法規則、語彙の情報、または翻訳対となる言語間での語彙や文の構造の間の対応関係を規則の形で記述し、それらの規則に基づいて両言語間の変換を行う。
【0004】
規則ベース翻訳で使われる規則や辞書を開発するには、翻訳元の原言語および翻訳先の対象言語の両方に関する高度な言語知識に加え、双方の言語間の意味的または文法的な関係に関する高度な知識が要求される。また、言語には無限の多様性があるので、前述の高度な知識に基づく、網羅的で多大な時間と労力を要する規則開発作業が必要となる。また、原言語と対象言語の対ごとに、このような規則開発作業が必要になるという欠点が存在する。さらに、有限の数の規則に基づいて、無限のバリエーションを持つ文の翻訳が行われるため、翻訳結果が機械的で不自然になるという欠点も存在する。
【0005】
このような規則ベース翻訳の欠点を解決するための方法として、コーパスベース翻訳が広く試みられている。コーパスベース翻訳では、意味的に等価なそれぞれの言語での表現の対である用例対を多数収集し、収集した用例対を参照して両言語間の変換を行う。コーパスベース翻訳としては、翻訳メモリ(TM:Translation Memory)、用例翻訳(EBMT:Example Based Machine Translation)、および統計翻訳(SMT:(Stochastic Machine Translation)などが知られている。
【0006】
翻訳メモリは、入力された原言語表現と同一の用例対を検索し、その対訳を出力する方式である。用例翻訳は、入力された原言語表現と類似する用例対を検索し、その対訳に基づいて、意味的に等価な対象言語の表現を得る方式である。また、統計翻訳は、近年利用可能になった大規模な用例データに基づく統計情報によって、原言語入力に対する対訳を得る方式である。
【0007】
コーパスベース翻訳は、自然で確実な翻訳が可能となること、開発が容易で多言語への展開も容易になることなどの利点がある。なお、以下では、特に断らない場合には、コーパスベース翻訳の典型例として用例翻訳(EBMT)を利用するものとして説明する。
【0008】
コーパスベース翻訳に関して、特許文献1では、翻訳の方向ごとに原言語パターンと対象言語パターンを設定することにより、翻訳する言語ごとにパターンを作成することを不要とする技術が提案されている。
【0009】
ところで、ある「ことば」が発せられたとき、そのことばの意味は、そのことばの「表現」(文字面=文字列)のみではなく、そのことばが発せられた「状況」との組み合わせによって、はじめて解釈可能になるという性質がある。
【0010】
この性質によって、一つのことばが、状況に応じて異なった意味を持つことができることが、コミュニケーションの道具としてのことばの効率を高めているといえる。なお、状況には、話し手や聞き手の立場、役割、および関係、または、場所、時間、その場に存在する物、および既に成立している条件のほか、話し手や聞き手自身の知識や信念、および相手に対する知識や信念など、非常に多くの要因が含まれうる。
【0011】
そして、コーパスベース翻訳で利用される用例についても、各々の対訳を構成する各言語による用例が互いに意味が等価となるのは、それぞれの対訳ごとに定められている、ある範囲の状況の下のみに限られる。
【0012】
【特許文献1】特開2002−7392号公報
【発明の開示】
【発明が解決しようとする課題】
【0013】
しかしながら、通常、コーパスベース翻訳で利用される対訳自体は、複数の言語による用例の文字列、すなわち「表現」のみを含んでおり、その表現が発せられた状況に関する情報は含まない。
【0014】
一方、コーパスベース翻訳は、大量の対訳コーパスを必要とするため、特定の文脈(状況)を要求する用例対、大きく意訳された表現による用例対、または故事成句や慣用句などの固定的な表現による用例対が、このような対訳コーパスへ混入することを避けることは困難である。
【0015】
ところが、特許文献1などの従来のコーパスベース翻訳では、言葉が発せられる状況に関わらず、表現の類似性のみを考慮して対訳が選択されるので、ある状況では意味的に等価でない対訳が得られる可能性があった。すなわち、不自然な翻訳結果や誤った翻訳結果が得られ、コーパスベース翻訳の長所である確実性や自然性が損なわれる場合があるという問題があった。
【0016】
この問題を解決するために、例えば、言葉が発せられる状況の一部を自動的に検出する方法や、状況の一部を事前に対訳に付与する方法が考えられる。しかし、これらの作業を自動的に行うことは非常に困難である。また、状況の一部を表す情報を人手で対訳に付与するという対策も取りうるが、このような対策では、開発が容易であるというコーパスベース翻訳の長所が損なわれるという問題がある。
【0017】
本発明は、上記に鑑みてなされたものであって、確実性や自然性を損なわずにコーパスベースの機械翻訳を実行することができる装置、方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0018】
上述した課題を解決し、目的を達成するために、本発明は、意味が等価となりうる少なくとも2つの言語の用例を相互に対応づけた用例対を記憶する用例記憶部と、第1言語の語句と、第2言語の語句と、前記第1言語の語句および前記第2言語の語句に共通する意味を表す概念と、を対応づけて記憶する概念記憶部と、前記用例記憶部に記憶された前記用例対の第1言語の用例に含まれる語句それぞれに対応する前記概念を第1概念として前記概念記憶部から取得する第1概念取得部と、前記用例記憶部に記憶された前記用例対の第2言語の用例に含まれる語句それぞれに対応する前記概念を第2概念として前記概念記憶部から取得する第2概念取得部と、前記第1概念と前記第2概念との間で一致しない不一致概念が存在するか否かを判断し、前記不一致概念が存在する場合に、前記不一致概念が存在する前記用例対が利用できないと判断する判断部と、第1言語による入力文を受付ける受付部と、前記入力文に類似または一致する前記第1言語の用例を含む前記用例対を検索する用例対検索部と、検索された前記用例対のうち、利用できないと判断された前記用例対を削除する削除部と、利用できないと判断された前記用例対が削除された前記用例対に含まれる前記第2言語の用例を翻訳結果として出力する出力制御部と、を備えたことを特徴とする。
【0019】
また、本発明は、上記装置を実行することができる方法およびプログラムである。
【発明の効果】
【0020】
本発明によれば、確実性や自然性を損なわずにコーパスベースの機械翻訳を実行することができるという効果を奏する。
【発明を実施するための最良の形態】
【0021】
以下に添付図面を参照して、この発明にかかる機械翻訳する装置、方法およびプログラムの最良な実施の形態を詳細に説明する。
【0022】
(第1の実施の形態)
上述のような問題は、特に3言語以上の多言語対訳コーパスにおいて顕著となっていた。また、従来は、言語間の意味体系の違いから、完全に意味的に等価な対訳を用意することはできず、これに起因する誤訳が生じるという問題も生じていた。
【0023】
また、このような問題を回避するため、完全に意味的に等価な対訳のみから成る(多言語)対訳コーパスを準備する方法や、対訳コーパスの目視確認などを行う方法が考えられるが、コーパスベース翻訳の長所である開発および多言語展開の容易性が損なわれるという問題がある。
【0024】
第1の実施の形態にかかる機械翻訳装置は、各言語の用例に含まれる語句の概念クラスを比較し、両者が不一致の場合に、翻訳方向ごとに利用可否を判断し、利用可能な用例対のみを利用するものである。このような機能により、目視確認等により完全な対訳コーパスを準備する必要がなくなる。
【0025】
なお、以下では、日本語と英語と中国語の用例対を持つ翻訳メモリ方式によるコーパスベースの機械翻訳装置の例を説明するが、各用例の言語の組み合わせはこの例に限定されるものではない。また、言語の数は2つ以上であればいくつでも良い。
【0026】
図1は、第1の実施の形態にかかる機械翻訳装置100の構成を示すブロック図である。図1に示すように、機械翻訳装置100は、用例記憶部121と、シソーラス記憶部122と、受付部101と、用例対検索部102と、概念取得部103と、利用可否判断部104と、出力制御部105と、を備えている。
【0027】
用例記憶部121は、意味的にほぼ等価な複数の言語による表現の組である用例を記録するものである。図2は、用例記憶部121に記憶された用例のデータ構造の一例を示す説明図である。
【0028】
図2に示すように、用例記憶部121の各エントリは、個々の用例対を表しており、意味的に等価または意味的にほとんど等価である各言語による表現が対応づけられている。すなわち、用例の各エントリは、エントリを識別するアドレスと、日本語の表現である日本語用例Jと、英語の表現である英語用例Eと、中国語の表現である中国語用例Cとを含んでいる。
【0029】
例えば、アドレスa1のエントリは、「こんにちは」を意味する挨拶文である、日本語用例201(こんにちは)と、英語用例202(Hello.)と、中国語用例203とが、互いに用例対を成すことを示している。
【0030】
また、用例記憶部121は、各エントリで用例が用意されてない言語については、対応する欄に記号「−」を記録する。例えば、アドレスa2のエントリでは、「一人幾らくらいですか?」を意味する日本語用例204(一人幾らくらいですか?)と、英語用例205「How much is it for one person?」とが互いに用例対を成しているが、対応する中国語の表現が存在しないため、中国語用例206には記号「−」が設定されている。
【0031】
図1に戻り、シソーラス記憶部122は、単語の意味を表す概念クラス、各概念クラス間の階層関係、および概念クラスに属する各言語の単語を対応づけたシソーラス情報を記憶するものである。
【0032】
図3は、シソーラス記憶部122に記憶されたシソーラス情報のデータ構造の一例を示す説明図である。図3に示すように、シソーラス情報の各エントリは、各概念クラスに関する情報として、エントリを識別するアドレスと、概念クラス名Nと、下位概念IDリストと、所属日単語リストJと、所属英単語リストEと、所属中単語リストCとを含んでいる。
【0033】
例えば、アドレスb1のエントリは、概念クラス名が「時間」であり、この概念クラスに所属する日本語の単語として、「今朝」を意味する日本語の単語301および「時間」を意味する日本語の単語302等が含まれることが示されている。また、この概念クラスに所属する英語の単語として、「morning」および「hour」等が含まれること、およびこの概念クラスに所属する中国語の単語として、「時間」を意味する中国語の単語303等が含まれることがしめされている。
【0034】
なお、記号「...」は、今回の説明に必要のない部分を略記したことを表す記号である。また、アドレスb7のエントリは、概念クラス名が「道具」であり、その下位概念IDリストの内容が「b8,...」であること、すなわち、アドレスb8の概念クラスの上位概念であることを示している。すなわち、アドレスb8のエントリの概念クラス名が「スポーツ用具」であることと合わせて、概念クラス「スポーツ用具」は、概念クラス「道具」の下位概念であることが表現されている。
【0035】
なお、アドレスb9からアドレスb16の概念クラスは、柴田武、山田進編、講談社刊、類語大辞典(ISBN4-06-123290-8)の第一階層の分類を参考に独自に設定した概念クラスの例を示している。
【0036】
また、図3の例では、概念クラス名が日本語で記述されているが、これは説明の便宜のために付与したものであり、他の言語で記述する方法など、その他のあらゆる方法で記述することができる。また、概念クラスを識別するアドレスが付与されているため、概念クラス名を含まないように構成してもよい。
【0037】
また、用例記憶部121およびシソーラス記憶部122は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
【0038】
図1に戻り、受付部101は、利用者から入力された原言語による入力文を受け付けるものである。例えば、受付部101は、音声または画像などの形式で入力された原言語文を、音声認識技術、文字認識技術、および画像認識技術などを適用・併用し、表層文字列として文字列化した入力文を受付けるように構成することができる。なお、入力文の入力方法はこれに限られず、表層文字列に文字列化した入力文を受付け可能な方法であれば、従来から用いられているあらゆる方法を適用できる。また、翻訳先となる対象言語は別途指定されるものとする。
【0039】
用例対検索部102は、受付けられた入力文に対して利用すべき用例対を表す利用用例対を用例記憶部121から検索するものである。例えば、原言語が日本語であり、別途指定される翻訳の対象言語が英語であった場合、用例対検索部102は、まず、日本語用例Jの内容が、原言語入力と一致または類似している用例対であって、英語用例Eの欄が「−」でない用例を検索する。そして、用例対検索部102は、該当するエントリが見つかった場合には、利用用例対としてそのアドレスを出力する。
【0040】
なお、用例対検索部102による類似用例の検索処理は、翻訳メモリ、用例翻訳、統計翻訳、および情報検索などの従来から用いられている類似文の検索処理と同様の方法で実現できる。
【0041】
概念取得部103は、用例記憶部121に記憶されている各用例対を分析し、シソーラス記憶部122を参照して、各用例対を構成する用例それぞれに含まれる語句の概念クラスのリストを取得するものである。概念取得部103は、取得した概念クラスリストと、用例対のアドレスと対応づけた用例分析情報を、概念取得部103の内部の記憶部等(図示せず)に保持する。
【0042】
図4は、概念取得部103が保持する用例分析情報の一例を示す説明図である。図4に示すように、用例分析情報の各エントリは、用例分析情報を識別するアドレスと、用例対アドレスと、日用例概念クラスリストJと、英用例概念クラスリストEと、中用例概念クラスリストCとを対応づけて記憶している。
【0043】
用例分析情報の各エントリにおいて、用例対アドレス欄には、分析の元になった用例対のアドレスが記録される。また、日用例概念クラスリストJの欄には、対応する用例対の日本語用例に出現していた表現に対応する概念クラスとしてシソーラス記憶部122から検索された概念クラス名が列挙され記憶される。同様に、英用例概念クラスリストEの欄には、対応する用例対の英語用例から抽出された概念クラス名が列挙され記憶される。さらに、中用例概念クラスリストCの欄には、対応する用例対の中国語用例から抽出された概念リスト名が列挙され記憶される。なお、図2と同様に、対応する用例が存在しない部分については、記号「−」が記録される。また、今回の説明に無関係な部分は記載を省略したことを表す記号「...」を表示している。
【0044】
利用可否判断部104は、用例記憶部121、シソーラス記憶部122、および概念取得部103が保持する用例分析情報を適宜参照して、原言語と対象言語の組である翻訳方向ごとに用例対が利用できるか否かを判断するものである。
【0045】
具体的には、利用可否判断部104は、まず、原言語の用例に含まれる語句の概念クラスと対象言語の用例に含まれる語句の概念クラスとを比較し、両者の不一致部分を表す不一致概念を取得する。そして、利用可否判断部104は、不一致概念が原言語の用例および対象言語の用例のいずれに存在するかを分析すること、または、両者に存在する場合は、それぞれに存在する不一致概念間の階層関係を分析することによって、用例対の翻訳方向ごとの利用可否を判断する。なお、不一致概念が存在する場合に、対応する用例対が利用できないと判断するように構成してもよい。
【0046】
利用可否判断部104は、判断結果を表す利用可否情報を、利用可否判断部104の内部の記憶部等(図示せず)に保持する。図5は、利用可否判断部104が保持する利用可否情報の一例を示す説明図である。図5に示すように、利用可否情報の各エントリは、利用可否情報を識別するアドレスと、用例対アドレスと、各用例対の翻訳方向ごとの利用可否の情報を表すための欄と(日→英、日→中、英→日、英→中、中→日、中→英)を含んでいる。
【0047】
また、日→英、日→中、英→日、英→中、中→日、および中→英の欄には、それぞれ対応する翻訳方向についての、用例対の利用可否を表す情報が記録される。具体的には、利用可能である場合には記号「○」が、また利用不可能である場合には記号「×」が記録される。
【0048】
なお、例えば、「日→英」は原言語が日本語で対象言語が英語である翻訳方向を表している。また、記号「−」は、その翻訳方向に関わる用例が存在しないことを表している。また、記号「...」は、今回の説明に無関係な部分を省略したことを表している。
【0049】
図5では、例えば、アドレスd1のエントリは、用例対アドレス=a1の用例対に関する利用可否情報を表しており、日→英、日→中、英→日、英→中、中→日、中→英の全てに「○」が設定されている。したがって、この用例対は、日英中の翻訳に関する6方向全ての翻訳方向で利用可能であることを示している。
【0050】
また、例えば、アドレスd4のエントリは、用例対アドレス=a4に対応する利用可否情報を表しており、英→日が「○」であり、日→英が「×」であり、その他の日→中、英→中、中→日、中→英が「−」である。したがって、この用例対には日本語と英語の用例のみが含まれ、かつ、英語から日本語への翻訳には利用可能であるが、英語から日本語への翻訳には利用可能でないことが表されている。
【0051】
図1に戻り、出力制御部105は、用例対検索部102によって利用用例対が検索された場合、検索された利用用例対のうち、利用可能と判断されていない利用用例対を削除し、利用可能と判断されている利用用例対の対象言語の用例を取り出し、翻訳結果として利用者に提示するものである。
【0052】
次に、このように構成された第1の実施の形態にかかる機械翻訳装置100による各処理の処理手順について説明する。第1の実施の形態では、用例記憶部121に記憶されている用例の利用可否を判断して利用可否情報を設定する利用可否情報設定処理と、利用可否情報にしたがい、利用可能な用例対を用いて翻訳を行う機械翻訳処理とが実行される。
【0053】
まず、利用可否情報設定処理について図6を用いて説明する。図6は、第1の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
【0054】
まず、概念取得部103は、用例記憶部121から、未処理の用例対Eを取得する(ステップS601)。次に、概念取得部103は、取得した用例対Eのための用例分析情報のエントリCを新たに生成する(ステップS602)。
【0055】
次に、概念取得部103は、用例対Eに含まれる用例のうち、未処理の用例eを取得する(ステップS603)。次に、概念取得部103は、シソーラス記憶部122を参照し、用例eに出現する概念クラスを抽出してエントリCに追加する(ステップS604)。
【0056】
具体的には、概念取得部103は、用例eに含まれる単語などの語句ごとに、対応する概念クラスをシソーラス記憶部122から取得し、エントリCの対応する言語の欄(日用例概念クラスリストJ、英用例概念クラスリストE、または中用例概念クラスリストC)に追加する。
【0057】
次に、概念取得部103は、用例対Eに含まれるすべての用例を処理したか否かを判断し(ステップS605)、すべての用例を処理していない場合は(ステップS605:NO)、次の用例を取得して処理を繰り返す(ステップS603)。
【0058】
すべての用例を処理した場合は(ステップS605:YES)、利用可否判断部104が、用例対Eのための利用可否情報のエントリDを新たに生成する(ステップS606)。
【0059】
次に、利用可否判断部104が、概念取得部103により抽出された概念クラスを参照して用例対の利用可否を判断する利用可否判断処理を実行する(ステップS607)。利用可否判断処理の詳細については後述する。
【0060】
次に、概念取得部103は、用例記憶部121内のすべての用例対を処理したか否かを判断し(ステップS608)、すべての用例対を処理していない場合は(ステップS608:NO)、次の用例対を取得して処理を繰り返す(ステップS601)。すべての用例対を処理した場合は(ステップS608:YES)、利用可否情報設定処理を終了する。
【0061】
このようにして、実際の機械翻訳の実行前に、用例対の利用可否を判断し、その結果を表す利用可否情報を設定することができる。なお、利用可否情報設定処理は、すべての用例対について事前に実行する必要はなく、少なくとも入力された原言語の入力文に対応する対象言語の用例を取得する処理の前までに実行され、用例の利用可否が判断可能となっていればよい。
【0062】
例えば、機械翻訳処理の実行時に、検索された用例対について上述のような利用可否情報設定処理を実行し、その結果に応じて利用可能な用例対を対象として機械翻訳を継続するように構成してもよい。
【0063】
次に、ステップS607の利用可否判断処理の詳細について図7を用いて説明する。図7は、第1の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
【0064】
まず、利用可否判断部104は、未処理の翻訳方向の原言語用例および対象言語用例を用例対Eから取得する(ステップS701)。次に、利用可否判断部104は、原言語用例および対象言語用例の少なくとも一方が存在しないか否かを判断する(ステップS702)。
【0065】
原言語用例および対象言語用例の少なくとも一方が存在しないは(ステップS702:YES)、利用可否判断部104は、エントリDの対応する翻訳方向の欄に、記号「−」を記録する(ステップS703)。
【0066】
原言語用例および対象言語用例の少なくとも一方が存在しない場合以外は(ステップS702:NO)、利用可否判断部104は、原言語用例および対象言語用例それぞれについて、出現する概念クラスを取得する(ステップS704)。
【0067】
次に、利用可否判断部104は、原言語用例の概念クラスの中に、対象言語用例の概念クラスと一致しない不一致概念が存在するか否かを判断する(ステップS705)。不一致概念が存在する場合は(ステップS705:YES)、利用可否判断部104は、さらに、不一致概念と、対象言語用例中の各概念クラスとの間に階層関係が存在するか否かを判断する(ステップS706)。階層関係の有無を判断するとき、利用可否判断部104は、シソーラス記憶部122の下位概念IDリストを参照する。
【0068】
階層関係が存在する場合は(ステップS706:YES)、利用可否判断部104は、さらに、対象言語用例内の不一致概念が、原言語用例内の不一致概念の下位概念か否かを判断する(ステップS707)。
【0069】
対象言語用例内の不一致概念が原言語用例内の不一致概念の下位概念である場合は(ステップS707:YES)、利用可否判断部104は、エントリDの対応する翻訳方向の欄に、記号「×」を記録する(ステップS708)。
【0070】
対象言語用例内の不一致概念が原言語用例内の不一致概念の下位概念でない場合、すなわち、上位概念であるは(ステップS707:NO)、利用可否判断部104は、エントリDの対応する翻訳方向の欄に、記号「○」を記録する(ステップS709)。
【0071】
また、ステップS705で、不一致概念が存在しないと判断した場合も(ステップS705:NO)、利用可否判断部104は、エントリDの対応する翻訳方向の欄に、記号「○」を記録する(ステップS709)。
【0072】
さらに、ステップS706で、不一致概念と対象言語用例中の各概念クラスとの間に階層関係が存在しないと判断した場合は(ステップS706:NO)、利用可否判断部104は、エントリDの対応する翻訳方向の欄に、記号「×」を記録する(ステップS708)。
【0073】
なお、ステップS706の判断基準は、対訳間で不一致の概念クラスが存在するとき、概念クラスが増加する翻訳方向では用例対を利用できないと判断するものであると言い換えることができる。このような判断基準により、概念クラスが増加することにより用例を適用可能な状況が限定される場合は、状況が限定される言語への翻訳を制限することが可能となる。
【0074】
次に、利用可否判断部104は、すべての翻訳方向を処理したか否かを判断し(ステップS710)、処理していない場合は(ステップS710:NO)、次の翻訳方向について処理を繰り返す(ステップS701)。すべての翻訳方向を処理した場合は(ステップS710:YES)、利用可否情報設定処理を終了する。
【0075】
なお、ステップS705、ステップS706、およびステップS707の判断基準は一例であり、概念クラスを比較して適切な用例対のみを利用可能と判断する方法であれば、その他のあらゆる基準を適用できる。例えば、上記各ステップの判断基準のうち少なくとも1つを含むように構成してもよい。また、上記各判断基準のうち、2つ以上の任意の判断基準を含むように構成してもよい。
【0076】
また、図7のフローチャートでは、翻訳方向ごとに上記判断を実行しているが、任意の言語の組合せごとに概念クラス間の関係を判断し、相互の翻訳方向ごとの利用可否情報を一括して設定するように構成してもよい。これにより、例えば、対象言語である英語の用例に日本語の用例の下位の概念クラスが含まれる場合、「日→英」への翻訳方向では「×」を、「英→日」への翻訳方向では「○」を同時に設定できる。
【0077】
次に、機械翻訳処理について図8を用いて説明する。図8は、第1の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
【0078】
まず、受付部101が、利用者から受付けた入力にしたがい、翻訳方向を設定する(ステップS801)。なお、翻訳方向の設定方法はこれに限られず、事前に固定の翻訳方向を設定する方法などのあらゆる方法を適用できる。
【0079】
次に、受付部101が、原言語による入力文(以下、原言語入力Iという)を受付けたか否かを判断する(ステップS802)。原言語入力Iを受付けていない場合は(ステップS802:NO)、受付けるまで処理を繰り返す。
【0080】
原言語入力Iを受付けた場合は(ステップS802:YES)、用例対検索部102が、原言語入力Iと一致または類似する原言語用例を含む利用用例対の候補を表す用例対候補のリストLを、用例記憶部121から検索する(ステップS803)。
【0081】
次に、用例対検索部102は、リストLから未処理の用例対候補Eを取得する(ステップS804)。続いて、用例対検索部102は、用例対候補Eに対応する利用可否情報のエントリDを取得する(ステップS805)。
【0082】
次に、用例対検索部102は、エントリDのステップS801で設定された翻訳方向に対応する欄に「○」が設定されているか否かを判断する(ステップS806)。「○」が設定されている場合(ステップS806:YES)、出力制御部105が、用例対候補Eの対象言語用例を翻訳結果として出力する(ステップS808)。
【0083】
エントリDの対応する欄に「○」が設定されていない場合は(ステップS806:NO)、用例対候補Eは利用できないと判断される。すなわち、出力制御部105は、用例対候補Eを用例対候補のリストLから削除する。次に、用例対検索部102は、リストL内のすべての用例対候補を処理したか否かを判断する(ステップS807)。
【0084】
すべての用例対候補を処理していない場合は(ステップS807:NO)、用例対検索部102は、次の未処理の用例対候補を取得して処理を繰り返す(ステップS804)。すべての用例対候補を処理した場合は(ステップS807:YES)、機械翻訳処理を終了する。
【0085】
なお、概念クラスの上下関係を比較するとき、予め定めた範囲での上下関係は無視するように構成してもよい。また、概念クラス間の一致を比較するとき、概念クラス間の類似性を表す尺度である意味距離などを利用し、当該尺度が所定の閾値より大きい場合に、両者が一致しないと判断するように構成してもよい。
【0086】
また、統計翻訳方式の場合は、利用可否情報を参照し、利用可能な用例対のみを対象として統計翻訳の学習処理を行うように構成してもよい。また、翻訳方向ごとに、例えば副詞や人称代名詞などの特定の種類の単語を、概念クラス間の比較の対象から外すようにしてもよい。さらに、利用用例対の候補から出力する用例対を選択するとき、類似度等のスコア順に所定の個数を選択するように構成してもよい。
【0087】
次に、本実施の形態のかかる機械翻訳装置100による各処理の具体例について説明する。まず、利用可否情報設定処理の具体例について説明する。ここでは、用例記憶部121には、図2のような情報が予め格納されており、シソーラス記憶部122には、図3のような情報が予め格納されていることを前提とする。また、概念取得部103には、用例分析情報が未だ格納されていない状態であることを前提とする。さらに、翻訳方向は、原言語が日本語であり、対象言語が英語である場合を想定して説明を行う。
【0088】
また、利用可否情報設定処理では、用例記憶部121に記録されている全ての用例対が処理されるが、ここでは、典型的な処理例となる用例対をいくつか取り上げて、その具体的動作を説明する。
【0089】
まず、図2のアドレスa4のエントリに示した用例対(以下、用例対E4という)に対する利用可否情報設定処理の具体例を説明する。
【0090】
ステップS601で用例対E4が取得されると、用例対E4のための新しい用例分析情報のエントリとして、図4のアドレスc4のエントリ(以下、エントリc4という)が生成される(ステップS602)。
【0091】
用例対E4に含まれる日本語用例J(今朝鼻血が出ました。)(以下、日本語用例J4という)、および英語用例E「My son ha nosebleed this morning.」(以下、英語用例E4という)は共に未処理であるため、最初に、日本語用例J4が取り出されたとする(ステップS603)。
【0092】
なお、用例対E4の日本語用例Jは、主語が省略されて、不特定の誰かが今朝鼻血を出したことを意味する用例である。一方、用例対E4の英語用例Eは、息子が今朝鼻血を出したことを意味する用例である。したがって、英語から日本語への翻訳は必ずしも誤訳にはならないが、日本語から英語への翻訳は、主体が息子でない状況では誤訳になる。
【0093】
次に、図3に示したシソーラス記憶部122が参照され、日本語用例J4に現れる単語207(今朝)および単語208(鼻血)が、シソーラス記憶部122のアドレスb1のエントリ(単語301)およびアドレスb2のエントリ(単語304)とマッチングされる。そして、それぞれ、概念クラス「時間」および「生理現象」に属することが抽出され、エントリc4の日用例概念クラスリストJの欄に記録される(ステップS604)。
【0094】
用例対E4には未処理の英語用例E4が存在するため(ステップS605:NO)、次に英語用例E4が抽出され(ステップS603)、同様の処理が行われる。この場合は、英語用例E4に現れる「son」、「nosebleed」、および「morning」という単語から、シソーラス記憶部122のアドレスb3、b2、およびb1のエントリを根拠として、概念クラス「人物」、「生理現象」、および「時間」が抽出される。そして、抽出された概念クラスが、エントリc4の英用例概念クラスリストEの欄に記録される(ステップS604)。
【0095】
用例対E4のすべての用例を処理したため(ステップS605:YES)、利用可否判断部104に、用例対E4のための新しい利用可否情報として、図5のアドレスd4のエントリ(以下、エントリd4という)が新たに生成される(ステップS606)。
【0096】
次に、利用可否判断処理により、用例対E4の各翻訳方向についての利用可否が判断され、それぞれの結果が、図5に示したとおりにエントリd4に追記される(ステップS607)。
【0097】
すなわち、まず用例対E4には、日本語用例と英語用例のみが含まれるため、中国語を含む翻訳方向である、日→中、英→中、中→日、および中→英の欄には記号「−」が記録される(ステップS703)。
【0098】
また、エントリc4の日用例概念クラスリストJの内容が「時間、生理現象」であり、かつ、エントリc4の英用例概念クラスリストEの内容が「人物、生理現象、時間」であることから、不一致概念「人物」が存在すると判断される(ステップS705:YES)。この場合、原言語側の概念クラスと階層関係にない概念クラス「人物」が増加することになるため、翻訳方向「日→英」の欄には記号「×」が記録される(ステップS706:NO、ステップS708)。
【0099】
また、同様の処理により、翻訳方向が英→日の欄には、記号「○」が記録される(ステップS709)。以上の処理により、用例対E4に関する利用可否情報設定処理が終了する。このように、本実施の形態の方法によれば、用例対E4で誤訳が生じうる日→英の翻訳方向のみ利用を制限するように利用可否情報を設定できる。
【0100】
次に、図2のアドレスa6のエントリに示した用例対(以下、用例対E6という)に対する利用可否情報設定処理の具体例を説明する。
【0101】
ステップS601で用例対E6が取得されると、用例対E6のための新しい用例分析情報のエントリとして、図4のアドレスc6のエントリ(以下、エントリc6という)が生成される(ステップS602)。
【0102】
用例対E6に含まれる日本語用例J(一時間10元です。)、英語用例E「10 yuan for each car per hour.」、および中国語用例Cについて、上述と同様の処理により、概念クラスのリストが抽出される。具体的には、それぞれ、「時間、通貨」、「通貨、時間、乗り物」、および「乗り物、時間、通貨」が抽出される。抽出された概念クラスは、それぞれ図4のエントリc6の日用例概念クラスリストJ、英用例概念クラスリストE、および中用例概念クラスリストCの欄に記録される。
【0103】
なお、用例対E6の日本語用例Jは、目的語が省略されて、不特定の何かについての1時間あたりの使用料金が10元であることを意味する用例である。一方、用例対E4の英語用例Eおよび中国語用例Cは、車の1時間あたりの使用料金が10元であることを意味する用例である。したがって、英語または中国語から日本語への翻訳は必ずしも誤訳にはならないが、日本語から英語または中国語への翻訳は、目的語が車でない状況では誤訳になる。
【0104】
その後、利用可否判断部104に、用例対E6のための新しい利用可否情報として、図5のアドレスd6のエントリ(以下、エントリd6という)が新たに生成される(ステップS606)。
【0105】
次に、利用可否判断処理により、用例対E6の各翻訳方向についての利用可否が判断され、それぞれの結果が、図5に示したとおりにエントリd6に追記される(ステップS607)。
【0106】
すなわち、まず、用例対E6は、日本語、英語、および中国語の全ての用例を含むので、ステップS703で記号「−」が設定されることはない。
【0107】
一方、用例対E6に対応するエントリc6では、英用例概念クラスリストEおよび中用例概念クラスリストCに、日用例概念クラスリストJには存在せずに、階層関係も存在しない概念クラス「乗り物」が含まれている。このため、エントリd6の翻訳方向「日→英」と、「日→中」の欄に記号「×」が記録される(ステップS706:YES、ステップS708)。
【0108】
また、同様の処理により、翻訳方向、英→日、英→中、中→日、および、中→英の欄に記号「○」が記録される(ステップS709)。以上の処理により、用例対E6に関する利用可否情報設定処理が終了する。このように、本実施の形態の方法によれば、用例対E6で誤訳が生じうる日→英および日→中の翻訳方向のみ利用を制限するように利用可否情報を設定できる。
【0109】
次に、図2のアドレスa5のエントリに示した用例対(以下、用例対E5という)に対する利用可否情報設定処理の具体例を説明する。
【0110】
ステップS601で用例対E5が取得されると、用例対E5のための新しい用例分析情報のエントリとして、図4のアドレスc5のエントリ(以下、エントリc5という)が生成される(ステップS602)。
【0111】
用例対E5に含まれる日本語用例J(道具のレンタル料はいくらですか?)および英語用例E「How much does it cost to rent a racket?」について、上述と同様の処理により、概念クラスのリストが抽出される。具体的には、それぞれ、「道具、通貨」、および「通貨、スポーツ用具」が抽出される。抽出された概念クラスは、それぞれ図4のエントリc5の日用例概念クラスリストJ、および英用例概念クラスリストEの欄に記録される。
【0112】
なお、用例対E5の日本語用例Jは、何らかの道具のレンタル料を問い合わせることを意味する用例である。一方、用例対E5の英語用例Eは、具体的な道具の1つであるラケットのレンタル料を問い合わせることを意味する用例である。したがって、英語から日本語への翻訳は必ずしも誤訳にはならないが、日本語から英語への翻訳は、道具がラケットでない状況では誤訳になる。
【0113】
その後、利用可否判断部104に、用例対E5のための新しい利用可否情報として、図5のアドレスd5のエントリ(以下、エントリd5という)が新たに生成される(ステップS606)。
【0114】
次に、利用可否判断処理により、用例対E5の各翻訳方向についての利用可否が判断され、それぞれの結果が、図5に示したとおりにエントリd5に追記される(ステップS607)。
【0115】
すなわち、まず、用例対E6は、日本語および英語の用例のみを含むので、翻訳方向、日→中、英→中、中→日、および中→英の欄に記号「−」が記録される(ステップS703)。
【0116】
次に、まず、用例対E5に対応するエントリc5では、日用例概念クラスリストJの内容と、英用例概念クラスリストEの内容との間に、「道具」および「スポーツ用具」という概念クラスの不一致部分が検出される(ステップS705:YES)。また、図3のシソーラス記憶部122から、概念クラス「道具」に対応するアドレスb7のエントリ(以下、エントリb7という)と、概念クラス「スポーツ用具」に対応する、アドレスb8のエントリ(以下、エントリb8という)とが取得される。
【0117】
そして、エントリb7の下位概念IDリストが、エントリb8を示す値であるb8を含むことから、概念クラス「スポーツ用具」が、概念クラス「道具」の下位概念であると判断することができる。このため、ステップS707の判断基準により、エントリd5の翻訳方向「日→英」の欄に記号「×」が記録される(ステップS707:NO、ステップS708)。
【0118】
また、同様の処理により、翻訳方向、英→日の欄に記号「○」が記録される(ステップS709)。以上の処理により、用例対E5に関する利用可否情報設定処理が終了する。このように、本実施の形態の方法によれば、用例対E5で誤訳が生じうる日→英の翻訳方向のみ利用を制限するように利用可否情報を設定できる。
【0119】
次に、機械翻訳処理の具体例について説明する。
【0120】
まず、原言語を英語、対象言語を日本語とする翻訳方向が設定されたとする(ステップS801)。次に、英語による原言語入力I「My son had a nosebleed this morning.」(以下、英語入力1という)が受付けられたとする(ステップS802:YES)。
【0121】
この場合、用例対検索部102によって、用例記憶部121から、英語入力1と英語用例が一致する用例対E4が検索され、アドレスa4のエントリ(以下、エントリa4という)が検索される(ステップS803)。
【0122】
次に、用例対E4に対応する利用可否情報であるエントリd4が検索される(ステップS805)。エントリd4の英→日の欄が「○」であることから、用例対E4の英→日の翻訳方向での利用が可能であると判定される(ステップS806:YES)。そして、出力制御部105が、用例対E4の日本語用例(今朝鼻血が出ました。)を翻訳結果として出力する(ステップS808)。
【0123】
なお、この場合は、出力される日本語用例には、英語用例に含まれる概念クラス「人物」に対応する単語である「son」に対応する単語が含まれない。しかし、日本語では、このように主語を省略することが許容されるため、翻訳結果の自然性や確実性は損なわれない。
【0124】
一方、ステップS801で原言語を日本語、対象言語を英語とする翻訳方向が設定され、図2のアドレスa4の日本語用例J(今朝鼻血が出ました。)と同一の日本語による原言語入力I(以下、日本語入力1という)が入力されたとする。この場合は、エントリd4の日→英の欄が「×」であることから、用例対E4の、日→英方向での利用は抑制される(ステップS806:NO)。
【0125】
この機能によって、日本語入力1には含まれない概念「人物」に対応する単語「son」を含む英語用例が利用されて、誤った翻訳が行われることを回避することができる。
【0126】
同様の機能によって、例えば、用例対E6に含まれる各言語の用例と一致する文や、その類似文が入力された場合にも、翻訳方向ごとに用例対E6を利用可能か否かが適切に判断され、誤訳の発生を防ぐことができる。
【0127】
すなわち、エントリd6の内容を参照することによって、図2のアドレスa6のエントリ(以下、エントリa6という)に含まれる日本語用例J(一時間10元です)と一致する入力文を、英語や中国語へ翻訳する際には、この用例対E6は利用できないと判断することができる。これにより、日本語用例Jには例えば「for each car」に相当する語句が含まれないにも関わらず、このような語句を含む英語用例Eが選択され、発話状況に沿わない誤った訳が出力されることを回避できる。
【0128】
一方、エントリa6に含まれる英語用例E「10 yuan for each car per hour.」や、中国語用例Cと一致する入力文を、それぞれ他の言語に翻訳する際には、用例対E6の利用は抑制されない。
【0129】
また、同様に、用例対E5に含まれる各言語の用例と一致する文や、その類似文が入力された場合にも、翻訳方向ごとに用例対E5を利用可能か否かが適切に判断され、誤訳の発生を防ぐことができる。
【0130】
すなわち、エントリd5の内容を参照することによって、図2のアドレスa5のエントリ(以下、エントリa5という)に含まれる日本語用例J(道具のレンタル料はいくらですか?)と一致する入力文が入力された際には、用例対E5は利用できないと判断することができる。これにより、日本語用例Jは道具がラケットであることを限定していないにもかかわらず、ラケットのレンタル料を問い合わせるための英語用例Eが選択され、発話状況に沿わない誤った訳が出力されることを回避できる。
【0131】
一方、エントリa5に含まれる英語用例E「How much does it cost to rent a racket?」と一致する入力文が入力された際には、用例対E5の利用は抑制されない。
【0132】
このように、第1の実施の形態にかかる機械翻訳装置では、各言語の用例に含まれる語句の概念クラスを比較し、両者が不一致の場合に概念クラス間の関係に応じて翻訳方向ごとの用例対の利用可否を判断し、利用可能な用例対のみを利用することができる。このため、確実性や自然性を損なわずにコーパスベースの機械翻訳を実行することが可能となる。
【0133】
(変形例)
なお、上述の説明では、概念クラスが増加する翻訳方向での用例対の利用を単に制限していた。これに対し、増加する概念クラスに対応する表現を削除した用例対を新たに生成することにより、この翻訳方向での翻訳を可能とするように構成してもよい。このような処理は、利用可否情報設定処理内で事前に実行してもよいし、機械翻訳処理内で実行するように構成してもよい。
【0134】
図9は、第1の実施の形態の変形例にかかる機械翻訳装置900の構成を示すブロック図である。図9に示すように、機械翻訳装置900は、用例記憶部121と、シソーラス記憶部122と、受付部101と、用例対検索部102と、概念取得部103と、利用可否判断部104と、用例追加部906と、出力制御部105と、を備えている。
【0135】
本変形例では、用例追加部906が追加されたことが、第1の実施の形態と異なっている。用例追加部906は、利用できないと判断された用例対を元に新たに生成した用例対を用例記憶部121に追加するものである。
【0136】
例えば、上述の方法では、図2のエントリa6については、日本語用例J(一時間10元です。)に概念クラス「乗り物」が含まれないため、日本語から英語または中国語への翻訳が抑制される。
【0137】
これに対し、本変形例の用例追加部906は、例えば英語用例Eのうち、概念クラス「乗り物」に対応する単語「for each car」を削除した新たな用例「10 yuan per hour.」を作成して用例記憶部121に追加し、日本語から英語への翻訳方向での利用可否情報を「○」に設定する。これにより、上述の方法では制限されていた翻訳方向「日→英」への翻訳が可能となる。
【0138】
また、上述の説明では、概念クラス間に上下関係があるとき、概念が詳細化(下位概念化)する翻訳方向での用例対の利用を制限していた。これに対し、下位側の概念クラスに対応する表現を、上位側の概念クラスに対応する表現に変更した用例対を新たに生成することにより、この翻訳方向での翻訳を可能とするように構成してもよい。
【0139】
例えば、上述の方法では、図2のエントリa5については、英語用例E「How much does it cost to rent a racket?」に含まれる概念クラス「スポーツ用具」が、日本語用例J(道具のレンタル料はいくらですか?)に含まれる概念クラス「道具」の下位概念であるため、日本語から英語への翻訳が抑制される。
【0140】
これに対し、本変形例の用例追加部906により、英語用例Eのうち、概念クラス「スポーツ用具」に対応する単語「racket」を上位概念の単語「tool」に変更した用例対を作成して用例記憶部121に追加し、日本語から英語への翻訳方向での利用可否情報を「○」に設定する。これにより、上述の方法では制限されていた翻訳方向「日→英」への翻訳が可能となる。
【0141】
(第2の実施の形態)
コーパスベース翻訳は、その方式の原理上、翻訳可能な文が限られ、無限のバリエーションを持つ入力文を全ては翻訳できないという欠点を有する。この欠点を解決するために、入力された原言語文と、コーパス中に記録されている用例対の原言語用例との間に相違があるときに、単語対訳辞書等を参照して相違部分を置換して翻訳結果とする対策がとられている。すなわち、例えば、対訳例の対象言語の相違部分に対応する部分を、単語対訳辞書等を参照して取得した相違部分の訳語と書き換えることにより、コーパス中の文と部分的に異なる入力に対しても正しい翻訳結果が得られるようにする工夫が成されている。なお、以下では、このような手法を訳文編集機能という。
【0142】
一方、例えば、故事成句、ことわざ、または固定された言い回し慣用表現等を含む用例対では、訳文編集機能によって、本来変更すべきでない表現を誤って編集することにより誤訳が生じる場合があった。
【0143】
第2の実施の形態にかかる機械翻訳装置は、各言語の用例に含まれる語句の概念クラスを比較し、両者の不一致部分の割合が所定値以下の場合に、訳文編集機能を抑止するものである。
【0144】
図10は、第2の実施の形態にかかる機械翻訳装置1000の構成を示すブロック図である。図10に示すように、機械翻訳装置1000は、用例記憶部121と、シソーラス記憶部122と、受付部101と、用例対検索部102と、概念取得部103と、利用可否判断部1004と、訳文編集部1007と、出力制御部105と、を備えている。
【0145】
第2の実施の形態では、訳文編集部1007を追加したこと、および利用可否判断部1004の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる機械翻訳装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
【0146】
利用可否判断部1004は、各用例対に含まれる各言語の用例間の概念クラスの比率に応じて訳文編集の可否を判断する機能が追加された点が、第1の実施の形態の利用可否判断部104と異なっている。
【0147】
具体的には、利用可否判断部1004は、原言語用例または対象言語用例に含まれる概念クラスの個数に対する、不一致概念の個数の比率が、予め定められた閾値より大きいか否かを判断し、大きい場合に、訳文編集ができないと判断する。これは、概念クラスが一致しない比率が大きい場合は、故事成句のように言語間で大きく意訳されている用例を含む用例対であると判断し、訳文編集を抑止するためである。
【0148】
利用可否判断部1004は、訳文編集の可否の判断結果をさらに追加した利用可否情報を保持する。図11は、利用可否判断部1004が保持する利用可否情報の一例を示す説明図である。図11に示すように、本実施の形態では、訳文編集の可否を表す訳文編集欄が追加されている。訳文編集欄には、訳文編集が可能である場合には記号「○」が、訳文編集ができない場合には記号「×」が記録される。
【0149】
訳文編集部1007は、入力された原言語入力に対して用例対検索部102が用例記憶部121から検索した用例対に対して、原言語入力と用例対の原言語用例との間の相違部分を元に、用例対の対象言語用例を編集して、原言語入力の対訳を生成するものである。
【0150】
訳文編集部1007による処理は、原言語入力と、用例対の原言語用例との間の単語間の対応関係を表すアライメントや差分、用例対の原言語用例と対象言語用例の間のアライメントや差分、および、原言語単語から対象言語単語への対訳辞書などを用いて行われる、従来の用例翻訳処理と同様の処理で実現できる。
【0151】
また、訳文編集部1007は、機械翻訳処理で、検索された用例対に対応する利用可否情報の訳文編集欄を参照し、その値が「×」の場合は、訳文編集機能を使わない。
【0152】
次に、このように構成された第2の実施の形態にかかる機械翻訳装置1000による利用可否判断処理について図12を用いて説明する。なお、利用可否情報設定処理の全体の流れは図6と同様であるため説明を省略する。図12は、第2の実施の形態における利用可否判断処理の全体の流れを示すフローチャートである。
【0153】
ステップS1201からステップS1205までの、用例存在判定処理、概念クラス取得処理、および不一致概念判定処理は、第1の実施の形態にかかる機械翻訳装置100におけるステップS701からステップS705までと同様の処理なので、その説明を省略する。
【0154】
不一致概念が存在する場合(ステップS1205:YES)、利用可否判断部1004は、原言語用例または対象言語用例内の概念クラスの個数に対する不一致概念の個数の比率を算出する(ステップS1206)。
【0155】
次に、利用可否判断部1004は、比率が所定の閾値より大きいか否かを判断し(ステップS1207)、大きい場合は(ステップS1207:YES)、エントリDの対応する翻訳方向の欄に記号「○」を記録し、訳文編集欄に記号「×」を記録する(ステップS1208)。
【0156】
比率が所定の閾値より大きくない場合は(ステップS1207:NO)、利用可否判断部1004は、エントリDの対応する訳文編集欄に記号「○」を記録する(ステップS1209)。なお、この場合は、以下のステップS1210〜ステップS1213の処理によって、翻訳方向の欄に値が設定される。
【0157】
ステップS1210からステップS1214までは、第1の実施の形態にかかる機械翻訳装置100におけるステップS706からステップS710までと同様の処理なので、その説明を省略する。
【0158】
次に、このように構成された第2の実施の形態にかかる機械翻訳装置1000による機械翻訳処理について図13を用いて説明する。図13は、第2の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
【0159】
ステップS1301からステップS1307までの入力受付処理、用例対検索処理、利用可否情報判定処理、および処理完了判定処理は、第1の実施の形態にかかる機械翻訳装置100におけるステップS801からステップS807までと同様の処理なので、その説明を省略する。
【0160】
利用可否情報の設定された翻訳方向に対応する欄に「○」が設定されている場合は(ステップS1306:YES)、訳文編集部1007が、訳文編集欄に「○」が設定されているか否かを判断する(ステップS1308)。
【0161】
訳文編集欄に「○」が設定されている場合は(ステップS1308:YES)、訳文編集部1007が、訳文編集処理を実行する(ステップS1309)。なお、原言語用例と一致する原言語入力Iが受付けられた場合等では、訳文編集処理を実行する必要なない。
【0162】
訳文編集処理の後、またはステップS1308で訳文編集欄に「○」が設定されていない場合は(ステップS1308:NO)、出力制御部105が、用例対候補Eの対象言語用例を翻訳結果として出力する(ステップS1310)。
【0163】
次に、本実施の形態のかかる機械翻訳装置1000による各処理の具体例について説明する。まず、利用可否情報設定処理の具体例について説明する。
【0164】
まず、故事成句を含む用例対として、図2のアドレスa7のエントリ(以下、エントリa7という)の用例対(以下、用例対E7という)が記録されていたとする。利用可否情報設定処理では、用例対E7に関して、図4のアドレスc7のエントリ(以下、エントリc7という)が生成され、さらに図5のアドレスd7のエントリ(以下、エントリd7という)が生成される。
【0165】
なお、用例対E7の中国語用例Cは、故事成句として知られている用例である。一方、用例対E7の日本語用例Jは、この故事成句を意訳した文の1つを表している。したがって、中国語から日本語への翻訳は必ずしも誤訳にはならない。一方、この故事成句を意訳した別の日本語文が入力された場合には、訳文編集機能により、日本語文と日本語用例Jとの相違部分を元にして変更すべきでない中国語の故事成句が編集される可能性がある。
【0166】
この例では、図4のエントリc7の、日用例概念クラスリストJの内容(狙う、果たす、私、励ます)と、中用例概念クラスリストCの内容(眠る、燃やす、嘗める、ほぐれる)の間に一致する概念クラスが存在しない。このため、訳文編集の利用が不可能であることが判断され(ステップS1207:YES)、エントリd7の訳文編集の欄に記号「×」が記録される(ステップS1208)。
【0167】
次に、このように訳文編集が抑制されることによって、誤訳が回避できる具体例について図14を用いて説明する。図14は、この具体例で扱われる各種情報の一例を示す説明図である。
【0168】
機械翻訳処理で、例えば原言語入力Iとして、日本語文1401(荷物を担ぐため自らを励ました)が入力されたとする。この日本語文1401は、図2のアドレスa7に対応する日本語用例J(目的を成し遂げるために自らを励ました)と単語二つが違うのみである。このため、従来の用例翻訳処理では、この相違を吸収するための訳文編集処理が実行される可能性があった。
【0169】
なお、ここでは、用例対E7を構成する日本語用例J(目的を成し遂げるために自らを励ました)と中国語用例Cとの間で、その構文構造の一致性から、例えば、図14のアライメント1402〜1405が生成されていたものとする。なお、アライメント1402〜1405の記号「/」は、左側が日本語の語句、右側が中国語の語句を表し、両者が対応づけられていることを表している。
【0170】
この場合、日本語文1401と、上記日本語用例Jとの差分に当たる日本語の単語1406(担ぐ)および単語1407(荷物)に対応する中国語の単語が、それぞれ図14の単語1408および単語1409であることから、用例対E7の中国語用例C中の単語のである図14の単語1410および単語1411が、それぞれ単語1408および単語1409で置換され、中国語の訳語1412が得られる可能性があった。
【0171】
すなわち、この中国語用例Cは故事成句であるので、従来の方法では、訳文編集機能を適応すると誤訳を生じる可能性がある。一方、第2の実施の形態の方法によれば、用例対を構成する用例間の意味的な類似性に基づいて、訳文編集の実施可否を適切に判断できるため、このような誤訳の発生を抑制することができる。
【0172】
(第3の実施の形態)
第3の実施の形態にかかる機械翻訳装置は、用例記憶部121に新たに用例対を登録可能とし、登録するときに、用例対の利用可否を判断して、判断結果を利用者に提示するものである。
【0173】
図15は、第3の実施の形態にかかる機械翻訳装置1500の構成を示すブロック図である。図8に示すように、機械翻訳装置1500は、用例記憶部121と、シソーラス記憶部122と、受付部1501と、用例対検索部102と、概念取得部103と、利用可否判断部104と、出力制御部1505と、を備えている。
【0174】
第3の実施の形態では、受付部1501および出力制御部1505の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる機械翻訳装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
【0175】
受付部1501は、原言語入力に加えて、用例記憶部121に登録する用例対候補の入力を受付け可能とした点が、第1の実施の形態の受付部101と異なっている。受付部1501は、例えばキーボードなどのインタフェース(図示せず)から入力されたテキストの入力を受け付けるように構成することができる。
【0176】
出力制御部1505は、受付けられた用例対候補に対する利用可否の判断結果を利用者に提示する機能が追加された点が、第1の実施の形態の出力制御部105と異なっている。
【0177】
次に、このように構成された第3の実施の形態にかかる機械翻訳装置1500による利用可否情報提示処理について図16を用いて説明する。なお、利用可否情報提示処理とは、受付けた用例対候補の利用可否を判断してその結果を提示する処理をいう。図16は、第3の実施の形態における利用可否情報提示処理の全体の流れを示すフローチャートである。
【0178】
まず、受付部1501が、利用者により入力された用例対候補を受付ける(ステップS1601)。
【0179】
ステップS1602からステップS1607までの、エントリ生成処理、概念クラス抽出処理、および利用可否判断処理は、第1の実施の形態にかかる機械翻訳装置100におけるステップS602からステップS607までと同様の処理なので、その説明を省略する。
【0180】
利用可否判断処理の後、出力制御部1505は、利用可否情報をディスプレイなどの表示装置(図示せず)に表示し(ステップS1608)、利用可否情報提示処理を終了する。
【0181】
図17は、利用可否情報の提示例を示す説明図である。図17に示すように、入力された用例対が利用できないと判断された場合は、利用が制限されるおそれがあることを示す警告を表示する。なお、同図では、利用が制限される根拠となった単語の対応関係を示すための下線1701および1702が表示された例が示されている。
【0182】
このように、第3の実施の形態にかかる機械翻訳装置では、用例対を登録する利用者に対して、登録する用例対がどのような翻訳方向で利用できるか、または利用できないかを知らせることができる。これにより、作業者に対する注意喚起や、用例対の修正の機会を与えることができる。
【0183】
次に、第1〜第3の実施の形態にかかる機械翻訳装置のハードウェア構成について図18を用いて説明する。図18は、第1〜第3の実施の形態にかかる機械翻訳装置のハードウェア構成を示す説明図である。
【0184】
第1〜第3の実施の形態にかかる機械翻訳装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
【0185】
第1〜第3の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、ROM52等に予め組み込まれて提供される。
【0186】
第1〜第3の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
【0187】
さらに、第1〜第3の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1〜第3の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0188】
第1〜第3の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、上述した各部(受付部、用例対検索部、概念取得部、利用可否判断部、出力制御部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から機械翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
【産業上の利用可能性】
【0189】
以上のように、本発明にかかる機械翻訳する装置、方法およびプログラムは、音声入力または文字入力した原言語文を対象言語に翻訳して文字出力または音声出力する装置に適している。
【図面の簡単な説明】
【0190】
【図1】第1の実施の形態にかかる機械翻訳装置の構成を示すブロック図である。
【図2】用例のデータ構造の一例を示す説明図である。
【図3】シソーラス情報のデータ構造の一例を示す説明図である。
【図4】用例分析情報の一例を示す説明図である。
【図5】第1の実施の形態における利用可否情報の一例を示す説明図である。
【図6】第1の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
【図7】第1の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
【図8】第1の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
【図9】第1の実施の形態の変形例にかかる機械翻訳装置の構成を示すブロック図である。
【図10】第2の実施の形態にかかる機械翻訳装置の構成を示すブロック図である。
【図11】第2の実施の形態における利用可否情報の一例を示す説明図である。
【図12】第2の実施の形態における利用可否判断処理の全体の流れを示すフローチャートである。
【図13】第2の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
【図14】具体例で扱われる各種情報の一例を示す説明図である。
【図15】第3の実施の形態にかかる機械翻訳装置の構成を示すブロック図である。
【図16】第3の実施の形態における利用可否情報提示処理の全体の流れを示すフローチャートである。
【図17】利用可否情報の提示例を示す説明図である。
【図18】第1〜第3の実施の形態にかかる機械翻訳装置のハードウェア構成を示す説明図である。
【符号の説明】
【0191】
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 機械翻訳装置
101 受付部
102 用例対検索部
103 概念取得部
104 利用可否判断部
105 出力制御部
121 用例記憶部
122 シソーラス記憶部
201、204 日本語用例
202、205 英語用例
203、206 中国語用例
207、208 単語
301、302、303、304 単語
900 機械翻訳装置
906 用例追加部
1000 機械翻訳装置
1004 利用可否判断部
1007 訳文編集部
1401 日本語文
1402 アライメント
1406、1407、1408 単語
1409 訳語
1500 機械翻訳装置
1501 受付部
1505 出力制御部
1701、1702 下線

【特許請求の範囲】
【請求項1】
意味が等価となりうる少なくとも2つの言語の用例を相互に対応づけた用例対を記憶する用例記憶部と、
第1言語の語句と、第2言語の語句と、前記第1言語の語句および前記第2言語の語句に共通する意味を表す概念と、を対応づけて記憶する概念記憶部と、
前記用例記憶部に記憶された前記用例対の第1言語の用例に含まれる語句それぞれに対応する前記概念を第1概念として前記概念記憶部から取得する第1概念取得部と、
前記用例記憶部に記憶された前記用例対の第2言語の用例に含まれる語句それぞれに対応する前記概念を第2概念として前記概念記憶部から取得する第2概念取得部と、
前記第1概念と前記第2概念との間で一致しない不一致概念が存在するか否かを判断し、前記不一致概念が存在する場合に、前記不一致概念が存在する前記用例対が利用できないと判断する判断部と、
第1言語による入力文を受付ける受付部と、
前記入力文に類似または一致する前記第1言語の用例を含む前記用例対を検索する用例対検索部と、
検索された前記用例対のうち、利用できないと判断された前記用例対を削除する削除部と、
利用できないと判断された前記用例対が削除された前記用例対に含まれる前記第2言語の用例を翻訳結果として出力する出力制御部と、
を備えたことを特徴とする機械翻訳装置。
【請求項2】
前記判断部は、前記不一致概念が存在し、前記不一致概念が前記第2概念のみに含まれる場合に、第1言語から第2言語への翻訳方向での前記用例対の利用ができないと判断すること、
を特徴とする請求項1に記載の機械翻訳装置。
【請求項3】
前記判断部は、さらに、前記不一致概念が存在し、前記不一致概念が前記第1概念のみに含まれる場合に、第1言語から第2言語への翻訳方向での前記用例対が利用できると判断すること、
を特徴とする請求項1に記載の機械翻訳装置。
【請求項4】
前記判断部は、前記第1概念が表す意味と、前記第2概念が表す意味との間の意味距離が予め定められた第1閾値より大きい場合に、前記第1概念と前記第2概念とが一致しないと判断すること、
を特徴とする請求項1に記載の機械翻訳装置。
【請求項5】
前記概念記憶部は、前記第1言語の語句と、前記第2言語の語句と、前記概念と、前記概念の下位の意味を表す下位概念と、を対応づけて記憶し、
前記判断部は、前記不一致概念が存在する場合に、さらに前記第1概念に含まれる前記不一致概念に対応する前記下位概念を前記概念記憶部から取得し、取得した前記下位概念と前記第2概念に含まれる前記不一致概念とが一致する場合に、第1言語から第2言語への翻訳方向での前記用例対が利用できないと判断すること、
を特徴とする請求項1に記載の機械翻訳装置。
【請求項6】
前記第1概念に含まれる前記不一致概念に対応する前記下位概念を前記概念記憶部から取得し、取得した前記下位概念と前記第2概念に含まれる前記不一致概念とが一致する場合に、前記不一致概念を前記下位概念の上位の前記概念に置換した第2言語の用例を含む用例対を作成して前記用例記憶部に追加する追加部をさらに備え、
前記判断部は、さらに、追加した前記用例対について、第1言語から第2言語への翻訳方向での前記用例対が利用できると判断すること、
を特徴とする請求項5に記載の機械翻訳装置。
【請求項7】
前記判断部は、前記不一致概念が存在する場合に、さらに前記第2概念に含まれる前記不一致概念に対応する前記下位概念を前記概念記憶部から取得し、取得した前記下位概念と前記第1概念に含まれる前記不一致概念とが一致する場合に、第1言語から第2言語への翻訳方向での前記用例対が利用できると判断すること、
を特徴とする請求項5に記載の機械翻訳装置。
【請求項8】
前記受付部は、さらに、用例対の入力を受付け、
前記第1概念取得部は、受付けた前記用例対について、前記第1概念を前記概念記憶部から取得し、
前記第2概念取得部は、受付けた前記用例対について、前記第2概念を前記概念記憶部から取得し、
前記判断部は、さらに、受付けた前記用例対について、前記不一致概念が存在するか否かを判断し、前記不一致概念が存在する場合に、受付けた前記用例対が利用できないと判断し、
前記出力制御部は、さらに、受付けた前記用例対の利用可否の判断結果を出力すること、
を特徴とする請求項1に記載の機械翻訳装置。
【請求項9】
前記入力文と、検索された前記用例対に含まれる前記第1言語の用例との間の差異部分に基づいて、検索された前記用例対に含まれる前記第2言語の用例を編集可能な編集部をさらに備え、
前記判断部は、さらに、前記第1概念の個数または前記第2概念の個数に対する前記不一致概念の個数の割合と予め定められた第2閾値とを比較し、前記割合が前記第2閾値より大きい場合に、前記用例対が編集できないと判断し、
前記編集部は、前記用例対検索部により、前記入力文に類似する前記第1言語の用例を含む前記用例対が検索され、前記判断部により、検索された前記用例対が編集できないと判断されていない場合に、取得された前記用例対に含まれる前記第2言語の用例を編集し、
前記用例翻訳部は、さらに、前記編集部により編集された前記第2言語の用例を翻訳結果として取得すること、
を特徴とする請求項1に記載の機械翻訳装置。
【請求項10】
第1概念取得部によって、第1言語の語句と、第2言語の語句と、前記第1言語の語句および前記第2言語の語句に共通する意味を表す概念と、を対応づけて記憶する概念記憶部から、意味が等価となりうる少なくとも2つの言語の用例を相互に対応づけた用例対を記憶する用例記憶部に記憶された前記用例対の第1言語の用例に含まれる語句それぞれに対応する前記概念を第1概念として取得する第1概念取得ステップと、
第2概念取得部によって、前記概念記憶部から、前記用例記憶部に記憶された前記用例対の第2言語の用例に含まれる語句それぞれに対応する前記概念を第2概念として取得する第2概念取得ステップと、
判断部によって、前記第1概念と前記第2概念との間で一致しない不一致概念が存在するか否かを判断し、前記不一致概念が存在する場合に、前記不一致概念が存在する前記用例対が利用できないと判断する判断ステップと、
受付部によって、第1言語による入力文を受付ける受付ステップと、
用例対検索部によって、前記入力文に類似または一致する前記第1言語の用例を含む前記用例対を検索する用例対検索ステップと、
削除部によって、検索された前記用例対のうち、利用できないと判断された前記用例対を削除する削除ステップと、
出力制御部によって、利用できないと判断された前記用例対が削除された前記用例対に含まれる前記第2言語の用例を翻訳結果として出力する出力制御ステップと、
を備えたことを特徴とする機械翻訳方法。
【請求項11】
第1言語の語句と、第2言語の語句と、前記第1言語の語句および前記第2言語の語句に共通する意味を表す概念と、を対応づけて記憶する概念記憶部から、意味が等価となりうる少なくとも2つの言語の用例を相互に対応づけた用例対を記憶する用例記憶部に記憶された前記用例対の第1言語の用例に含まれる語句それぞれに対応する前記概念を第1概念として取得する第1概念取得手順と、
前記概念記憶部から、前記用例記憶部に記憶された前記用例対の第2言語の用例に含まれる語句それぞれに対応する前記概念を第2概念として取得する第2概念取得手順と、
前記第1概念と前記第2概念との間で一致しない不一致概念が存在するか否かを判断し、前記不一致概念が存在する場合に、前記不一致概念が存在する前記用例対が利用できないと判断する判断手順と、
第1言語による入力文を受付ける受付手順と、
前記入力文に類似または一致する前記第1言語の用例を含む前記用例対を検索する用例対検索手順と、
検索された前記用例対のうち、利用できないと判断された前記用例対を削除する削除手順と、
利用できないと判断された前記用例対が削除された前記用例対に含まれる前記第2言語の用例を翻訳結果として出力する出力制御手順と、
をコンピュータに実行させる機械翻訳プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公開番号】特開2009−15512(P2009−15512A)
【公開日】平成21年1月22日(2009.1.22)
【国際特許分類】
【出願番号】特願2007−175379(P2007−175379)
【出願日】平成19年7月3日(2007.7.3)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】