説明

対訳辞書作成方法および装置、ならびにコンピュータプログラム

【課題】任意の言語の組合せに対し自動的に対訳辞書を作成できるようにする。
【解決手段】この方法は、第1言語の話者のための、第1言語から第3言語への方向性を持つ第1の辞書と、第2言語の話者のための、第2言語から第3言語への方向性を持つ第2の辞書とを、電子的に読取可能な形で準備するステップ52と、第1の辞書の内容語に関する各エントリと第2の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる第3言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するステップ54と、抽出するステップで抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積するステップ56とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は自然言語に関する電子的辞書の自動構築技術に関し、特に、言語の組合せを問わず、自動的に機械翻訳に適した対訳辞書を構築することができる辞書作成方法および装置に関する。
【背景技術】
【0002】
機械翻訳においては、対訳辞書は最も基本的かつ重要な資源である。しかし、対訳辞書の構築には長い時間と多大なコストとを要する。今後、様々な言語の間での自動翻訳に対する需要が増大することが予測されるが、言語の組合せは言語の数に応じて指数関数的に増大するため、いかにして対訳辞書を構築するかが重要な課題である。
【0003】
電子的な対訳辞書の構築方法には様々な手法が存在する。従来の手法のうち、最も興味深いものとして、パピヨンプロジェクト(The Papillon Project:非特許文献1)がある。この文献は、大規模、詳細、かつ一定原則にしたがった辞書を作成するための多言語語彙データを構築することに主眼をおいている。多言語辞書を作成するための主たる資源は単言語辞書である。それら単言語辞書を言語間のリンクに関連付け、多言語辞書作成のためのデータベースとする。このような方法により多言語辞書を作成する場合には数多くの協力者および専門家を必要とする。
【0004】
このプロジェクトに関連した研究として、英仏辞書および日英辞書から日仏辞書を作成する試みが非特許文献2に開示されている。
【非特許文献1】クリスティアン ボアト他2名、「パピヨンプロジェクト:オープンソース辞書および語彙目録を導出するための多言語語彙データベースの共同構築」、第2回ワークショップ、NLPXML−2002、pp.93−96、2002年(Christian Boitet et al., The Papillon project: cooperatively building a multilingual lexical data-base to derive open source dictionaries & lexicons", the 2nd Workshop NLPXML-2002, pp. 93-96)
【非特許文献2】クミコ タナカ他1名、「第3言語を介した2言語辞書の作成」、COLING−94、pp.297−303、1994年(Kumiko Tanaka et al., "Construction of a Bilingual Dictionary Intermediated by a Third Language", COLING-94, pp. 297-303.)
【発明の開示】
【発明が解決しようとする課題】
【0005】
上記したような多言語間の機械翻訳を実現する場合には、多くの言語の組合せに対する対訳辞書が必要となる。しかもそのための時間およびコストを最小限に抑える必要がある。また、通常は対訳辞書の作成には両言語に精通した専門家が必要とされるが、言語の組合せが多様になると、そのような専門家を探すことも困難になる。そのため、対訳の対象となる言語に精通していない作業者であっても、任意の言語の組合せに対して対訳辞書を効率よく作成できるように、自動的に対訳辞書を作成するための技術が必要とされている。
【0006】
上記した従来技術では、対訳辞書を作成する技術の必要性と、そのための試みとは示されているものの、任意の言語の組合せに対して、自動的にかつ効率よく対訳辞書を作成するための方策は示されていない。また、機械翻訳の性質上、利用可能な資源からできるだけ多くのエントリを抽出できることが望ましいが、そのための方策も従来技術には示されていない。
【0007】
それゆえに本発明の目的は、任意の言語の組合せに対しても、自動的に対訳辞書を作成することが可能な対訳辞書作成方法および装置を提供することである。
【0008】
本発明のほかの目的は、任意の言語の組合せに対しても,自動的にできるだけ多くのエントリを持つ対訳辞書を作成できる対訳辞書作成方法および装置を提供することである。
【課題を解決するための手段】
【0009】
本発明の第1の局面に係る対訳辞書作成方法は、第1言語と第2言語との間の対訳辞書を、第3言語を仲介として自動的に作成するための対訳辞書作成方法であって、第1言語の話者のための、第1言語から第3言語への方向性を持つ第1の辞書と、第2言語の話者のための、第2言語から第3言語への方向性を持つ第2の辞書とを、電子的に読取可能な形で準備するステップと、第1の辞書の内容語に関する各エントリと第2の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる第3言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するステップと、抽出するステップで抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積する第1のステップとを含む。
【0010】
上のような方向性を持つ第1および第2の辞書を選択し、それら辞書から、類似度の値がしきい値以上となるエントリ対に対応する内容語対を抽出することにより、それらと異なる方向性を持つ辞書を使用した場合と比較して、より高い精度でかつ多くの見出しを含む第1言語と第2言語の対訳辞書を作成できることが実験により確かめられた。辞書の作成手順は自動的で、利用者は対訳辞書の言語の組合せを指定するだけでよい。したがって、多くの言語の組合せに対して、精度の高い対訳辞書を短時間に作成できる。また、この方法によれば第1言語と第2言語との双方に精通した専門家は不要であり、非常に多くの言語の組合せに対しても、容易に対訳辞書を作成できる。
【0011】
好ましくは、準備するステップは、各々、所定の言語話者のための、所定の方向性を持つ、電子的に読取可能な複数個の2言語辞書を準備するステップと、第1言語および第2言語に関する指定を受けるステップと、複数個の2言語辞書から、指定を受けるステップで指定された第1言語から他言語への方向性を持つ辞書と、指定を受けるステップで指定された第2言語から上記他言語への方向性を持つ辞書とからなる辞書対を選択するステップとを含む。
【0012】
より好ましくは、準備するステップは、各々、所定の言語話者のための、所定の方向性を持つ、電子的に読取可能な複数個の2言語辞書を準備するステップと、第1言語および第2言語、ならびに第3言語に関する指定を受けるステップと、複数個の2言語辞書から、指定を受けるステップで指定された第1言語から第3言語への方向性を持つ辞書と、指定を受けるステップで指定された第2言語から第3言語への方向性を持つ辞書とからなる辞書対を選択するステップとを含む。
【0013】
さらに好ましくは、選択するステップでは、複数個の辞書対が選択されることがあり、準備するステップはさらに、選択するステップで選択された複数個の辞書対のうち、各辞書対に含まれるエントリ数の和が最も大きなものを選択するステップを含む。
【0014】
好ましくは、抽出するステップは、第1の辞書の各エントリxと、第2の辞書の各エントリyとの間の類似度S1(x,y)を次の式によって算出するステップを含む。
【0015】
【数1】

ただしZ(x)、Z(y)はそれぞれ、エントリx、y内に含まれる第3言語の訳語の集合を表し、記号|・|は集合の要素数を表す。抽出するステップはさらに、類似度S1(x,y)が予め定めるしきい値以上であるエントリ対(x,y)に対応する内容語対を抽出するステップを含んでもよい。
【0016】
より好ましくは、予め定めるしきい値は、エントリ対(x,y)に含まれる、第3言語の共通訳語数の関数である。
【0017】
さらに好ましくは、共通訳語数の関数は、共通訳語数に対する単調減少関数である。
【0018】
共通訳語数の関数は、共通訳語数が4以上のときには0に設定されるようにしてもよい。
【0019】
好ましくは、対訳辞書作成方法は、第1言語の話者のための、第3言語から第1言語への方向性を持つ第3の辞書と、第2言語の話者のための、第3言語から第2言語への方向性を持つ第4の辞書とを、電子的に読取可能な形で準備するステップと、第3言語の見出しに対応する、第3の辞書のエントリと第4の辞書のエントリとの双方から、所定条件を充足する第3言語の例文とその訳文とを抽出し、対訳文対を作成するステップと、対訳文対を作成するステップで作成された対訳文対のうち、訳文同士のアライメントを採るステップと、アライメントを採るステップで互いにアラインされたチャンクから、機能語対を抽出し電子的に読取可能な形式で蓄積する第2のステップと、電子的に読取可能な形式で蓄積する第1および第2のステップで蓄積された内容語対と機能語対とをマージするステップとをさらに含む。
【0020】
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、上記したいずれかの対訳辞書作成方法の全てのステップを実施するように当該コンピュータを制御する。
【0021】
本発明の第3の局面に係る対訳辞書作成装置は、第1言語と第2言語との間の対訳辞書を、第3言語を仲介として自動的に作成するための対訳辞書作成装置であって、第1言語の話者のための、第1言語から第3言語への方向性を持つ第1の辞書と、第2言語の話者のための、第2言語から第3言語への方向性を持つ第2の辞書とを、電子的に読取可能な形で準備するための辞書準備手段と、第1の辞書の内容語に関する各エントリと第2の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる第3言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するためのエントリ対抽出手段と、エントリ対抽出手段により抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積するための内容語対記憶手段とを含む。
【発明を実施するための最良の形態】
【0022】
[辞書の性質について]
従来の技術では、辞書の性質についてはあまり考慮されていない。しかし、実際には辞書の性質は対訳辞書の自動作成において非常に重要な意味を持つ。辞書の性質の典型的なものとしては、辞書が想定する母語と、辞書の方向性とがある。
【0023】
本明細書において「辞書の方向性」とは、どの言語のエントリからどの言語の語を引くか、という意味の方向性を示す。本明細書ではこの方向性を「⇒」で表す。例えば英和辞書の方向性は英語⇒日本語であり、和英辞書の方向性は「日本語⇒英語」である。韓英辞書であれば「韓国語⇒英語」であり、英韓辞書であれば「英語⇒韓国語」である。なお、以下の説明では、記載を簡易にするために言語について略号を用いる。例えば日本語は「J」、英語は「E」、韓国語は「K」などと記載する。したがって和英辞書は「J⇒E」、英和辞書は「E⇒J」と表す。
【0024】
辞書が想定する母語とは、辞書が想定している利用者の母語のことをいう。通常、日本で作成されている英和辞書も和英辞書も、日本語を母語とし、英語を外国語とする話者(以下「日本語話者」と呼ぶ。)を利用者として想定している。一方、例えばイギリスで作成された英和辞書があるとすれば、想定している利用者は英語を母語とする話者(「英語話者」と呼ぶ。以下、他の言語についても同様である。)である。本明細書では、辞書が想定している母語を表す略号を、辞書の方向性の前に小さな文字で付すこととする。したがって、日本語話者のための英和辞書は「E⇒J」、日本語話者のための和英辞書は「J⇒E」、韓国語話者のための韓英辞書は「K⇒E」、韓国語話者のための英韓辞書は「E⇒K」と表す。本明細書では、一般的に、言語Zの話者を対象として作成された、言語Xから言語Yへの辞書を「X⇒Y」と表す。
【0025】
辞書の方向性については、従来技術では考慮されていない。しかし、方向性は実は対訳辞書作成の上で非常に重要な概念である。例えば、日本語話者が使用する和英辞書(J⇒E)は、日本語話者が主として英語の文を書いたり英語で話したりするときに使用される。そうした状況では、当然のことながら日本語話者は、自分が英語に翻訳しようとする日本語の単語の意味を良く知っている。したがってその単語に関する詳細な説明を辞書に記載する必要はない。例外として、日本語にあって英語に対応する概念が存在しない単語の場合には、日本語のその概念を英語で表現するための説明的な記載が載せられていることがある。また、日本語に対応する英語を和英辞書で調べようとする場合、訳語の品詞(POS)に関する情報も二次的なものとなり、それほど重要ではない。
【0026】
一方、日本語話者のための英和辞書(E⇒J)は、日本語話者の観点から見て英語の単語の意味および用法などを知るために使用される。そのため、各エントリには、訳語だけではなく、語法、用法などの説明的情報、例文、および品詞などの文法的情報が付されていることが多い。
【0027】
例えば図4に示すように、日本語と英語において互いに対応する単語である「タンゴ」と「tango」とについて、和英辞書での「タンゴ」のエントリ160と、英和辞書の「tango」のエントリ162とは、その内容が大きく異なっている。エントリ160はごく簡単に訳語のみを挙げているのに対し、エントリ162の記載は詳細である。訳語だけではなく、その単語に関する説明、複数形および品詞などの文法的情報、例文などの情報が記載されている。言語間の対訳辞書を作成する場合、エントリ160のように訳語のみを挙げている場合の方が機械処理上では複雑さがなく、効率よく精度の高い対訳辞書を作成できる。一方、エントリ162のように訳語に関する説明文が多く含まれているものは、対訳辞書を作成する上での不要な情報を含むため、必要な機械処理が複雑になり、また誤りも多くなる。
【0028】
したがって、機械翻訳のための対訳辞書作成では、このような辞書の方向性と、その対象としている話者の言語とを考慮する必要がある。
【0029】
本願発明の発明者は、方向性を考慮し、英語を中間言語として日本語と韓国語との対訳辞書(以下「日韓対訳辞書」と呼ぶ。)を作成する実験を行なった。その結果、J⇒EとK⇒Eという辞書の組合せで日韓対訳辞書を作成すると、それ以外の組合せを用いた場合と比較してはるかによい結果を得ることができた。辞書の方向性には普遍性があると考えられるので、このように辞書の方向性を考慮した作成方法は、日韓対訳辞書だけでなく任意の言語の組合せにおいても有効であると考えられる。以下、そのような対訳辞書自動作成装置の実施の形態について述べる。
【0030】
[構成]
図1は、本発明の一実施の形態に係る辞書自動作成システム20のブロック図である。図1を参照して、辞書自動作成システム20は、種々の組合せの2言語間の辞書を多数格納した辞書記憶装置38と、それら辞書の方向性などに関する属性情報を記憶した辞書属性記憶装置36と、利用者から与えられる、作成する辞書の言語の組合せ情報(第1言語Xを指定する情報30および第2言語Yを指定する情報32)を受け、辞書属性記憶装置36を参照して辞書記憶装置38に格納された辞書の中から第1言語Xと第2言語Yとによって最適な辞書の組合せを選択し、第1言語Xと第2言語Yとの間の電子対訳辞書40を自動的に作成するための辞書自動作成装置34とを含む。
【0031】
図2に、辞書記憶装置38の内容を示す。図2に示すように、辞書記憶装置38は、様々な言語の各々について、その言語を母語とする利用者のための、他言語との間の辞書群80、82、84、…を含む。例えば辞書群80は日本語話者のための辞書群であって、和英辞書90、英和辞書92、…を含む。同様に辞書群82は韓国語話者のための辞書群であって、韓英辞書100、英韓辞書102、…を含む。辞書群84は英語話者のための辞書群であって、和英辞書110、英和辞書112、…を含む。
【0032】
辞書90と辞書110とはいずれも和英辞書であるが、辞書90は日本語話者のためのものであり、辞書110は英語話者のためのものであるという相違がある。同様に辞書92と辞書112とはいずれも英和辞書であるが、辞書92は日本語話者のためのものであり、辞書112は英語話者のためのものである。
【0033】
図3は、図1に示す辞書属性記憶装置36の構成を示す。図3を参照して、辞書属性記憶装置36は、複数の辞書の属性情報140、142、144、146、…を記憶している。それら属性情報は、図3に示す属性情報130のフォーマットにしたがう。属性情報130は、辞書ファイル名と、辞書ファイルまでのパス名(辞書ファイルがネットワーク上にある場合にはURL。以下単に「パス名」と呼ぶ。)と、その辞書がどの言語を母語とする話者のための辞書であるかを示す母語種別情報と、エントリを構成する第1言語の種別と、訳語を構成する第2言語の種別と、辞書に含まれるエントリ数とを含む。
【0034】
例えば、辞書J⇒Eの場合、母語種別は日本語(J)、第1言語種別は日本語(J)、第2言語種別は英語(E)となる。辞書E⇒Jの場合、母語種別は日本語(J)、第1言語種別は英語(E)、第2言語種別は日本語(J)となる。
【0035】
再び図1を参照して、辞書自動作成装置34は、第1言語Xを指定する情報30と第2言語Yを指定する情報32との入力を利用者から受取るための入力装置50と、入力装置50が受取った言語の組合せに応じ、対訳辞書のうち、内容語に関するエントリを抽出するための辞書の組合せを辞書属性記憶装置36を参照して選択するための内容語用辞書選択部52と、辞書記憶装置38内の、内容語用辞書選択部52により選択された2つの辞書を参照して内容語に関する対訳(内容語対)を抽出するための内容語訳抽出処理部54と、内容語訳抽出処理部54により抽出された内容語対を電子的に蓄積するための内容語対記憶部56とを含む。
【0036】
辞書自動作成装置34はさらに、内容語用辞書選択部52と同様に入力装置50が受取った言語の組合せに応じ、対訳辞書のうち、機能語に関するエントリを抽出するための辞書の組合せを辞書属性記憶装置36を参照して選択するための機能語用辞書選択部60と、辞書記憶装置38内の辞書のうち、機能語用辞書選択部60により選択された2つの辞書を参照して機能語に関する対訳(機能語対)を抽出するための機能語訳抽出処理部62と、機能語訳抽出処理部62により抽出された機能語対を電子的に蓄積するための機能語対記憶部64とを含む。
【0037】
辞書自動作成装置34はさらに、内容語対記憶部56に記憶された内容語対と、機能語対記憶部64に記憶された機能語対とをマージして第1言語から第2言語への対訳辞書40を作成するためのマージ処理部70を含む。なお、ここで「マージ」とは、内容語対の集合と機能語対の集合とを互いに1つの集合にまとめ、さらに何らかの順序、例えば日本語であればあいうえお順、英語などアルファベットを使用する言語であればアルファベット順に、内容語対および機能語対を配列することをいう。順序の基準となる言語は、第1言語と第2言語のどちらでもよいし、それぞれを基準としてマージしたものを2つ作成してもよい。
【0038】
内容語用辞書選択部52は、第1言語X、第2言語Yが指定されたものとすると、辞書属性記憶装置36を参照して、X⇒Z、Y⇒Zとなるような2つの辞書を選択する機能を持つ。言語Zは任意の言語であり、該当する辞書が辞書記憶装置38に存在するものであれば、どのような言語でもよい。つまり、内容語用辞書選択部52は、第1言語Xを母語とする話者用の、第1言語Xから第3言語Zへの辞書と、第2言語Yを母語とする話者用の、第2言語Yから第3言語Zへの辞書とを選択する。
【0039】
一方機能語用辞書選択部60は、第1言語X,第2言語Yが指定されたものとすると、辞書属性記憶装置36を参照して、Z⇒X、Z⇒Yとなるような2つの辞書を選択する。つまり、機能語用辞書選択部60は、第1言語Xを母語とする話者用の、第3言語Zから第1言語Xへの辞書と、第2言語Yを母語とする話者用の、第3言語Zから第2言語Yへの辞書とを選択する。
【0040】
図5は、図1に示す内容語訳抽出処理部54のより詳細なブロック図である。図5を参照して、内容語訳抽出処理部54は、内容語用辞書選択部52により選択された2つの辞書170のエントリと、辞書172のエントリとの全ての組合せを抽出するための単語対抽出部180と、単語対抽出部180により抽出された単語対のうち、辞書170から抽出されたエントリ内の訳語と辞書172から抽出されたエントリ内の訳語との内容に基づいて、両エントリ間の類似度S1を次の式によって算出するための類似度算出部182とを含む。
【0041】
【数2】

ただしx、yはそれぞれ言語X、Yのエントリ内に含まれる、言語Zの訳語の集合を表し、記号|・|は集合の要素数を表す。
【0042】
内容語訳抽出処理部54はさらに、2つのエントリ間に含まれる共通の訳語数に応じて内容語対の選択または棄却を適切に行なえるように予め実験により定められた、類似度のしきい値テーブルを記憶するしきい値テーブル記憶部186と、単語対抽出部180により抽出された単語対の各々に対し、類似度算出部182により算出されたしきい値が、しきい値テーブル記憶部186に記憶されたしきい値以上か否かにしたがって当該単語対を選択するか棄却するかを決定し、選択した単語対を内容語対記憶部56に出力するための内容語対選択部184とを含む。
【0043】
図6に、単語対抽出部180による単語対抽出結果を、韓国語と日本語との対訳辞書を英語を中間言語として作成する場合を例として示す。この場合、辞書170および172としてはそれぞれK⇒EとJ⇒Eが選択される。図6を参照して、K⇒Eを参照することにより、韓国語の単語190と単語192との双方に対して、例えば2つの英語の訳語(checkおよびcheque)が抽出されたものとする。一方、日本語の単語「小切手」に対しても同じ2つの英語の訳語(checkおよびcheque)が抽出され、「防止する」に対しては3つの訳語(check, prevent, prevent from)が抽出され、「点検する」に対しては2つの訳語(examine, check)が抽出されたものとする。同様に、「照合」に対して訳語checkが、「預ける」に対して4つの訳語(leave, deposit, check, entrust)が、それぞれ抽出されたものとする。
【0044】
この場合、韓国語の単語190、192と日本語の各単語との間で、式(1)にしたがって類似度を算出し、かつ各エントリ内の訳語内で共通するものの数にしたがって分類した結果を図7に示す。
【0045】
例えば、韓国語190と日本語「小切手」との間では、2つの訳語(check, cheque)が共通している。また双方とも訳語は2つずつなので、類似度=2×2/(2+2)=1.000である。韓国語192と日本語「小切手」の間の関係も同様である。
【0046】
一方、韓国語190と日本語「照合する」との間では、共通する訳語は1つである。また韓国語190の訳語は2つ、「照合する」の訳語は1つなので、類似度=2×1/(2+1)=0.667となる。図7の他の行の類似度も同様に算出される。
【0047】
図7を参照して、仮に韓国語K1に対する英語の訳語と日本語J1に対する英語の訳語とが完全に一致した場合、単語K1とJ1とが互いに対応するものである可能性は非常に高い。しかし、図7に示すように、共有される訳語数が少なくなるにしたがい、単語K1、J1が対応するものである可能性は低くなっていく。図7に示す例では、例えばグループ(3)に属するものは採用しない方が好ましい。
【0048】
そこで、共通訳語数によって、内容語対として採用するか否かを判定するための類似度のしきい値を変えることにする。具体的には、種々の実験によって大体90パーセントの精度で内容語対を採用できるようにしきい値を決定した。日本語と韓国語との対訳辞書を英語を仲介として作成する場合の共通訳語数と、共通訳語数により変化する類似度のしきい値τとを図8に示す。図8に示すように、しきい値τは共通訳語数の単調減少関数である。そして、共通訳語数が4以上になるとしきい値τは0とする。すなわち、共通訳語数が4以上の内容語対は無条件で採用している。
【0049】
図8に示すしきい値テーブル記憶部186のしきい値を使用して、韓国語と日本語との間で、英語を仲介として内容語対を抽出する実験を行なった。韓国語と日本語とのエントリの組合せの数は157,618である。この組合せには、使用した韓国語辞書(50,826エントリ)のうち、28,479エントリを使用し、日本語辞書(28,310エントリ)のうち、17,687エントリを使用した。これらのうち、90パーセントの精度で韓国語−日本語間の対訳辞書のエントリとして抽出された内容語対の数は25,703であった。
【0050】
一方、内容語対だけでなく、機能語対も抽出できるとさらに好ましい。図1に示す機能語訳抽出処理部62はそのためのものである。その詳細な構成を図9に示す。
【0051】
図9を参照して、機能語訳抽出処理部62は、前述したように機能語用辞書選択部60により選択された2つの辞書210(Z⇒X)および212(Z⇒Y)の言語Zの同一の単語エントリの組合せを全て調べ、そこに記載されている言語Zの例文または熟語(以下単に「例文」と呼ぶ。)、およびその訳文を全て抽出するための例文抽出部220と、例文抽出部220により抽出された同一の言語Zのエントリ中の言語Zの例文のうち、辞書210から抽出されたものと辞書212から抽出されたものとで全く一致するもの、または類似するものを、その例文に対して2つの辞書に記載されていた訳文ととともに抽出するための一致文抽出部222とを含む。ここでは、2つの辞書に記載されている言語Zの例文の対のうち、互いに完全に一致するもの、または一致する語数が7以上の類似のものを採用し、その訳文を抽出することにする。
【0052】
なお、互いに完全に一致する言語Zの例文については無条件で抽出するようにしてもよい。また、類似する文として選択する際の一致語数のしきい値は7以上が好ましく、8以上としてもよい。
【0053】
機能語訳抽出処理部62はさらに、内容語対記憶部56の内容を参照して、一致文抽出部222により抽出された2つの訳文の間で、内容語を中心としたチャンク単位でのアライメントをとるためのアライメント処理部224と、アライメント処理部224によるアライメントにより、互いに対応付けられた2つの言語X、Yのチャンクから内容語対記憶部56に記憶されている内容語を取り除くことにより、当該チャンク内に残る機能語のみの対を生成するための機能語対選択部226とを含む。機能語対選択部226は、互いにアラインされたチャンク対のうち、対応する言語Zのチャンクが互いに完全に一致するもののみを採用し、互いに異なっているものは採用しない。機能語対選択部226は、採用した機能語対を機能語対記憶部64に書込む。
【0054】
図10を参照して、機能語対選択部226による処理について説明する。以下では、理解を容易にするために、韓国語と日本語との間で、英語を仲介として機能語対を抽出する場合について説明する。図10には、例文対240および242が示されている。
【0055】
例文対240は、英和辞書から抽出された例文250と英韓辞書から抽出された例文252との英語の文が完全に一致している場合を示す。例文対240の文頭に記載されている記号「=」は、英文が互いに完全に一致していることを示し、「10」はその例文に含まれる単語数を示す。
【0056】
例文対240の場合、アライメントにより日本語のチャンク「私としては」270と、韓国語のチャンク280とが対応付けられる。また日本語のチャンク「自由が」272と、韓国語のチャンク282とが対応付けられる。このようにチャンク同士が対応付けられれば、それぞれのチャンクから内容語を差し引けば、互いに対応付けられる機能語同士が残ることになる。そうした機能語同士を機能語対として採用すればよい。
【0057】
例文対242の場合、英和辞書からの例文260の英文と、英韓辞書からの例文262の英文とは完全には一致しない。文頭の記号は、両者の英文が類似しているが完全には一致していないことを示す。その後の数字「8」は、英語の例文のうち、一致している単語数を示す。この例では、英和辞書から抽出されたチャンク290と、英韓辞書から抽出されたチャンク292とが互いに異なっている。また「class」の前の前置詞にも相違がある。
【0058】
機能語対選択部226はこの場合、対応する英文部分に相違があるときには、その部分に対応するチャンクから機能語対を抽出することはしない。単に両者が完全に一致した部分に対応するチャンクから、機能語対を抽出する。
【0059】
[動作]
図1〜図10を参照して、以上に構成を説明した辞書自動作成システム20は以下のように動作する。まず、図1を参照して、利用者が第1言語Xを指定する情報30および第2言語Yを指定する情報32を入力装置50に対して入力する。入力装置50は、与えられた情報を内容語用辞書選択部52および機能語用辞書選択部60に与える。
【0060】
内容語用辞書選択部52は、辞書属性記憶装置36を参照し、X⇒Z,Y⇒Zなる辞書が存在するような言語Zを決定する。言語Zを決定するにあたっては、辞書に含まれるエントリ数を基準に、2つの辞書のエントリ数の合計が最も大きなものを選択する方法などがある。
【0061】
一方、機能語用辞書選択部60は、辞書属性記憶装置36を参照し、W⇒X,W⇒Yなる辞書が存在するような言語Wを決定する。言語Wとしては上記した言語Zと同じものでもよいが、異なるものでもよい。説明を簡単にするため、以下では言語W=言語Zとする。なお、このようにしても一般性は失われない。
【0062】
内容語用辞書選択部52は、選択された辞書に関する情報、すなわちファイル名およびパス名を内容語訳抽出処理部54に与える。内容語訳抽出処理部54は、このファイル名およびパス名を受取ると、辞書記憶装置38内(またはネットワーク上)のその2つの辞書にアクセスし、内容語対を作成して内容語対記憶部56に格納する。
【0063】
より具体的には内容語訳抽出処理部54は、以下のように動作する。図5を参照して、単語対抽出部180は、指定された辞書170および172から、全ての単語対を抽出し類似度算出部182に与える。類似度算出部182は、全ての単語対(x,y)に対し、辞書X⇒Zから抽出されたエントリx内の言語Zの訳語の集合Z(x)と、辞書Y⇒Zから抽出されたエントリy内の言語Zの訳語Z(y)との間で、上記した式(1)にしたがって類似度S1(x,y)を算出し、内容語対選択部184に与える。
【0064】
内容語対選択部184は、しきい値テーブル記憶部186を参照し、両者に共通する言語Zの単語の集合Z(x)∩Z(y)の要素数に応じたしきい値を得て、類似度算出部182から与えられた類似度S1とこのしきい値とを比較する。内容語対選択部184は、類似度S1(x,y)がしきい値より大きければこの単語対x、yを内容語対として採用し、内容語対記憶部56に書込む。類似度S1(x,y)がしきい値以下であれば内容語対選択部184はこの単語対を棄却する。
【0065】
以上の処理を単語対抽出部180によって抽出された全ての単語対に対し繰返すことにより、内容語対記憶部56に言語Xと言語Yとの内容語対の集合が蓄積されていく。
【0066】
内容語対記憶部56への内容語対の蓄積が完了すると、図1に示す機能語訳抽出処理部62によって、機能語対の抽出が行なわれる。より具体的には、機能語訳抽出処理部62は以下のように動作する。
【0067】
図9を参照して、例文抽出部220は、機能語用辞書選択部60により選択された2つの辞書210(Z⇒X)および212(Z⇒Y)について、言語Zの単語zに対応する2つのエントリから例文を抽出する処理を、全ての単語zについて行ない、抽出された例文を一致文抽出部222に与える。一致文抽出部222は、単語zに対応する2つのエントリから得られた例文のうち、互いに全く一致する、または類似する言語Zの例文があるか否かを判定し、そうした例文をアライメント処理部224に与える。
【0068】
アライメント処理部224は、一致文抽出部222から与えられた例文のうち、言語Zの同じ例文に対する訳文である言語X及び言語Yの例文対に対し、内容語対記憶部56に記憶されている内容語対を用いてアライメントをとる。アライメント処理部224は、アライメントをとった例文対を機能語対選択部226に与える。機能語対選択部226は、アライメントをとった例文のうち、対応する言語Zの部分が完全に一致するチャンク同士から、内容語対記憶部56を参照してそれぞれの言語の内容語を取り除き、残った機能語同士を対にして機能語対記憶部64に与える。
【0069】
こうした処理を例文抽出部220によって抽出されたすべての例文に対し繰返すことにより、機能語対記憶部64に言語Xと言語Yとの機能語対が蓄積される。
【0070】
図1を参照して、マージ処理部70は、内容語対記憶部56に記憶されている多数の内容語対と、機能語対記憶部64に記憶されている多数の機能語対とを互いにマージして1つの辞書形式のファイルとし、言語Xと言語Yとの間の電子対訳辞書40を作成する。
【0071】
以上のように本実施の形態に係る辞書自動作成システム20によれば、最初に2つの言語XおよびYを指定することにより、内容語対作成、および機能語対作成のために適した特定の方向性を持った辞書をそれぞれ選択し、内容語対と機能語対とが作成される。さらにそれらをマージすることで電子対訳辞書40が作成される。辞書はそれぞれの処理に対応して、できるだけ多数のエントリ対が得られるように選択されるので、最終的に得られる電子対訳辞書40のエントリ数も多く、機械翻訳に利用する際に有用である。
【0072】
なお、上記実施の形態では、内容語対と機能語対との双方を用いて電子対訳辞書を作成している。しかし本発明はそうした実施の形態には限定されない。例えば内容語対のみの辞書を作成するようにしてもよい。例えば日本語と韓国語のように膠着語に属する言語同士の場合には、上記した実施の形態の方法により機能語対が比較的高い精度で抽出できるが、言語の組合せによっては精度が低くなることもあり得る。そうした場合には、機能語対の抽出を止めるような選択ができるようにしてもよい。
【0073】
また上記実施の形態では、仲介する言語Zは辞書自動作成システム20が決定している。この決定の基準としては、上記したようにエントリ数(の和)が多くなるものを選ぶほかに、言語により優先順位を付けたり、言語の種類を考慮したり、辞書の作成された時代または年号などを考慮したりしてもよい。また、仲介する言語Zを辞書自動作成システム20が決定するのではなく、利用者が明示的に指定するようにしてもよい。この場合にも、複数の辞書の組合せが可能な場合には、エントリ数の和が最大となるような辞書の組合せを選択すると好ましい。
【0074】
さらに、内容語対を作成する際の仲介言語と、機能語対を作成する際の仲介言語とを互いに一致させるようにしてもよい。
【0075】
さらに、上記実施の形態では、利用可能な辞書は全て辞書記憶装置38に予め記憶してあるものとしたが、本発明はそのような実施の形態には限定されない。例えば辞書が遠隔地にあり、ネットワークでアクセス可能なものでもよいし、または何らかの蓄積メディアに格納されたものを、辞書自動作成システム20からの指定にしたがって人間が読取装置にセットするような方法も可能である。
【0076】
[コンピュータによる実現]
この実施の形態に係る辞書自動作成システム20は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現可能である。図11はこのコンピュータシステム330の外観を示し、図12はコンピュータシステム330の内部構成を示す。
【0077】
図11を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
【0078】
図12を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。
【0079】
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
【0080】
コンピュータシステム330にこの実施の形態に係る辞書自動作成システム20としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
【0081】
このプログラムは、コンピュータ340にこの実施の形態に係る辞書自動作成システム20としての動作を行なわせる複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)またはサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の辞書自動作成システム20としての動作を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した辞書自動作成システム20としての動作を実現する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰り返さない。
【0082】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
【図面の簡単な説明】
【0083】
【図1】本発明の一実施の形態に係る辞書自動作成システム20のブロック図である。
【図2】辞書記憶装置38の構成の一例を模式的に示す図である。
【図3】辞書属性記憶装置36の構成の一例を模式的に示す図である。
【図4】辞書の方向性を説明するための図である。
【図5】内容語訳抽出処理部54のブロック図である。
【図6】韓国語と日本語との間での単語同士の類似度を説明するための図である。
【図7】韓国語と日本語との間での単語同士の類似度を説明するための図である。
【図8】韓国語と日本語との間での、共通訳語数により変化するしきい値を表形式で示す図である。
【図9】機能語訳抽出処理部62のブロック図である。
【図10】機能語訳抽出処理部62による機能語対抽出の原理を説明するための図である。
【図11】本発明の一実施の形態に係る辞書自動作成システム20を実現するコンピュータシステムの外観図である。
【図12】図11に示すコンピュータシステムのブロック図である。
【符号の説明】
【0084】
20 辞書自動作成システム、30 第1言語を指定する情報、32 第2言語を指定する情報、34 辞書自動作成装置、36 辞書属性記憶装置、38 辞書記憶装置、40 電子対訳辞書、50 入力装置、52 内容語用辞書選択部、54 内容語訳抽出処理部、56 内容語対記憶部、60 機能語用辞書選択部、62 機能語訳抽出処理部、64 機能語対記憶部、70 マージ処理部、180 単語対抽出部、182 類似度算出部、184 内容語対選択部、186 しきい値テーブル記憶部、220 例文抽出部、222 一致文抽出部、224 アライメント処理部、226 機能語対選択部

【特許請求の範囲】
【請求項1】
第1言語と第2言語との間の対訳辞書を、第3言語を仲介として自動的に作成するための対訳辞書作成方法であって、
前記第1言語の話者のための、前記第1言語から前記第3言語への方向性を持つ第1の辞書と、前記第2言語の話者のための、前記第2言語から前記第3言語への方向性を持つ第2の辞書とを、電子的に読取可能な形で準備するステップと、
前記第1の辞書の内容語に関する各エントリと前記第2の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる前記第3言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するステップと、
前記抽出するステップで抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積する第1のステップとを含む、対訳辞書作成方法。
【請求項2】
前記準備するステップは、
各々、所定の言語話者のための、所定の方向性を持つ、電子的に読取可能な複数個の2言語辞書を準備するステップと、
前記第1言語および前記第2言語に関する指定を受けるステップと、
前記複数個の2言語辞書から、前記指定を受けるステップで指定された前記第1言語から他言語への方向性を持つ辞書と、前記指定を受けるステップで指定された前記第2言語から前記他言語への方向性を持つ辞書とからなる辞書対を選択するステップとを含む、請求項1に記載の対訳辞書作成方法。
【請求項3】
前記準備するステップは、
各々、所定の言語話者のための、所定の方向性を持つ、電子的に読取可能な複数個の2言語辞書を準備するステップと、
前記第1言語および前記第2言語、ならびに前記第3言語に関する指定を受けるステップと、
前記複数個の2言語辞書から、前記指定を受けるステップで指定された前記第1言語から前記第3言語への方向性を持つ辞書と、前記指定を受けるステップで指定された前記第2言語から前記第3言語への方向性を持つ辞書とからなる辞書対を選択するステップとを含む、請求項1に記載の対訳辞書作成方法。
【請求項4】
前記第1言語の話者のための、前記第3言語から前記第1言語への方向性を持つ第3の辞書と、前記第2言語の話者のための、前記第3言語から前記第2言語への方向性を持つ第4の辞書とを、電子的に読取可能な形で準備するステップと、
同一の前記第3言語の見出しに対応する、前記第3の辞書のエントリと前記第4の辞書のエントリとの双方から、所定条件を充足する前記第3言語の例文とその訳文とを抽出し、対訳文対を作成するステップと、
前記対訳文対を作成するステップで作成された対訳文対のうち、訳文同士のアライメントを採るステップと、
前記アライメントを採るステップで互いにアラインされたチャンクから、機能語対を抽出し電子的に読取可能な形式で蓄積する第2のステップと、
前記電子的に読取可能な形式で蓄積する第1および第2のステップで蓄積された前記内容語対と前記機能語対とをマージするステップとをさらに含む、請求項1〜請求項3のいずれかに記載の対訳辞書作成方法。
【請求項5】
コンピュータにより実行されると、請求項1〜請求項4のいずれかに記載の対訳辞書作成方法の全てのステップを実施するように当該コンピュータを制御する、コンピュータプログラム。
【請求項6】
第1言語と第2言語との間の対訳辞書を、第3言語を仲介として自動的に作成するための対訳辞書作成装置であって、
前記第1言語の話者のための、前記第1言語から前記第3言語への方向性を持つ第1の辞書と、前記第2言語の話者のための、前記第2言語から前記第3言語への方向性を持つ第2の辞書とを、電子的に読取可能な形で準備するための辞書準備手段と、
前記第1の辞書の内容語に関する各エントリと前記第2の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる前記第3言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するためのエントリ対抽出手段と、
前記エントリ対抽出手段により抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積するための内容語対記憶手段とを含む、対訳辞書作成装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2006−53867(P2006−53867A)
【公開日】平成18年2月23日(2006.2.23)
【国際特許分類】
【出願番号】特願2004−236641(P2004−236641)
【出願日】平成16年8月16日(2004.8.16)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成16年4月1日付け、支出負担行為担当官総務省大臣官房会計課企画官、研究テーマ「ネットワーク・ヒューマン・インターフェースの総合的な研究開発(携帯電話等を用いた多言語自動翻訳システムの研究開発)」に関する委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】