対訳辞書作成方法および装置、ならびにコンピュータプログラム

【課題】任意の言語の組合せに対し自動的に対訳辞書を作成できるようにする。
【解決手段】この方法は、第１言語の話者のための、第１言語から第３言語への方向性を持つ第１の辞書と、第２言語の話者のための、第２言語から第３言語への方向性を持つ第２の辞書とを、電子的に読取可能な形で準備するステップ５２と、第１の辞書の内容語に関する各エントリと第２の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる第３言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するステップ５４と、抽出するステップで抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積するステップ５６とを含む。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は自然言語に関する電子的辞書の自動構築技術に関し、特に、言語の組合せを問わず、自動的に機械翻訳に適した対訳辞書を構築することができる辞書作成方法および装置に関する。
【背景技術】
【０００２】
機械翻訳においては、対訳辞書は最も基本的かつ重要な資源である。しかし、対訳辞書の構築には長い時間と多大なコストとを要する。今後、様々な言語の間での自動翻訳に対する需要が増大することが予測されるが、言語の組合せは言語の数に応じて指数関数的に増大するため、いかにして対訳辞書を構築するかが重要な課題である。
【０００３】
電子的な対訳辞書の構築方法には様々な手法が存在する。従来の手法のうち、最も興味深いものとして、パピヨンプロジェクト（The Papillon Project：非特許文献１）がある。この文献は、大規模、詳細、かつ一定原則にしたがった辞書を作成するための多言語語彙データを構築することに主眼をおいている。多言語辞書を作成するための主たる資源は単言語辞書である。それら単言語辞書を言語間のリンクに関連付け、多言語辞書作成のためのデータベースとする。このような方法により多言語辞書を作成する場合には数多くの協力者および専門家を必要とする。
【０００４】
このプロジェクトに関連した研究として、英仏辞書および日英辞書から日仏辞書を作成する試みが非特許文献２に開示されている。
【非特許文献１】クリスティアンボアト他２名、「パピヨンプロジェクト：オープンソース辞書および語彙目録を導出するための多言語語彙データベースの共同構築」、第２回ワークショップ、ＮＬＰＸＭＬ−２００２、ｐｐ．９３−９６、２００２年（Christian Boitet et al., The Papillon project: cooperatively building a multilingual lexical data-base to derive open source dictionaries & lexicons", the 2nd Workshop NLPXML-2002, pp. 93-96）
【非特許文献２】クミコタナカ他１名、「第３言語を介した２言語辞書の作成」、ＣＯＬＩＮＧ−９４、ｐｐ．２９７−３０３、１９９４年（Kumiko Tanaka et al., "Construction of a Bilingual Dictionary Intermediated by a Third Language", COLING-94, pp. 297-303.）
【発明の開示】
【発明が解決しようとする課題】
【０００５】
上記したような多言語間の機械翻訳を実現する場合には、多くの言語の組合せに対する対訳辞書が必要となる。しかもそのための時間およびコストを最小限に抑える必要がある。また、通常は対訳辞書の作成には両言語に精通した専門家が必要とされるが、言語の組合せが多様になると、そのような専門家を探すことも困難になる。そのため、対訳の対象となる言語に精通していない作業者であっても、任意の言語の組合せに対して対訳辞書を効率よく作成できるように、自動的に対訳辞書を作成するための技術が必要とされている。
【０００６】
上記した従来技術では、対訳辞書を作成する技術の必要性と、そのための試みとは示されているものの、任意の言語の組合せに対して、自動的にかつ効率よく対訳辞書を作成するための方策は示されていない。また、機械翻訳の性質上、利用可能な資源からできるだけ多くのエントリを抽出できることが望ましいが、そのための方策も従来技術には示されていない。
【０００７】
それゆえに本発明の目的は、任意の言語の組合せに対しても、自動的に対訳辞書を作成することが可能な対訳辞書作成方法および装置を提供することである。
【０００８】
本発明のほかの目的は、任意の言語の組合せに対しても，自動的にできるだけ多くのエントリを持つ対訳辞書を作成できる対訳辞書作成方法および装置を提供することである。
【課題を解決するための手段】
【０００９】
本発明の第１の局面に係る対訳辞書作成方法は、第１言語と第２言語との間の対訳辞書を、第３言語を仲介として自動的に作成するための対訳辞書作成方法であって、第１言語の話者のための、第１言語から第３言語への方向性を持つ第１の辞書と、第２言語の話者のための、第２言語から第３言語への方向性を持つ第２の辞書とを、電子的に読取可能な形で準備するステップと、第１の辞書の内容語に関する各エントリと第２の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる第３言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するステップと、抽出するステップで抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積する第１のステップとを含む。
【００１０】
上のような方向性を持つ第１および第２の辞書を選択し、それら辞書から、類似度の値がしきい値以上となるエントリ対に対応する内容語対を抽出することにより、それらと異なる方向性を持つ辞書を使用した場合と比較して、より高い精度でかつ多くの見出しを含む第１言語と第２言語の対訳辞書を作成できることが実験により確かめられた。辞書の作成手順は自動的で、利用者は対訳辞書の言語の組合せを指定するだけでよい。したがって、多くの言語の組合せに対して、精度の高い対訳辞書を短時間に作成できる。また、この方法によれば第１言語と第２言語との双方に精通した専門家は不要であり、非常に多くの言語の組合せに対しても、容易に対訳辞書を作成できる。
【００１１】
好ましくは、準備するステップは、各々、所定の言語話者のための、所定の方向性を持つ、電子的に読取可能な複数個の２言語辞書を準備するステップと、第１言語および第２言語に関する指定を受けるステップと、複数個の２言語辞書から、指定を受けるステップで指定された第１言語から他言語への方向性を持つ辞書と、指定を受けるステップで指定された第２言語から上記他言語への方向性を持つ辞書とからなる辞書対を選択するステップとを含む。
【００１２】
より好ましくは、準備するステップは、各々、所定の言語話者のための、所定の方向性を持つ、電子的に読取可能な複数個の２言語辞書を準備するステップと、第１言語および第２言語、ならびに第３言語に関する指定を受けるステップと、複数個の２言語辞書から、指定を受けるステップで指定された第１言語から第３言語への方向性を持つ辞書と、指定を受けるステップで指定された第２言語から第３言語への方向性を持つ辞書とからなる辞書対を選択するステップとを含む。
【００１３】
さらに好ましくは、選択するステップでは、複数個の辞書対が選択されることがあり、準備するステップはさらに、選択するステップで選択された複数個の辞書対のうち、各辞書対に含まれるエントリ数の和が最も大きなものを選択するステップを含む。
【００１４】
好ましくは、抽出するステップは、第１の辞書の各エントリｘと、第２の辞書の各エントリｙとの間の類似度Ｓ₁（ｘ，ｙ）を次の式によって算出するステップを含む。
【００１５】
【数１】

ただしＺ（ｘ）、Ｚ（ｙ）はそれぞれ、エントリｘ、ｙ内に含まれる第３言語の訳語の集合を表し、記号｜・｜は集合の要素数を表す。抽出するステップはさらに、類似度Ｓ₁（ｘ，ｙ）が予め定めるしきい値以上であるエントリ対（ｘ，ｙ）に対応する内容語対を抽出するステップを含んでもよい。
【００１６】
より好ましくは、予め定めるしきい値は、エントリ対（ｘ，ｙ）に含まれる、第３言語の共通訳語数の関数である。
【００１７】
さらに好ましくは、共通訳語数の関数は、共通訳語数に対する単調減少関数である。
【００１８】
共通訳語数の関数は、共通訳語数が４以上のときには０に設定されるようにしてもよい。
【００１９】
好ましくは、対訳辞書作成方法は、第１言語の話者のための、第３言語から第１言語への方向性を持つ第３の辞書と、第２言語の話者のための、第３言語から第２言語への方向性を持つ第４の辞書とを、電子的に読取可能な形で準備するステップと、第３言語の見出しに対応する、第３の辞書のエントリと第４の辞書のエントリとの双方から、所定条件を充足する第３言語の例文とその訳文とを抽出し、対訳文対を作成するステップと、対訳文対を作成するステップで作成された対訳文対のうち、訳文同士のアライメントを採るステップと、アライメントを採るステップで互いにアラインされたチャンクから、機能語対を抽出し電子的に読取可能な形式で蓄積する第２のステップと、電子的に読取可能な形式で蓄積する第１および第２のステップで蓄積された内容語対と機能語対とをマージするステップとをさらに含む。
【００２０】
本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、上記したいずれかの対訳辞書作成方法の全てのステップを実施するように当該コンピュータを制御する。
【００２１】
本発明の第３の局面に係る対訳辞書作成装置は、第１言語と第２言語との間の対訳辞書を、第３言語を仲介として自動的に作成するための対訳辞書作成装置であって、第１言語の話者のための、第１言語から第３言語への方向性を持つ第１の辞書と、第２言語の話者のための、第２言語から第３言語への方向性を持つ第２の辞書とを、電子的に読取可能な形で準備するための辞書準備手段と、第１の辞書の内容語に関する各エントリと第２の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる第３言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するためのエントリ対抽出手段と、エントリ対抽出手段により抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積するための内容語対記憶手段とを含む。
【発明を実施するための最良の形態】
【００２２】
［辞書の性質について］
従来の技術では、辞書の性質についてはあまり考慮されていない。しかし、実際には辞書の性質は対訳辞書の自動作成において非常に重要な意味を持つ。辞書の性質の典型的なものとしては、辞書が想定する母語と、辞書の方向性とがある。
【００２３】
本明細書において「辞書の方向性」とは、どの言語のエントリからどの言語の語を引くか、という意味の方向性を示す。本明細書ではこの方向性を「⇒」で表す。例えば英和辞書の方向性は英語⇒日本語であり、和英辞書の方向性は「日本語⇒英語」である。韓英辞書であれば「韓国語⇒英語」であり、英韓辞書であれば「英語⇒韓国語」である。なお、以下の説明では、記載を簡易にするために言語について略号を用いる。例えば日本語は「Ｊ」、英語は「Ｅ」、韓国語は「Ｋ」などと記載する。したがって和英辞書は「Ｊ⇒Ｅ」、英和辞書は「Ｅ⇒Ｊ」と表す。
【００２４】
辞書が想定する母語とは、辞書が想定している利用者の母語のことをいう。通常、日本で作成されている英和辞書も和英辞書も、日本語を母語とし、英語を外国語とする話者（以下「日本語話者」と呼ぶ。）を利用者として想定している。一方、例えばイギリスで作成された英和辞書があるとすれば、想定している利用者は英語を母語とする話者（「英語話者」と呼ぶ。以下、他の言語についても同様である。）である。本明細書では、辞書が想定している母語を表す略号を、辞書の方向性の前に小さな文字で付すこととする。したがって、日本語話者のための英和辞書は「_ＪＥ⇒Ｊ」、日本語話者のための和英辞書は「_ＪＪ⇒Ｅ」、韓国語話者のための韓英辞書は「_ＫＫ⇒Ｅ」、韓国語話者のための英韓辞書は「_ＫＥ⇒Ｋ」と表す。本明細書では、一般的に、言語Ｚの話者を対象として作成された、言語Ｘから言語Ｙへの辞書を「_ＺＸ⇒Ｙ」と表す。
【００２５】
辞書の方向性については、従来技術では考慮されていない。しかし、方向性は実は対訳辞書作成の上で非常に重要な概念である。例えば、日本語話者が使用する和英辞書（_ＪＪ⇒Ｅ）は、日本語話者が主として英語の文を書いたり英語で話したりするときに使用される。そうした状況では、当然のことながら日本語話者は、自分が英語に翻訳しようとする日本語の単語の意味を良く知っている。したがってその単語に関する詳細な説明を辞書に記載する必要はない。例外として、日本語にあって英語に対応する概念が存在しない単語の場合には、日本語のその概念を英語で表現するための説明的な記載が載せられていることがある。また、日本語に対応する英語を和英辞書で調べようとする場合、訳語の品詞（ＰＯＳ）に関する情報も二次的なものとなり、それほど重要ではない。
【００２６】
一方、日本語話者のための英和辞書（_ＪＥ⇒Ｊ）は、日本語話者の観点から見て英語の単語の意味および用法などを知るために使用される。そのため、各エントリには、訳語だけではなく、語法、用法などの説明的情報、例文、および品詞などの文法的情報が付されていることが多い。
【００２７】
例えば図４に示すように、日本語と英語において互いに対応する単語である「タンゴ」と「ｔａｎｇｏ」とについて、和英辞書での「タンゴ」のエントリ１６０と、英和辞書の「ｔａｎｇｏ」のエントリ１６２とは、その内容が大きく異なっている。エントリ１６０はごく簡単に訳語のみを挙げているのに対し、エントリ１６２の記載は詳細である。訳語だけではなく、その単語に関する説明、複数形および品詞などの文法的情報、例文などの情報が記載されている。言語間の対訳辞書を作成する場合、エントリ１６０のように訳語のみを挙げている場合の方が機械処理上では複雑さがなく、効率よく精度の高い対訳辞書を作成できる。一方、エントリ１６２のように訳語に関する説明文が多く含まれているものは、対訳辞書を作成する上での不要な情報を含むため、必要な機械処理が複雑になり、また誤りも多くなる。
【００２８】
したがって、機械翻訳のための対訳辞書作成では、このような辞書の方向性と、その対象としている話者の言語とを考慮する必要がある。
【００２９】
本願発明の発明者は、方向性を考慮し、英語を中間言語として日本語と韓国語との対訳辞書（以下「日韓対訳辞書」と呼ぶ。）を作成する実験を行なった。その結果、_ＪＪ⇒Ｅと_ＫＫ⇒Ｅという辞書の組合せで日韓対訳辞書を作成すると、それ以外の組合せを用いた場合と比較してはるかによい結果を得ることができた。辞書の方向性には普遍性があると考えられるので、このように辞書の方向性を考慮した作成方法は、日韓対訳辞書だけでなく任意の言語の組合せにおいても有効であると考えられる。以下、そのような対訳辞書自動作成装置の実施の形態について述べる。
【００３０】
［構成］
図１は、本発明の一実施の形態に係る辞書自動作成システム２０のブロック図である。図１を参照して、辞書自動作成システム２０は、種々の組合せの２言語間の辞書を多数格納した辞書記憶装置３８と、それら辞書の方向性などに関する属性情報を記憶した辞書属性記憶装置３６と、利用者から与えられる、作成する辞書の言語の組合せ情報（第１言語Ｘを指定する情報３０および第２言語Ｙを指定する情報３２）を受け、辞書属性記憶装置３６を参照して辞書記憶装置３８に格納された辞書の中から第１言語Ｘと第２言語Ｙとによって最適な辞書の組合せを選択し、第１言語Ｘと第２言語Ｙとの間の電子対訳辞書４０を自動的に作成するための辞書自動作成装置３４とを含む。
【００３１】
図２に、辞書記憶装置３８の内容を示す。図２に示すように、辞書記憶装置３８は、様々な言語の各々について、その言語を母語とする利用者のための、他言語との間の辞書群８０、８２、８４、…を含む。例えば辞書群８０は日本語話者のための辞書群であって、和英辞書９０、英和辞書９２、…を含む。同様に辞書群８２は韓国語話者のための辞書群であって、韓英辞書１００、英韓辞書１０２、…を含む。辞書群８４は英語話者のための辞書群であって、和英辞書１１０、英和辞書１１２、…を含む。
【００３２】
辞書９０と辞書１１０とはいずれも和英辞書であるが、辞書９０は日本語話者のためのものであり、辞書１１０は英語話者のためのものであるという相違がある。同様に辞書９２と辞書１１２とはいずれも英和辞書であるが、辞書９２は日本語話者のためのものであり、辞書１１２は英語話者のためのものである。
【００３３】
図３は、図１に示す辞書属性記憶装置３６の構成を示す。図３を参照して、辞書属性記憶装置３６は、複数の辞書の属性情報１４０、１４２、１４４、１４６、…を記憶している。それら属性情報は、図３に示す属性情報１３０のフォーマットにしたがう。属性情報１３０は、辞書ファイル名と、辞書ファイルまでのパス名（辞書ファイルがネットワーク上にある場合にはＵＲＬ。以下単に「パス名」と呼ぶ。）と、その辞書がどの言語を母語とする話者のための辞書であるかを示す母語種別情報と、エントリを構成する第１言語の種別と、訳語を構成する第２言語の種別と、辞書に含まれるエントリ数とを含む。
【００３４】
例えば、辞書_ＪＪ⇒Ｅの場合、母語種別は日本語（Ｊ）、第１言語種別は日本語（Ｊ）、第２言語種別は英語（Ｅ）となる。辞書_ＪＥ⇒Ｊの場合、母語種別は日本語（Ｊ）、第１言語種別は英語（Ｅ）、第２言語種別は日本語（Ｊ）となる。
【００３５】
再び図１を参照して、辞書自動作成装置３４は、第１言語Ｘを指定する情報３０と第２言語Ｙを指定する情報３２との入力を利用者から受取るための入力装置５０と、入力装置５０が受取った言語の組合せに応じ、対訳辞書のうち、内容語に関するエントリを抽出するための辞書の組合せを辞書属性記憶装置３６を参照して選択するための内容語用辞書選択部５２と、辞書記憶装置３８内の、内容語用辞書選択部５２により選択された２つの辞書を参照して内容語に関する対訳（内容語対）を抽出するための内容語訳抽出処理部５４と、内容語訳抽出処理部５４により抽出された内容語対を電子的に蓄積するための内容語対記憶部５６とを含む。
【００３６】
辞書自動作成装置３４はさらに、内容語用辞書選択部５２と同様に入力装置５０が受取った言語の組合せに応じ、対訳辞書のうち、機能語に関するエントリを抽出するための辞書の組合せを辞書属性記憶装置３６を参照して選択するための機能語用辞書選択部６０と、辞書記憶装置３８内の辞書のうち、機能語用辞書選択部６０により選択された２つの辞書を参照して機能語に関する対訳（機能語対）を抽出するための機能語訳抽出処理部６２と、機能語訳抽出処理部６２により抽出された機能語対を電子的に蓄積するための機能語対記憶部６４とを含む。
【００３７】
辞書自動作成装置３４はさらに、内容語対記憶部５６に記憶された内容語対と、機能語対記憶部６４に記憶された機能語対とをマージして第１言語から第２言語への対訳辞書４０を作成するためのマージ処理部７０を含む。なお、ここで「マージ」とは、内容語対の集合と機能語対の集合とを互いに１つの集合にまとめ、さらに何らかの順序、例えば日本語であればあいうえお順、英語などアルファベットを使用する言語であればアルファベット順に、内容語対および機能語対を配列することをいう。順序の基準となる言語は、第１言語と第２言語のどちらでもよいし、それぞれを基準としてマージしたものを２つ作成してもよい。
【００３８】
内容語用辞書選択部５２は、第１言語Ｘ、第２言語Ｙが指定されたものとすると、辞書属性記憶装置３６を参照して、_ＸＸ⇒Ｚ、_ＹＹ⇒Ｚとなるような２つの辞書を選択する機能を持つ。言語Ｚは任意の言語であり、該当する辞書が辞書記憶装置３８に存在するものであれば、どのような言語でもよい。つまり、内容語用辞書選択部５２は、第１言語Ｘを母語とする話者用の、第１言語Ｘから第３言語Ｚへの辞書と、第２言語Ｙを母語とする話者用の、第２言語Ｙから第３言語Ｚへの辞書とを選択する。
【００３９】
一方機能語用辞書選択部６０は、第１言語Ｘ，第２言語Ｙが指定されたものとすると、辞書属性記憶装置３６を参照して、_ＸＺ⇒Ｘ、_ＹＺ⇒Ｙとなるような２つの辞書を選択する。つまり、機能語用辞書選択部６０は、第１言語Ｘを母語とする話者用の、第３言語Ｚから第１言語Ｘへの辞書と、第２言語Ｙを母語とする話者用の、第３言語Ｚから第２言語Ｙへの辞書とを選択する。
【００４０】
図５は、図１に示す内容語訳抽出処理部５４のより詳細なブロック図である。図５を参照して、内容語訳抽出処理部５４は、内容語用辞書選択部５２により選択された２つの辞書１７０のエントリと、辞書１７２のエントリとの全ての組合せを抽出するための単語対抽出部１８０と、単語対抽出部１８０により抽出された単語対のうち、辞書１７０から抽出されたエントリ内の訳語と辞書１７２から抽出されたエントリ内の訳語との内容に基づいて、両エントリ間の類似度Ｓ₁を次の式によって算出するための類似度算出部１８２とを含む。
【００４１】
【数２】

ただしｘ、ｙはそれぞれ言語Ｘ、Ｙのエントリ内に含まれる、言語Ｚの訳語の集合を表し、記号｜・｜は集合の要素数を表す。
【００４２】
内容語訳抽出処理部５４はさらに、２つのエントリ間に含まれる共通の訳語数に応じて内容語対の選択または棄却を適切に行なえるように予め実験により定められた、類似度のしきい値テーブルを記憶するしきい値テーブル記憶部１８６と、単語対抽出部１８０により抽出された単語対の各々に対し、類似度算出部１８２により算出されたしきい値が、しきい値テーブル記憶部１８６に記憶されたしきい値以上か否かにしたがって当該単語対を選択するか棄却するかを決定し、選択した単語対を内容語対記憶部５６に出力するための内容語対選択部１８４とを含む。
【００４３】
図６に、単語対抽出部１８０による単語対抽出結果を、韓国語と日本語との対訳辞書を英語を中間言語として作成する場合を例として示す。この場合、辞書１７０および１７２としてはそれぞれ_ＫＫ⇒Ｅと_ＪＪ⇒Ｅが選択される。図６を参照して、_ＫＫ⇒Ｅを参照することにより、韓国語の単語１９０と単語１９２との双方に対して、例えば２つの英語の訳語（checkおよびcheque）が抽出されたものとする。一方、日本語の単語「小切手」に対しても同じ２つの英語の訳語（checkおよびcheque）が抽出され、「防止する」に対しては３つの訳語（check, prevent, prevent from）が抽出され、「点検する」に対しては２つの訳語（examine, check）が抽出されたものとする。同様に、「照合」に対して訳語checkが、「預ける」に対して４つの訳語（leave, deposit, check, entrust）が、それぞれ抽出されたものとする。
【００４４】
この場合、韓国語の単語１９０、１９２と日本語の各単語との間で、式（１）にしたがって類似度を算出し、かつ各エントリ内の訳語内で共通するものの数にしたがって分類した結果を図７に示す。
【００４５】
例えば、韓国語１９０と日本語「小切手」との間では、２つの訳語（check, cheque）が共通している。また双方とも訳語は２つずつなので、類似度＝２×２／（２＋２）＝１．０００である。韓国語１９２と日本語「小切手」の間の関係も同様である。
【００４６】
一方、韓国語１９０と日本語「照合する」との間では、共通する訳語は１つである。また韓国語１９０の訳語は２つ、「照合する」の訳語は１つなので、類似度＝２×１／（２＋１）＝０．６６７となる。図７の他の行の類似度も同様に算出される。
【００４７】
図７を参照して、仮に韓国語Ｋ１に対する英語の訳語と日本語Ｊ１に対する英語の訳語とが完全に一致した場合、単語Ｋ１とＪ１とが互いに対応するものである可能性は非常に高い。しかし、図７に示すように、共有される訳語数が少なくなるにしたがい、単語Ｋ１、Ｊ１が対応するものである可能性は低くなっていく。図７に示す例では、例えばグループ（３）に属するものは採用しない方が好ましい。
【００４８】
そこで、共通訳語数によって、内容語対として採用するか否かを判定するための類似度のしきい値を変えることにする。具体的には、種々の実験によって大体９０パーセントの精度で内容語対を採用できるようにしきい値を決定した。日本語と韓国語との対訳辞書を英語を仲介として作成する場合の共通訳語数と、共通訳語数により変化する類似度のしきい値τとを図８に示す。図８に示すように、しきい値τは共通訳語数の単調減少関数である。そして、共通訳語数が４以上になるとしきい値τは０とする。すなわち、共通訳語数が４以上の内容語対は無条件で採用している。
【００４９】
図８に示すしきい値テーブル記憶部１８６のしきい値を使用して、韓国語と日本語との間で、英語を仲介として内容語対を抽出する実験を行なった。韓国語と日本語とのエントリの組合せの数は１５７，６１８である。この組合せには、使用した韓国語辞書（５０，８２６エントリ）のうち、２８，４７９エントリを使用し、日本語辞書（２８，３１０エントリ）のうち、１７，６８７エントリを使用した。これらのうち、９０パーセントの精度で韓国語−日本語間の対訳辞書のエントリとして抽出された内容語対の数は２５，７０３であった。
【００５０】
一方、内容語対だけでなく、機能語対も抽出できるとさらに好ましい。図１に示す機能語訳抽出処理部６２はそのためのものである。その詳細な構成を図９に示す。
【００５１】
図９を参照して、機能語訳抽出処理部６２は、前述したように機能語用辞書選択部６０により選択された２つの辞書２１０（_ＸＺ⇒Ｘ）および２１２（_ＹＺ⇒Ｙ）の言語Ｚの同一の単語エントリの組合せを全て調べ、そこに記載されている言語Ｚの例文または熟語（以下単に「例文」と呼ぶ。）、およびその訳文を全て抽出するための例文抽出部２２０と、例文抽出部２２０により抽出された同一の言語Ｚのエントリ中の言語Ｚの例文のうち、辞書２１０から抽出されたものと辞書２１２から抽出されたものとで全く一致するもの、または類似するものを、その例文に対して２つの辞書に記載されていた訳文ととともに抽出するための一致文抽出部２２２とを含む。ここでは、２つの辞書に記載されている言語Ｚの例文の対のうち、互いに完全に一致するもの、または一致する語数が７以上の類似のものを採用し、その訳文を抽出することにする。
【００５２】
なお、互いに完全に一致する言語Ｚの例文については無条件で抽出するようにしてもよい。また、類似する文として選択する際の一致語数のしきい値は７以上が好ましく、８以上としてもよい。
【００５３】
機能語訳抽出処理部６２はさらに、内容語対記憶部５６の内容を参照して、一致文抽出部２２２により抽出された２つの訳文の間で、内容語を中心としたチャンク単位でのアライメントをとるためのアライメント処理部２２４と、アライメント処理部２２４によるアライメントにより、互いに対応付けられた２つの言語Ｘ、Ｙのチャンクから内容語対記憶部５６に記憶されている内容語を取り除くことにより、当該チャンク内に残る機能語のみの対を生成するための機能語対選択部２２６とを含む。機能語対選択部２２６は、互いにアラインされたチャンク対のうち、対応する言語Ｚのチャンクが互いに完全に一致するもののみを採用し、互いに異なっているものは採用しない。機能語対選択部２２６は、採用した機能語対を機能語対記憶部６４に書込む。
【００５４】
図１０を参照して、機能語対選択部２２６による処理について説明する。以下では、理解を容易にするために、韓国語と日本語との間で、英語を仲介として機能語対を抽出する場合について説明する。図１０には、例文対２４０および２４２が示されている。
【００５５】
例文対２４０は、英和辞書から抽出された例文２５０と英韓辞書から抽出された例文２５２との英語の文が完全に一致している場合を示す。例文対２４０の文頭に記載されている記号「＝」は、英文が互いに完全に一致していることを示し、「１０」はその例文に含まれる単語数を示す。
【００５６】
例文対２４０の場合、アライメントにより日本語のチャンク「私としては」２７０と、韓国語のチャンク２８０とが対応付けられる。また日本語のチャンク「自由が」２７２と、韓国語のチャンク２８２とが対応付けられる。このようにチャンク同士が対応付けられれば、それぞれのチャンクから内容語を差し引けば、互いに対応付けられる機能語同士が残ることになる。そうした機能語同士を機能語対として採用すればよい。
【００５７】
例文対２４２の場合、英和辞書からの例文２６０の英文と、英韓辞書からの例文２６２の英文とは完全には一致しない。文頭の記号は、両者の英文が類似しているが完全には一致していないことを示す。その後の数字「８」は、英語の例文のうち、一致している単語数を示す。この例では、英和辞書から抽出されたチャンク２９０と、英韓辞書から抽出されたチャンク２９２とが互いに異なっている。また「ｃｌａｓｓ」の前の前置詞にも相違がある。
【００５８】
機能語対選択部２２６はこの場合、対応する英文部分に相違があるときには、その部分に対応するチャンクから機能語対を抽出することはしない。単に両者が完全に一致した部分に対応するチャンクから、機能語対を抽出する。
【００５９】
［動作］
図１〜図１０を参照して、以上に構成を説明した辞書自動作成システム２０は以下のように動作する。まず、図１を参照して、利用者が第１言語Ｘを指定する情報３０および第２言語Ｙを指定する情報３２を入力装置５０に対して入力する。入力装置５０は、与えられた情報を内容語用辞書選択部５２および機能語用辞書選択部６０に与える。
【００６０】
内容語用辞書選択部５２は、辞書属性記憶装置３６を参照し、_ＸＸ⇒Ｚ，_ＹＹ⇒Ｚなる辞書が存在するような言語Ｚを決定する。言語Ｚを決定するにあたっては、辞書に含まれるエントリ数を基準に、２つの辞書のエントリ数の合計が最も大きなものを選択する方法などがある。
【００６１】
一方、機能語用辞書選択部６０は、辞書属性記憶装置３６を参照し、_ＸＷ⇒Ｘ，_ＹＷ⇒Ｙなる辞書が存在するような言語Ｗを決定する。言語Ｗとしては上記した言語Ｚと同じものでもよいが、異なるものでもよい。説明を簡単にするため、以下では言語Ｗ＝言語Ｚとする。なお、このようにしても一般性は失われない。
【００６２】
内容語用辞書選択部５２は、選択された辞書に関する情報、すなわちファイル名およびパス名を内容語訳抽出処理部５４に与える。内容語訳抽出処理部５４は、このファイル名およびパス名を受取ると、辞書記憶装置３８内（またはネットワーク上）のその２つの辞書にアクセスし、内容語対を作成して内容語対記憶部５６に格納する。
【００６３】
より具体的には内容語訳抽出処理部５４は、以下のように動作する。図５を参照して、単語対抽出部１８０は、指定された辞書１７０および１７２から、全ての単語対を抽出し類似度算出部１８２に与える。類似度算出部１８２は、全ての単語対（ｘ，ｙ）に対し、辞書_ＸＸ⇒Ｚから抽出されたエントリｘ内の言語Ｚの訳語の集合Ｚ（ｘ）と、辞書_ＹＹ⇒Ｚから抽出されたエントリｙ内の言語Ｚの訳語Ｚ（ｙ）との間で、上記した式（１）にしたがって類似度Ｓ₁（ｘ，ｙ）を算出し、内容語対選択部１８４に与える。
【００６４】
内容語対選択部１８４は、しきい値テーブル記憶部１８６を参照し、両者に共通する言語Ｚの単語の集合Ｚ（ｘ）∩Ｚ（ｙ）の要素数に応じたしきい値を得て、類似度算出部１８２から与えられた類似度Ｓ₁とこのしきい値とを比較する。内容語対選択部１８４は、類似度Ｓ₁（ｘ，ｙ）がしきい値より大きければこの単語対ｘ、ｙを内容語対として採用し、内容語対記憶部５６に書込む。類似度Ｓ₁（ｘ，ｙ）がしきい値以下であれば内容語対選択部１８４はこの単語対を棄却する。
【００６５】
以上の処理を単語対抽出部１８０によって抽出された全ての単語対に対し繰返すことにより、内容語対記憶部５６に言語Ｘと言語Ｙとの内容語対の集合が蓄積されていく。
【００６６】
内容語対記憶部５６への内容語対の蓄積が完了すると、図１に示す機能語訳抽出処理部６２によって、機能語対の抽出が行なわれる。より具体的には、機能語訳抽出処理部６２は以下のように動作する。
【００６７】
図９を参照して、例文抽出部２２０は、機能語用辞書選択部６０により選択された２つの辞書２１０（_ＸＺ⇒Ｘ）および２１２（_ＹＺ⇒Ｙ）について、言語Ｚの単語ｚに対応する２つのエントリから例文を抽出する処理を、全ての単語ｚについて行ない、抽出された例文を一致文抽出部２２２に与える。一致文抽出部２２２は、単語ｚに対応する２つのエントリから得られた例文のうち、互いに全く一致する、または類似する言語Ｚの例文があるか否かを判定し、そうした例文をアライメント処理部２２４に与える。
【００６８】
アライメント処理部２２４は、一致文抽出部２２２から与えられた例文のうち、言語Ｚの同じ例文に対する訳文である言語Ｘ及び言語Ｙの例文対に対し、内容語対記憶部５６に記憶されている内容語対を用いてアライメントをとる。アライメント処理部２２４は、アライメントをとった例文対を機能語対選択部２２６に与える。機能語対選択部２２６は、アライメントをとった例文のうち、対応する言語Ｚの部分が完全に一致するチャンク同士から、内容語対記憶部５６を参照してそれぞれの言語の内容語を取り除き、残った機能語同士を対にして機能語対記憶部６４に与える。
【００６９】
こうした処理を例文抽出部２２０によって抽出されたすべての例文に対し繰返すことにより、機能語対記憶部６４に言語Ｘと言語Ｙとの機能語対が蓄積される。
【００７０】
図１を参照して、マージ処理部７０は、内容語対記憶部５６に記憶されている多数の内容語対と、機能語対記憶部６４に記憶されている多数の機能語対とを互いにマージして１つの辞書形式のファイルとし、言語Ｘと言語Ｙとの間の電子対訳辞書４０を作成する。
【００７１】
以上のように本実施の形態に係る辞書自動作成システム２０によれば、最初に２つの言語ＸおよびＹを指定することにより、内容語対作成、および機能語対作成のために適した特定の方向性を持った辞書をそれぞれ選択し、内容語対と機能語対とが作成される。さらにそれらをマージすることで電子対訳辞書４０が作成される。辞書はそれぞれの処理に対応して、できるだけ多数のエントリ対が得られるように選択されるので、最終的に得られる電子対訳辞書４０のエントリ数も多く、機械翻訳に利用する際に有用である。
【００７２】
なお、上記実施の形態では、内容語対と機能語対との双方を用いて電子対訳辞書を作成している。しかし本発明はそうした実施の形態には限定されない。例えば内容語対のみの辞書を作成するようにしてもよい。例えば日本語と韓国語のように膠着語に属する言語同士の場合には、上記した実施の形態の方法により機能語対が比較的高い精度で抽出できるが、言語の組合せによっては精度が低くなることもあり得る。そうした場合には、機能語対の抽出を止めるような選択ができるようにしてもよい。
【００７３】
また上記実施の形態では、仲介する言語Ｚは辞書自動作成システム２０が決定している。この決定の基準としては、上記したようにエントリ数（の和）が多くなるものを選ぶほかに、言語により優先順位を付けたり、言語の種類を考慮したり、辞書の作成された時代または年号などを考慮したりしてもよい。また、仲介する言語Ｚを辞書自動作成システム２０が決定するのではなく、利用者が明示的に指定するようにしてもよい。この場合にも、複数の辞書の組合せが可能な場合には、エントリ数の和が最大となるような辞書の組合せを選択すると好ましい。
【００７４】
さらに、内容語対を作成する際の仲介言語と、機能語対を作成する際の仲介言語とを互いに一致させるようにしてもよい。
【００７５】
さらに、上記実施の形態では、利用可能な辞書は全て辞書記憶装置３８に予め記憶してあるものとしたが、本発明はそのような実施の形態には限定されない。例えば辞書が遠隔地にあり、ネットワークでアクセス可能なものでもよいし、または何らかの蓄積メディアに格納されたものを、辞書自動作成システム２０からの指定にしたがって人間が読取装置にセットするような方法も可能である。
【００７６】
［コンピュータによる実現］
この実施の形態に係る辞書自動作成システム２０は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現可能である。図１１はこのコンピュータシステム３３０の外観を示し、図１２はコンピュータシステム３３０の内部構成を示す。
【００７７】
図１１を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２およびＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。
【００７８】
図１２を参照して、コンピュータ３４０は、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０とを含む。コンピュータシステム３３０はさらに、プリンタ３４４を含んでいる。
【００７９】
ここでは示さないが、コンピュータ３４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。
【００８０】
コンピュータシステム３３０にこの実施の形態に係る辞書自動作成システム２０としての動作を行なわせるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０またはＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２またはＦＤ３６４に記憶され、さらにハードディスク３５４に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、またはネットワークを介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。
【００８１】
このプログラムは、コンピュータ３４０にこの実施の形態に係る辞書自動作成システム２０としての動作を行なわせる複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）またはサードパーティのプログラム、もしくはコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の辞書自動作成システム２０としての動作を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した辞書自動作成システム２０としての動作を実現する命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰り返さない。
【００８２】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
【図面の簡単な説明】
【００８３】
【図１】本発明の一実施の形態に係る辞書自動作成システム２０のブロック図である。
【図２】辞書記憶装置３８の構成の一例を模式的に示す図である。
【図３】辞書属性記憶装置３６の構成の一例を模式的に示す図である。
【図４】辞書の方向性を説明するための図である。
【図５】内容語訳抽出処理部５４のブロック図である。
【図６】韓国語と日本語との間での単語同士の類似度を説明するための図である。
【図７】韓国語と日本語との間での単語同士の類似度を説明するための図である。
【図８】韓国語と日本語との間での、共通訳語数により変化するしきい値を表形式で示す図である。
【図９】機能語訳抽出処理部６２のブロック図である。
【図１０】機能語訳抽出処理部６２による機能語対抽出の原理を説明するための図である。
【図１１】本発明の一実施の形態に係る辞書自動作成システム２０を実現するコンピュータシステムの外観図である。
【図１２】図１１に示すコンピュータシステムのブロック図である。
【符号の説明】
【００８４】
２０辞書自動作成システム、３０第１言語を指定する情報、３２第２言語を指定する情報、３４辞書自動作成装置、３６辞書属性記憶装置、３８辞書記憶装置、４０電子対訳辞書、５０入力装置、５２内容語用辞書選択部、５４内容語訳抽出処理部、５６内容語対記憶部、６０機能語用辞書選択部、６２機能語訳抽出処理部、６４機能語対記憶部、７０マージ処理部、１８０単語対抽出部、１８２類似度算出部、１８４内容語対選択部、１８６しきい値テーブル記憶部、２２０例文抽出部、２２２一致文抽出部、２２４アライメント処理部、２２６機能語対選択部

【特許請求の範囲】
【請求項１】
第１言語と第２言語との間の対訳辞書を、第３言語を仲介として自動的に作成するための対訳辞書作成方法であって、
前記第１言語の話者のための、前記第１言語から前記第３言語への方向性を持つ第１の辞書と、前記第２言語の話者のための、前記第２言語から前記第３言語への方向性を持つ第２の辞書とを、電子的に読取可能な形で準備するステップと、
前記第１の辞書の内容語に関する各エントリと前記第２の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる前記第３言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するステップと、
前記抽出するステップで抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積する第１のステップとを含む、対訳辞書作成方法。
【請求項２】
前記準備するステップは、
各々、所定の言語話者のための、所定の方向性を持つ、電子的に読取可能な複数個の２言語辞書を準備するステップと、
前記第１言語および前記第２言語に関する指定を受けるステップと、
前記複数個の２言語辞書から、前記指定を受けるステップで指定された前記第１言語から他言語への方向性を持つ辞書と、前記指定を受けるステップで指定された前記第２言語から前記他言語への方向性を持つ辞書とからなる辞書対を選択するステップとを含む、請求項１に記載の対訳辞書作成方法。
【請求項３】
前記準備するステップは、
各々、所定の言語話者のための、所定の方向性を持つ、電子的に読取可能な複数個の２言語辞書を準備するステップと、
前記第１言語および前記第２言語、ならびに前記第３言語に関する指定を受けるステップと、
前記複数個の２言語辞書から、前記指定を受けるステップで指定された前記第１言語から前記第３言語への方向性を持つ辞書と、前記指定を受けるステップで指定された前記第２言語から前記第３言語への方向性を持つ辞書とからなる辞書対を選択するステップとを含む、請求項１に記載の対訳辞書作成方法。
【請求項４】
前記第１言語の話者のための、前記第３言語から前記第１言語への方向性を持つ第３の辞書と、前記第２言語の話者のための、前記第３言語から前記第２言語への方向性を持つ第４の辞書とを、電子的に読取可能な形で準備するステップと、
同一の前記第３言語の見出しに対応する、前記第３の辞書のエントリと前記第４の辞書のエントリとの双方から、所定条件を充足する前記第３言語の例文とその訳文とを抽出し、対訳文対を作成するステップと、
前記対訳文対を作成するステップで作成された対訳文対のうち、訳文同士のアライメントを採るステップと、
前記アライメントを採るステップで互いにアラインされたチャンクから、機能語対を抽出し電子的に読取可能な形式で蓄積する第２のステップと、
前記電子的に読取可能な形式で蓄積する第１および第２のステップで蓄積された前記内容語対と前記機能語対とをマージするステップとをさらに含む、請求項１〜請求項３のいずれかに記載の対訳辞書作成方法。
【請求項５】
コンピュータにより実行されると、請求項１〜請求項４のいずれかに記載の対訳辞書作成方法の全てのステップを実施するように当該コンピュータを制御する、コンピュータプログラム。
【請求項６】
第１言語と第２言語との間の対訳辞書を、第３言語を仲介として自動的に作成するための対訳辞書作成装置であって、
前記第１言語の話者のための、前記第１言語から前記第３言語への方向性を持つ第１の辞書と、前記第２言語の話者のための、前記第２言語から前記第３言語への方向性を持つ第２の辞書とを、電子的に読取可能な形で準備するための辞書準備手段と、
前記第１の辞書の内容語に関する各エントリと前記第２の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる前記第３言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するためのエントリ対抽出手段と、
前記エントリ対抽出手段により抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積するための内容語対記憶手段とを含む、対訳辞書作成装置。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【公開番号】特開２００６−５３８６７（Ｐ２００６−５３８６７Ａ）
【公開日】平成１８年２月２３日（２００６．２．２３）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 自然言語データの取扱い (7,890)
        
        自然言語の処理または翻訳 (1,147)

【出願番号】特願２００４−２３６６４１（Ｐ２００４−２３６６４１）
【出願日】平成１６年８月１６日（２００４．８．１６）
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成１６年４月１日付け、支出負担行為担当官総務省大臣官房会計課企画官、研究テーマ「ネットワーク・ヒューマン・インターフェースの総合的な研究開発（携帯電話等を用いた多言語自動翻訳システムの研究開発）」に関する委託研究、産業活力再生特別措置法第３０条の適用を受ける特許出願
【出願人】（３９３０３１５８６）株式会社国際電気通信基礎技術研究所 (905)
【Ｆターム（参考）】

機械翻訳 (6,566)

[ Back to top ]

対訳辞書作成方法および装置、ならびにコンピュータプログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

対訳辞書作成方法および装置、ならびにコンピュータプログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク