説明

類義性尺度用パラメタ学習装置およびそのプログラム、並びに、類義性尺度計算装置

【課題】本発明は、正解データの作成コストを低減でき、正確性が高い類義性尺度を計算可能なパラメタを学習する類義性尺度用パラメタ学習装置を提供する。
【解決手段】類義性尺度学習装置100は、対訳コーパスを用いて、後記する類義関係単語対一覧および非類義関係単語対一覧を正解データとして作成する正解データ作成装置1と、正解データ作成装置1が作成した類義関係単語対一覧および非類義関係単語対一覧を用いて、単語間の類義性尺度を算出するためのパラメタを学習するパラメタ学習装置3と、パラメタ学習装置3が学習したパラメタを用いて、類義性尺度を計算する類義性尺度計算装置5とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2言語間の対訳である対訳コーパスを用いて、単語間の類義性尺度を算出するためのパラメタを学習する類義性尺度用パラメタ学習装置およびそのプログラム、並びに、類義性尺度用パラメタ学習装置が学習したパラメタを用いて類義性尺度を計算する類義性尺度計算装置に関する。
【背景技術】
【0002】
従来から、ある単語と別の単語との意味が類義(類似)しているかどうかを判断する尺度を得ることは、自然言語処理や情報検索処理などの応用分野では、重要な基礎技術である。また、この尺度として、単語が出現する周辺文脈の類義性を利用する手法が広く用いられている。この周辺文脈の類義性を利用する手法では、各単語の前後の文脈にどのような特徴が現れるかを、「文脈ベクタ」と呼ばれる特徴量で表現する。そして、この周辺文脈の類義性を利用する手法では、それら特徴量間(文脈ベクタ間)に何らかの関係を定義して、それら特徴量をこの尺度として用いている。
【0003】
典型的には、この周辺文脈の類義性を利用する手法では、文脈の特徴として、対象単語の前後ある範囲における単語の出現傾向を用いることが多い。そして、この周辺文脈の類義性を利用する手法では、コーパスなどの文書資源を集計することによって、当該文書資源に現れる各単語の文脈ベクタを作成する。このとき、周辺文脈の類義性を利用する手法では、文脈ベクタの類似度を示す指標として、内積またはジャッカード類似度を用いることもある。
【0004】
この周辺文脈の類義性を利用する手法以外にも、文脈の特徴に用いる言語的素性や類似度の計算方法が、提案されている。以下、図16を参照して、各対象単語の前後文脈に出現する単語(文脈単語)を文脈の特徴として、文脈ベクタを構成する手法を説明する。この場合、各文脈ベクタは、当該文書資源に現れる単語の種類数からなる次元数を持つ。そして、典型的には、対象単語の文脈ベクタの各成分が、当該次元に対応する文脈単語が対象単語の前後文脈範囲に現れた回数を、当該文書資源に現れた全ての対象単語について加算した値として表す。図16の例では、文書資源に現れる単語がW〜Wの6種類であるので、文書資源中において、単語Wの前後1単語を文脈素性とする文脈ベクタは(0,1,2,1,1,1)となる。
【0005】
また、文脈ベクタとしては、各文脈単語が対象単語の類義性の判断に寄与する度合を何らかの方法で見積もった値で各次元の値を重みづける、文脈ベクタの大きさを正規化するなど、様々なバリエーションが提案されている。
【0006】
ここで、あらゆる文脈素性が文書資源に全て現れるわけではないために、出現に相関のある文脈単語に関わる文脈ベクタの次元を縮退して、文脈ベクタの次元を削減することが行われている。この文脈ベクタの次元縮退は、LSI(Latent Semantic Indexing)法と呼ばれ、D次元の文脈ベクタvに対し、N×D(N<D)次元の行列Xにより、N次元の文脈ベクタXvへの線形写像を一般化することで実現できる。典型的には、このような線形写像行列Nの作成方法には、特異値分解を利用することができる。
【0007】
これまでに説明した手法は、単語の意味的な類似の度合が文脈素性(典型的には周辺単語の出現傾向)の共有の度合に相関していることを暗黙のうちに仮定していたが、この仮定は、必ずしも正しくない。このため、類義性に関する何らかの正解データを用意して、この正解データを用いる教師あり学習手法が、提案されている(非特許文献1参照)。
【0008】
この非特許文献1に記載の手法では、文脈ベクタの構築に用いた文書資源以外の何らかの知識により、単語aと単語bとは類義であるが、単語cと単語dとは非類義(異義)であるといった対象単語間の類義/異義関係を作成する。そして、非特許文献1に記載の手法では、類義である単語対を正解例とし、異義である単語対を不正解例とした類義性の正解データを用意する。これによって、非特許文献1に記載の手法では、類義である単語の文脈ベクタ間の類似度をある値より大きく(あるいは意味的な「距離」をある値より小さく)、異義である単語の文脈ベクタ間の類似度をある値より小さく(あるいは意味的な「距離」をある値より大きく)、という制約ができるだけ満たされる尺度を学習することができる。
【0009】
また、類義関係にある単語対を自動的に獲得するための技術として、単語の対訳関係が付与された対訳コーパスを用いる手法が提案されている(非特許文献2,3参照)。ここで、言語Aのある単語aが言語Bの単語b,bという複数の単語に翻訳されるならば、単語b,bが類義関係にある可能性が高くなると考えられる。また、単語b,bと、単語b,bが共に類義関係にある可能性が高いならば、単語b,bも類義関係にある可能性が高くなると考えられる。そこで、非特許文献2,3に記載の手法では、この性質を利用して、類義関係にある可能性の高い単語対を自動的に獲得する。
【0010】
このとき、非特許文献2,3に記載の手法では、単語の多義性に由来する誤りを含む場合がある。例えば、前記した例において、単語b,bは、単語aが有する2つの異なる意味のそれぞれに対する翻訳であり、類義ではない可能性もある。このため、類義候補の単語対の各々について、本当に類義であると言えるかどうかを、何らかの方法で評価する必要がある。ここで、非特許文献2に記載の手法では、使用する対訳コーパスの持つ特殊な性質による判別規則を作成して、この評価に用いている。また、非特許文献3に記載の手法では、先に説明したように、周辺文脈の文脈ベクタの類義性の評価指標を用いている。
【0011】
仮に、単語aの翻訳に、単語b,bがあり、単語b,bが類義でないと評価された場合、単語aは、その翻訳が、単語bである使われ方と、単語bである使われ方(以後それぞれab1,ab2と表記する)では、それぞれ意味が異なる。つまり、非特許文献2,3に記載の手法は、類義語を獲得する手法であると同時に、多義語を発見し分類する手法であるといえる。
【先行技術文献】
【非特許文献】
【0012】
【非特許文献1】Metric Learning for Synonym Acquisition. Nobuyuki Shimizu, Masato Hagiwara, Yasuhiro Ogawa, Katsuhiko Toyama and Hiroshi Nakagawa. In proceedings of COLING 2008. http://aclweb.org/anthology-new/C/C08/C08-1100.pdf.
【非特許文献2】和英著者キーワードからの多言語類語辞書自動構築の試み. 相澤彰子. 情報管理. Vol. 47, No. 6, (2004), 401-409.
【非特許文献3】Translation-oriented Word Sense Induction Based on Parallel Corpora. Marianna Apidianaki. In proceedings of LREC 2008. http://www.lrec-conf.org/proceedings/lrec2008/pdf/822 paper.pdf.
【発明の概要】
【課題を解決するための手段】
【0013】
しかし、前記した従来技術には、以下のような問題がある。
非特許文献1に記載の手法は、教師あり学習であるため、その適用に大量の正解データを必要とする。従って、非特許文献1に記載の手法では、広範な単語を扱うことができる尺度の学習が、正解データの作成コストが問題となり、その実現困難である。
【0014】
また、非特許文献2,3に記載の手法は、類義語を獲得する手法であり、任意の単語間の類義性を判断するための尺度を獲得できないという問題がある。そのため、非特許文献2,3に記載の手法は、類義関係にある可能性が高いと評価された単語以外にも、類似関係にある単語が多数存在するが、それら単語を発見することが困難である。
【0015】
ここで、非特許文献3に記載の手法を非特許文献1に記載の手法に適用すれば、尺度を学習することも可能と思われる(以下、「非特許文献1,3の尺度学習手法」)。この場合、非特許文献1,3の尺度学習手法では、対訳コーパスから言語A,Bのそれぞれについて、正解データを用いて、言語Aに関する単語間の尺度を学習し、言語Aと独立して、言語Bに関する単語間の尺度を学習することになる。このように、非特許文献1,3の尺度学習手法では、言語A,Bに関する学習が独立することになり、尺度の正確性が低くなるという問題があった。
【0016】
そこで、本発明は、前記した問題を解決し、正解データの作成コストを低減でき、正確性が高い類義性尺度を計算可能なパラメタを学習する類義性尺度用パラメタ学習装置およびそのプログラムを提供することを目的とする。
また、本発明は、正確性が高い類義性尺度を計算する類義性尺度学習装置を提供することを目的とする。
【0017】
前記した課題に鑑みて、本願第1発明に係る類義性尺度用パラメタ学習装置は、2言語間の対訳である対訳コーパスを用いて、言語ごとに、単語間の類義性を示す類犠牲尺度の算出に用いるパラメタを学習する類義性尺度用パラメタ学習装置であって、対訳コーパス保持部と、文脈ベクタ作成部と、類義関係単語対候補作成部と、類義非類義関係単語対判別部と、言語間文脈整合ベクタ作成部と、パラメタ学習部と、を備えることを特徴とする。
【0018】
かかる構成によれば、類義性尺度用パラメタ学習装置は、対訳コーパス保持部によって、前記対訳コーパスと、前記2言語間の単語の対訳である単語対が含まれる単語対応情報とを予め保持する。この対訳コーパスは、正解データを作成するために利用される。
【0019】
また、類義性尺度用パラメタ学習装置は、文脈ベクタ作成部によって、前記単語対応情報の単語対に含まれる一方の言語の単語である基部と他方の言語の単語である対訳部とを前記対訳コーパスに有する対訳付き単語について、前記対訳付き単語の文脈ベクタが格納された文脈ベクタ一覧を前記対訳コーパスの文脈素性によって作成する。
【0020】
また、類義性尺度用パラメタ学習装置は、類義関係単語対候補作成部によって、前記単語対応情報の単語対に含まれる前記2言語間の単語のうち何れか一方が共通する単語集合対を求め、前記一方の言語および前記他方の言語ごとに、当該単語集合対に含まれる単語同士を組み合わせることで、類義関係候補の単語対である類義関係単語対候補が格納された類義関係単語対候補一覧を作成する。
【0021】
また、類義性尺度用パラメタ学習装置は、類義非類義関係単語対判別部によって、前記類義関係単語対候補一覧および前記文脈ベクタ一覧を用いて、2個の前記文脈ベクタに対応する対訳付き単語の対が、類義関係となるか、非類義関係となるか、または、前記類義関係および前記非類義関係の何れにも該当しないかを予め設定した基準によって判定し、前記類義関係と判定された対訳付き単語の対が格納された類義関係単語対一覧と、前記非類義関係と判定された対訳付き単語の対が格納された非類義関係単語対一覧とを作成する。つまり、類義非類義関係単語対判別部は、類義関係または非類義関係だけでなく、これらの何れにも該当しないかを判定するため、対訳付き単語の対を類義関係単語対一覧または非類義関係単語対一覧の何れかに正確に分類できる。これによって、類義性尺度用パラメタ学習装置は、正確性が高い正解データを自動的に作成可能とし、正解データを手動で準備する必要がない。
【0022】
また、類義性尺度用パラメタ学習装置は、言語間文脈整合ベクタ作成部によって、前記2言語間における前記文脈ベクタの対である言語間文脈整合ベクタが格納された言語間文脈整合ベクタ一覧を作成する。
【0023】
また、類義性尺度用パラメタ学習装置は、パラメタ学習部によって、前記類義関係単語対一覧と、前記非類義関係単語対一覧と、前記言語間文脈整合ベクタ一覧とを用いて、前記パラメタを予め定義したパラメタ関数によって学習する。つまり、パラメタ学習部は、正確性が高い正解データを用いて、言語間の文脈の対応関係を保ちながら、パラメタを学習する。
【0024】
本願第2発明に係る類義性尺度用パラメタ学習装置は、前記類義非類義関係単語対判別部が、前記2個の文脈ベクタに対応する対訳付き単語の対において、互いの前記基部が同一であるか否かを判定し、前記互いの基部が同一の場合、前記2個の文脈ベクタの類義性指標を算出すると共に、当該類義性指標が予め設定された閾値未満であれば、前記対訳付き単語の対が前記類義関係および前記非類義関係の何れにも該当しないと判定し、当該類義性指標が前記閾値未満でなければ、前記対訳付き単語の対が前記類義関係となると判定し、前記互いの基部が同一でない場合、前記互いの基部が前記類義関係単語対候補一覧に含まれているか否かを判定し、前記互いの基部が前記類義関係単語対候補一覧に含まれない場合、前記前記対訳付き単語の対が前記非類義関係となると判定し、前記互いの基部が前記類義関係単語対候補一覧に含まれる場合、前記2個の文脈ベクタの類義性指標を算出すると共に、当該類義性指標が前記閾値未満であれば、前記対訳付き単語の対が前記類義関係および前記非類義関係の何れにも該当しないと判定し、当該類義性指標が前記閾値未満でなければ、前記対訳付き単語の対が前記類義関係となると判定することが好ましい。
【0025】
本願第3発明に係る類義性尺度用パラメタ学習装置は、前記パラメタ学習部が、前記一方の言語における単語a,aの文脈ベクタがv(a),v(a)と表されるときに、前記単語a,aの類義性尺度s(a,a)が式(1)で定義され、前記他方の言語における単語b,bの文脈ベクタがv(b),v(b)と表されるときに、前記単語b,bの類義性尺度s(b,b)が式(2)で定義され、前記言語間文脈整合ベクタ(w,w)の整合度c(w,w)が式(3)で定義されるときに、式(4)で定義される前記パラメタ関数を最小化する式(1)のパラメタVおよび式(2)のVを学習することが好ましい。
【0026】
また、本願第4発明に係る類義性尺度学習装置は、本願第1発明に係る類義性尺度用パラメタ学習装置と、当該類義性尺度用パラメタ学習装置が学習したパラメタを用いて、前記類義性尺度を計算する類義性尺度計算部と、を備えることが好ましい。
【0027】
なお、本願第1発明に係る類義性尺度用パラメタ学習装置は、対訳コーパス保持部を備えるコンピュータを、文脈ベクタ作成部、類義関係単語対候補作成部、類義非類義関係単語対判別部、言語間文脈整合ベクタ作成部、パラメタ学習部として機能させる類義性尺度用パラメタ学習プログラムによって実現することもできる。
【発明の効果】
【0028】
本発明によれば、対訳コーパスから、正確性が高い正解データを自動的に作成すると共に、この正確性が正解データを用いて、言語間の文脈の対応関係を保ちながらパラメタを学習する。このため、本発明によれば、正解データの作成コストを低減することができ、パラメタの正確性を高くすることができる。
さらに、本発明によれば、このパラメタを用いるため、類義性尺度の正確性を高くすることができる。
【図面の簡単な説明】
【0029】
【図1】本発明の第1実施形態に係る類義性尺度学習装置の構成を示すブロック図である。
【図2】本発明の第1実施形態において、文脈ベクタを説明する図である。
【図3】図1の類義性尺度学習装置の動作を示すフローチャートである。
【図4】図1の正解データ作成装置の動作を示すフローチャートである。
【図5】図4の文脈ベクタ作成処理を示すフローチャートである。
【図6】図4の類義関係単語対候補作成処理を示すフローチャートである。
【図7】(a)〜(c)は、図6の類義関係単語対候補作成処理を補足説明する第1図である。
【図8】(a)〜(c)は、図6の類義関係単語対候補作成処理を補足説明する第2図である。
【図9】(a)〜(c)は、図6の類義関係単語対候補作成処理を補足説明する第3図である。
【図10】図4の類義非類義関係単語対判別処理を示すフローチャートである。
【図11】(a),(b)は、図10の類義非類義関係単語対判別処理を補足説明する図である。
【図12】図1のパラメタ学習装置の動作を示すフローチャートである。
【図13】図12の語間文脈整合ベクタ一覧作成処理を補足説明する図である。
【図14】図1の類義性尺度計算装置の動作を示すフローチャートである。
【図15】本発明の第2実施形態に係る勾配法パラメタ学習装置の構成を示すブロック図である。
【図16】従来技術において、文脈ベクタを説明する図である。
【発明を実施するための形態】
【0030】
(第1実施形態)
以下、本発明の各実施形態について、適宜図面を参照しながら詳細に説明する。
本発明の第1実施形態に係る類義性尺度学習装置100は、2言語間の対訳である対訳コーパスを用いて、言語ごとに、単語間の類義性を示す類義性尺度の算出に用いるパラメタを学習すると共に、学習したパラメタを用いて類義性尺度を計算するものである。このため、図1に示すように、類義性尺度学習装置100は、正解データ作成装置1と、パラメタ学習装置3と、類義性尺度計算装置5とを備える。
【0031】
正解データ作成装置1およびパラメタ学習装置3は、これら2台をまとめて、類義性尺度用パラメタ学習装置2と呼ぶことがある。
前記した2言語のうち、一方の言語を「言語A」とし、他方の言語を「言語B」とする。例えば、言語Aが日本語で、かつ、言語Bが英語というように、言語A,Bは、互いに異なる言語である。
言語Aの単語を「単語a」とし、言語Bの単語を「単語b」とする。
【0032】
[正解データ作成装置の構成]
以下、正解データ作成装置1の構成について説明する。正解データ作成装置1は、対訳コーパスを用いて、後記する類義関係単語対一覧および非類義関係単語対一覧を正解データとして作成するものである。このため、正解データ作成装置1は、対訳コーパス保持部11と、文脈ベクタ保持部12と、類義関係単語対候補保持部13と、類義非類義関係単語対保持部14と、文脈ベクタ作成部15と、類義関係単語対候補作成部16と、類義非類義関係単語対判別部17と、入出力インタフェース18とを備える。
【0033】
対訳コーパス保持部11は、対訳コーパスと、単語対応情報とを保持するメモリ、ハードディスクなどの記憶装置である。例えば、対訳コーパスおよび単語対応情報は、オペレータが手動で対訳コーパス保持部11に記憶(保持)させる。
【0034】
対訳コーパスは、同一内容の文書が言語A,Bでそれぞれ記述された対訳対である。また、日本語文書のように、単語の区切りが分かち書きできない場合、対訳コーパスは、各単語の分割に関する情報(例えば、形態素情報)が含まれている。
【0035】
単語対応情報は、言語A,B間の単語の対訳である単語対が含まれる情報である。すなわち、単語対応情報は、言語Aの単語が、言語Bで記述された文書において、どの位置の単語に翻訳されているかを示す情報である。ここで、単語対応情報は、統計機械翻訳技術を用いた単語対応付け手法を用いて作成することができる。この単語対応付け手法は、例えば、文献「GIZA++: Training of Statistical Translation Models. Franz Josef Och.http://fjoch.com/GIZA++.html」に記載されている。
【0036】
文脈ベクタ保持部12は、言語A,Bそれぞれの文脈ベクタ一覧を保持するメモリ、ハードディスクなどの記憶装置である。ここで、文脈ベクタ一覧は、後記する文脈ベクタ作成部15が作成するものであり、対訳コーパスに現れる言語A,Bの対訳付き単語a,bの文脈ベクタv(a),v(b)が格納されている。
【0037】
なお、単語対応情報の単語対において、言語Aの単語aのうち、その対訳である言語Bの単語bが対訳コーパスに含まれるものを対訳付き単語aとする。この対訳付き単語aにおいて、その言語Aにおける単語aを基部と呼び、対訳となる言語Bの単語bを対訳部と呼ぶこととする。例えば、日本語の単語「自動車」と英語の単語「CAR」との単語対が対訳付き単語において、日本語を基準にすると、単語「自動車」が基部となり、単語「CAR」が対訳部となる。また、例えば、英語を基準にした場合、単語「CAR」が基部となり、単語「自動車」が対訳部となる。
【0038】
類義関係単語対候補保持部13は、言語A,Bそれぞれの類義関係単語対候補一覧を保持するメモリ、ハードディスクなどの記憶装置である。ここで、類義関係単語対候補一覧は、後記する類義関係単語対候補作成部16が作成するものであり、類義関係候補の単語対である類義関係単語対候補が格納されている。
【0039】
類義非類義関係単語対保持部14は、言語A,Bそれぞれの類義関係単語対一覧と、言語A,Bそれぞれの非類義関係単語対一覧とを保持するメモリ、ハードディスクなどの記憶装置である。
【0040】
類義関係単語対一覧は、後記する類義非類義関係単語対判別部17が作成するものであり、類義非類義関係単語対判別部17によって類義関係と判定された言語A,Bの対訳付き単語a,bの対が格納されている。
【0041】
非類義関係単語対一覧は、類義非類義関係単語対判別部17が作成するものであり、類義非類義関係単語対判別部17によって非類義関係と判定された言語A,Bの対訳付き単語a,bの対が格納されている。
【0042】
文脈ベクタ作成部15は、言語A,Bのそれぞれについて、文脈ベクタv(a),v(b)が含まれる文脈ベクタ一覧を対訳コーパスの文脈素性によって作成する。具体的には、文脈ベクタ作成部15は、対訳コーパス保持部11に保持された対訳コーパスおよび単語対応情報を用いて、言語Aの単語(処理対象単語)aが対訳コーパスに対訳となる言語Bの単語(対応先単語)bを有するとき、この関係から対訳付き単語aを求める。そして、文脈ベクタ作成部15は、言語Aにおける全ての対訳付き単語aの出現情報(文脈素性)に基づいて、文脈ベクタv(a)を算出する。その後、文脈ベクタ作成部15は、計算した文脈ベクタv(a)が含まれる文脈ベクタ一覧を作成して、文脈ベクタ保持部12に保持する。
【0043】
ここで、図2を参照して、文脈ベクタについて詳細に説明する(適宜図1参照)。なお、図2では、対訳コーパスにおいて、言語Aの単語が6種類(単語a,a,a,a,a,a)であるとする。また、文脈素性は、対象語の前後1単語とする。
【0044】
単語aに注目すると、図2の対訳コーパスから、言語Aの単語aが言語Bの単語b,bに翻訳されていることがわかる。この場合、対訳付き単語ab1が2個となり、対訳付き単語ab2が1個となる。ここで、対訳コーパスの言語A側において、対訳付き単語ab1の単語aで前後1単語の範囲内では、単語aが0回、単語aが1回、単語aが2回、単語aが0回、単語aが1回、単語aが0回出現する。従って、文脈ベクタ作成部15は、対訳付き単語ab1の文脈ベクタv(ab1)=(0,1,2,0,1,0)を算出する。また、対訳コーパスの言語A側において、対訳付き単語ab2の単語aで前後1単語の範囲内では、単語aが0回、単語aが0回、単語aが0回、単語aが1回、単語aが0回、単語aが1回出現する。従って、文脈ベクタ作成部15は、対訳付き単語ab2の文脈ベクタv(ab2)=(0,0,0,1,0,1)を算出する。このように、文脈ベクタは、対訳コーパスに含まれる文脈素性が異なる数に一致する次元数を持ち、その各成分が文脈素性にそれぞれ対応する。
【0045】
そして、文脈ベクタ作成部15は、言語Aについて、算出した文脈ベクタv(ab1),v(ab2),・・・が格納された文脈ベクタ一覧を作成する。なお、文脈ベクタ作成部15は、言語Aと同様の処理で言語Bの文脈ベクタ一覧を作成できるため、その説明を省略する。
【0046】
以下、図1に戻り、正解データ作成装置1の構成について説明を続ける。
類義関係単語対候補作成部16は、対訳コーパス保持部11に保持された単語対応情報の単語対に含まれる言語A,Bの単語a,bの一方が共通する単語集合対を求め、言語A,Bごとに単語集合対に含まれる単語同士を組み合わせることで、類義関係単語対候補が格納された類義関係単語対候補一覧を作成する。つまり、類義関係単語対候補作成部16は、同一単語に翻訳されうるならば類義候補という関係の推移関係を有する単語対を類義関係単語対候補として列挙する。その後、類義関係単語対候補作成部16は、列挙した類義関係単語対候補が類義関係単語対候補保持部を作成して、類義関係単語対候補保持部13に保持する。なお、類義関係単語対候補一覧の作成は、後記する類義関係単語対候補作成部16の動作で詳細に説明する。
【0047】
ここで、類義関係候補とは、単語a,aが類義候補にあり、かつ、単語a,aが類義候補にあるならば、単語a,aも類義候補にあるという類義候補の推移律で結ばれる関係である。
【0048】
類義非類義関係単語対判別部17は、言語A,Bのそれぞれについて、類義関係単語対候補保持部13に保持された類義関係単語対候補一覧および文脈ベクタ保持部12に保持された文脈ベクタ一覧を用いて、2個の文脈ベクタに対応する対訳付き単語の対が、類義関係となるか、非類義関係となるか、または、類義関係および非類義関係の何れにも該当しないかを予め設定した基準判定する。そして、類義非類義関係単語対判別部17は、この判定結果に応じて、類義関係単語対一覧と、非類義関係単語対一覧とを作成する。その後、類義非類義関係単語対判別部17は、作成した類義関係単語対一覧と非類義関係単語対一覧とを類義非類義関係単語対保持部14に保持する。
【0049】
具体的には、類義非類義関係単語対判別部17は、言語Aの対訳付き単語同士を全て組み合わせて、対訳付き単語の対(例えば、ab1−ab2)を求める。そして、類義非類義関係単語対判別部17は、対訳付き単語の対において、互いの基部が同一単語であるか、または、類義関係単語対候補一覧に類義候補関係単語対として登録されているかを判定する。さらに、類義非類義関係単語対判別部17は、この判定が成立し、2個の文脈ベクタから計算した類義性指標の値が予め設定した閾値を越える場合、この対訳付き単語の対を言語Aの類義関係単語対一覧に追加する。ここで、前記した類義性指標は、文脈ベクタ同士の類義性を示す指標であり、例えば、内積、ジャッカード係数またはマハラノビス距離を用いて、求めることができる。なお、類義性指標の閾値は、類義性指標を求める実験を行い、その実験結果を考慮して経験的に設定することが可能である。
【0050】
その一方、類義非類義関係単語対判別部17は、対訳付き単語の対において、互いの基部が異なる単語であり、かつ、類義関係単語対候補一覧に類義候補関係単語対として含まれていない場合、この対訳付き単語の対を言語Aの非類義関係単語対一覧に追加する。なお、類義関係単語対一覧および非類義関係単語対一覧の作成は、後記する類義非類義関係単語対判別部17の動作で詳細に説明する。また、類義非類義関係単語対判別部17は、言語Aと同様の処理で言語Bの類義関係単語対一覧および非類義関係単語対一覧を作成できるため、その説明を省略する。
【0051】
入出力インタフェース18は、ネットワークを介して、パラメタ学習装置3との間で、各保持部に保持されたデータを入出力するインタフェースである。
【0052】
[パラメタ学習装置の構成]
以下、パラメタ学習装置3の構成について説明する。パラメタ学習装置3は、正解データ作成装置1が作成した類義関係単語対一覧および非類義関係単語対一覧を正解データとして用いて、類義性尺度の算出に用いるパラメタを学習するものである。このため、パラメタ学習装置3は、対訳コーパス保持部31と、言語間文脈整合ベクタ保持部32と、類義性尺度計算手順保持部33と、類義非類義関係単語対保持部34と、パラメタ保持部35と、類義非類義関係単語対設定部36と、言語間文脈整合ベクタ作成部37と、パラメタ学習部38と、入出力インタフェース39とを備える。
【0053】
対訳コーパス保持部31は、対訳コーパス保持部11と同様、対訳コーパスと単語対応情報とを保持するものであるため、説明を省略する。
【0054】
言語間文脈整合ベクタ保持部32は、文脈ベクタ保持部12と同様に文脈ベクタ一覧を保持すると共に、後記する言語間文脈整合ベクタ作成部37が作成する言語間文脈整合ベクタ一覧を保持するメモリ、ハードディスクなどの記憶装置である。
ここで、正解データ作成装置1の出力は、類義関係単語対一覧および非類義関係単語対一覧であり、類義関係単語対一覧および非類義関係単語対一覧の作成手法がパラメタ学習装置3の処理に影響を及ぼすことはない。従って、パラメタ学習装置3における文脈素性は、正解データ作成装置1における文脈素性と一致していなくともよい。
【0055】
言語間文脈整合ベクタ一覧は、後記する言語間文脈整合ベクタ作成部37が作成するものであり、言語A,B間での文脈ベクタの対である言語間文脈整合ベクタが格納されている。つまり、言語間文脈整合ベクタは、対訳コーパス保持部31に保持された単語対応情報の各単語対に対応する、言語Aの文脈ベクタと言語Bの文脈ベクタとの対である。
【0056】
類義性尺度計算手順保持部33は、類義性尺度の計算手順(後記する式(1),式(2))と、パラメタの計算手順(後記する式(3),式(4))とを保持するメモリ、ハードディスクなどの記憶装置である。例えば、類義性尺度およびパラメタの計算手順は、オペレータが手動で類義性尺度計算手順保持部33に記憶(保持)させる。
【0057】
類義非類義関係単語対保持部34は、類義非類義関係単語対保持部14と同様、類義関係単語対一覧と非類義関係単語対一覧とを保持するものであるため、説明を省略する。
【0058】
パラメタ保持部35は、言語A,Bのそれぞれについて、後記するパラメタ学習部38が学習したパラメタを保持するメモリ、ハードディスクなどの記憶装置である。
【0059】
類義非類義関係単語対設定部36は、入出力インタフェース18,39を介して、言語A,Bのそれぞれについて、類義非類義関係単語対保持部14が保持する類義関係単語対一覧および非類義関係単語対一覧を類義非類義関係単語対保持部34にコピー(設定)するものである。
【0060】
言語間文脈整合ベクタ作成部37は、文脈ベクタ作成部15と同様、言語A,Bそれぞれの文脈ベクタ一覧を作成するものである。また、言語間文脈整合ベクタ作成部37は、対訳コーパス保持部31が保持する単語対応情報のそれぞれについて、単語対によって示される言語A,Bの単語出現位置(周辺文脈)を表す文脈ベクタの対である言語間文脈整合ベクタを計算する。そして、言語間文脈整合ベクタ作成部37は、計算した言語間文脈整合ベクタが格納されている語間文脈整合ベクタ一覧を作成する。その後、言語間文脈整合ベクタ作成部37は、作成した文脈ベクタ一覧と語間文脈整合ベクタ一覧とを言語間文脈整合ベクタ保持部32に保持する。
【0061】
なお、言語間文脈整合ベクタは、言語間文脈整合ベクタ保持部32が保持する言語A,Bの文脈ベクタと同じ次元数を有し、各成分がそれぞれ同じ文脈素性の一つ一つに対応する。また、語間文脈整合ベクタ一覧の作成は、後記する言語間文脈整合ベクタ作成部37の動作で詳細に説明する。
【0062】
パラメタ学習部38は、類義非類義関係単語対保持部34が保持する類義関係単語対一覧および非類義関係単語対一覧と、言語間文脈整合ベクタ一覧が保持する言語間文脈整合ベクタ一覧とを用いて、パラメタをパラメタ関数によって学習するものである。具体的には、パラメタ学習部38は、前記した類義関係単語対一覧および非類義関係単語対一覧を正解データとして用いて、パラメタを学習する。すなわち、パラメタ学習部38は、類義性尺度計算手順保持部33が保持する類義性尺度の計算手順による計算結果が、正解データが示す条件において、類義性尺度計算手順保持部33が保持するパラメタの計算手順で最適化されるパラメタを学習する。その後、パラメタ学習部38は、言語A,Bのそれぞれについて、学習したパラメタをパラメタ保持部35に保持する。
【0063】
<パラメタの学習>
以下、パラメタの学習について、具体例を説明する。類義性尺度計算手順保持部33が保持する言語Aの類義性尺度の計算手順において、単語a,aの類義性尺度s(a,a)は、下記の式(1)で定義される。すなわち、類義性尺度s(a,a)は、言語Aの(対訳付き)単語の文脈ベクタがD次元であり、言語Aの(対訳付き)単語a,aの文脈ベクタがv(a),v(a)と表されるときに、式(1)で定義される。
【0064】
【数1】

【0065】
ただし、Vは、N×D次元の実数行列で、言語Aの類義性尺度を計算するためのパラメタである。ここで、パラメタV,Vの次元数を決定する数Nは、N≦V、かつ、N≦Vとなるようにオペレータが手動で設定する。また、“||”はノルムを示し、“T”は転置を示す。
【0066】
また、類義性尺度計算手順保持部33が保持する言語Bの類義性尺度の計算手順において、単語b,bの類義性尺度s(b,b)は、下記の式(2)で定義される。すなわち、類義性尺度s(b,b)は、言語Bの(対訳付き)単語の文脈ベクタがD次元であり、言語Bの(対訳付き)単語b,bの文脈ベクタがv(b),v(b)と表されるときに、式(2)で定義される。ただし、Vは、N×D次元の実数行列で、言語Bの類義性尺度を計算するためのパラメタである。
【0067】
【数2】

【0068】
また、パラメタV,Vの学習では、2つの制約条件を満たす最適化学習を行うこととする。ここで、第1の制約条件は、言語間文脈整合ベクタ作成部37に保持された言語間文脈整合ベクタ(w,w)の整合度c(w,w)が、できるだけ大きくなるようにする。このとき、言語間文脈整合ベクタ(w,w)の整合度c(w,w)は、下記の式(3)で定義される。
【0069】
【数3】

【0070】
また、第2の制約条件は、類義非類義関係単語対保持部34に保持されている言語Aの類義関係単語対一覧において、(対訳付き)単語の対(a,a)の類義性尺度が、非類義関係単語対一覧の対訳付き単語の対(a,a´),(a´´,a)の類義性尺度よりできるだけ大きくなるようにする。ここで、単語a´は、単語a以外で、かつ、単語の対(a,a´)が非類義関係単語対一覧に含まれている言語Aの単語である。また、単語a´´は、単語a以外で、かつ、単語の対(a´´,a)が非類義関係単語対一覧に含まれている言語Aの単語である。なお、第1,第2の制約条件は、言語Bについても同様である。
【0071】
すなわち、パラメタ学習部38は、前記した第1,第2の制約条件を満たすために、以下の式(4)で定義されたパラメタ関数を最小化するパラメタV,Vを学習する。
【0072】
【数4】

【0073】
なお、この式(4)では、Wは言語間文脈整合ベクタ一覧を表す集合であり、Yは単語(対訳付き単語の基部)a,aが類義関係単語対一覧に含まれるときに真を返す関数、Nは単語(対訳付き単語の基部)a,aが非類義関係単語対一覧に含まれるときに真を返す関数、Yは単語(対訳付き単語の基部)b,bが類義関係単語対一覧に含まれるときに真を返す関数、Nは単語(対訳付き単語の基部)b,bが非類義関係単語対一覧に含まれるときに真を返す関数、α,β,βBはオペレータが手動で設定した係数(正の実数)であり、mは言語Aのマージンであり、mは言語Bのマージンであり、minは最小値を返す関数である。
【0074】
なお、パラメタ学習部38は、様々な手法を用いてパラメタを学習することができ、例えば、勾配法を用いることもできる。パラメタ学習部38が勾配法を用いる構成は、第2実施形態として後記する。
【0075】
以下、パラメタ学習装置3の構成について、説明を続ける。
入出力インタフェース39は、ネットワークを介して、正解データ作成装置1および類義性尺度計算装置5との間で、各保持部に保持されたデータなどを入出力するインタフェースである。
【0076】
[類義性尺度計算装置の構成]
以下、類義性尺度計算装置5の構成について説明する。類義性尺度計算装置5は、パラメタ学習装置3が学習したパラメタを用いて、類義性尺度を計算するものであり、パラメタ保持部51と、文脈ベクタ保持部52と、類義性尺度計算手順保持部53と、類義性尺度保持部54と、パラメタ設定部55と、文脈ベクタ設定部56と、類義性尺度計算部57と、入出力インタフェース58とを備える。
パラメタ保持部51は、パラメタ保持部35と同様、学習したパラメタを保持するものであるため、説明を省略する。
【0077】
文脈ベクタ保持部52は、言語間文脈整合ベクタ保持部32と同様に文脈ベクタ一覧を保持するメモリ、ハードディスクなどの記憶装置である。
ここで、パラメタ学習装置3の出力は、ある文脈素性を用いて文脈ベクタを表現する場合において、類義性尺度を計算するためのパラメタである。当然、このパラメタを用いる類義性尺度計算装置5には、パラメタ学習装置3と同じ文脈素性を用いた文脈ベクタを準備しておく必要がある。従って、類義性尺度計算装置5における文脈素性は、パラメタ学習装置3における文脈素性と一致していなければならない。
【0078】
類義性尺度計算手順保持部53は、類義性尺度計算手順保持部33と同様、類義性尺度の計算手順を保持するものであるため、説明を省略する。なお、類義性尺度計算装置5における類義性尺度の計算手順は、パラメタ学習装置3における類義性尺度の計算手順と一致していなければならない。
【0079】
類義性尺度保持部54は、言語A,Bそれぞれについて、後記する類義性尺度計算部57が計算した類義性尺度を保持するメモリ、ハードディスクなどの記憶装置である。
【0080】
パラメタ設定部55は、入出力インタフェース39,58を介して、言語A,Bのそれぞれについて、パラメタ保持部35が保持するパラメタをパラメタ保持部51にコピー(設定)するものである。
【0081】
文脈ベクタ設定部56は、入出力インタフェース39,58を介して、言語A,Bのそれぞれについて、言語間文脈整合ベクタ保持部32が保持する文脈ベクタ一覧を文脈ベクタ保持部52にコピー(設定)するものである。
【0082】
類義性尺度計算部57は、パラメタ保持部51が保持するパラメタV,Vと、文脈ベクタ保持部52が保持する文脈ベクタと、類義性尺度計算手順保持部53が保持する類義性尺度の計算手順とを用いて、類義性尺度s,sを計算するものである。具体的には、類義性尺度計算部57は、前記した式(1)を用いて、言語Aにおける単語間の類義性尺度sを計算し、計算した類義性尺度sを類義性尺度保持部54に保持する。また、類義性尺度計算部57は、前記した式(2)を用いて、言語Bにおける単語間の類義性尺度sを計算し、計算した類義性尺度sを類義性尺度保持部54に保持する。
【0083】
入出力インタフェース58は、ネットワークを介して、パラメタ学習装置3との間で、各保持部に保持されたデータを入出力するインタフェースである。また、入出力インタフェース58は、類義性尺度保持部54に保持された類義性尺度s,sを外部に出力する。
【0084】
[類義性尺度学習装置の動作]
以下、図3を参照し、類義性尺度学習装置100の動作(全体処理)について説明する(適宜図1参照)。
【0085】
類義性尺度学習装置100は、正解データ作成装置1によって、対訳コーパスを用いて、類義関係単語対一覧および非類義関係単語対一覧を正解データとして作成する(正解データ作成処理、ステップS1)
【0086】
類義性尺度学習装置100は、パラメタ学習装置3によって、正解データ作成装置1が作成した類義関係単語対一覧および非類義関係単語対一覧を用いて、パラメタを学習する(パラメタ学習処理、ステップS2)。
【0087】
類義性尺度学習装置100は、類義性尺度計算装置5によって、パラメタ学習装置3が学習したパラメタを用いて、類義性尺度を計算する(類義性尺度計算処理、ステップS3)。
【0088】
[正解データ作成装置の動作]
以下、図4を参照し、正解データ作成装置1の動作(正解データ作成処理)について説明する(適宜図1参照)。なお、図4の各処理は、図3のステップS1の処理に相当する。
【0089】
正解データ作成装置1は、文脈ベクタ作成部15によって、言語A,Bのそれぞれについて、文脈ベクタv(a),v(b)が格納された文脈ベクタ一覧を作成する(文脈ベクタ作成処理、ステップS10)。
【0090】
正解データ作成装置1は、類義関係単語対候補作成部16によって、言語A,Bのそれぞれについて、類義関係単語対候補一覧を作成する(類義関係単語対候補作成処理、ステップS11)。
【0091】
正解データ作成装置1は、類義非類義関係単語対判別部17によって、言語A,Bのそれぞれについて、対訳付き単語の対が、類義関係となるか、非類義関係となるか、または、類義関係および非類義関係の何れにも該当しないかを判定する。そして、正解データ作成装置1は、類義非類義関係単語対判別部17によって、その判別結果に応じて、類義関係単語対一覧と、非類義関係単語対一覧とを作成する(類義非類義関係単語対判別処理、ステップS12)。
【0092】
<文脈ベクタ作成処理>
以下、図5を参照し、図4のステップS10の処理(文脈ベクタ作成処理)について詳細に説明する。
文脈ベクタ作成部15は、対訳コーパス保持部11に保持された対訳コーパスの言語Aの先頭単語を処理対象単語(単語a)として設定する(ステップS100)。
【0093】
文脈ベクタ作成部15は、対訳コーパス保持部11に保持された単語対応情報を参照し、設定した処理対象単語について、対訳コーパス中に言語Bの対応先単語(単語b)が存在しないか否かを判定する(ステップS101)。対応先単語が存在しない場合(ステップS101でYes)、文脈ベクタ作成部15は、ステップS104の処理に進む。一方、対応先単語が存在する場合(ステップS101でNo)、文脈ベクタ作成部15は、ステップS102の処理に進む。
【0094】
文脈ベクタ作成部15は、言語Aの文脈ベクタ一覧を参照し、対訳付き単語aの文脈ベクタv(a)が存在しなければ、文脈ベクタv(a)として零ベクタを言語Aの文脈ベクタ一覧に追加する(ステップS102)。
【0095】
文脈ベクタ作成部15は、処理対象単語の前後文脈を予め設定された手法(例えば、単語の出現傾向)により検査することで、処理対象単語の文脈素性集合を決定する。その後、文脈ベクタ作成部15は、対訳付き単語aの文脈ベクタv(a)に対して、文脈素性集合の各要素に対応する成分にそれぞれ1を加え、文脈ベクタを作成する(ステップS103)。
【0096】
文脈ベクタ作成部15は、処理対象単語が対訳コーパスの末尾単語であるか否かを判定する(ステップS104)。処理対象単語が末尾単語でない場合(ステップS104でNo)、文脈ベクタ作成部15は、ステップS105の処理に進む。一方、処理対象単語が末尾単語である場合(ステップS104でYes)、文脈ベクタ作成部15は、ステップS106の処理に進む。
【0097】
文脈ベクタ作成部15は、次の処理対象単語を設定する。例えば、処理対象単語が対訳コーパスの先頭単語であった場合、文脈ベクタ作成部15は、対訳コーパスで2番目の単語を処理対象単語として設定する。その後、文脈ベクタ作成部15は、ステップS101の処理に戻る(ステップS105)。
【0098】
文脈ベクタ作成部15は、各文脈ベクタに対して、例えば、その各成分に対する重み付けや文脈ベクタの長さを1に正規化する処理を行う(ステップS106)。その後、文脈ベクタ作成部15は、処理を終了する。
【0099】
なお、文脈ベクタ作成部15は、言語Aの文脈ベクタ作成処理を実行した後、言語Bの文脈ベクタ作成処理を言語Aと同様に実行する。
【0100】
<類義関係単語対候補作成処理>
以下、図6を参照し、図4のステップS11の処理(類義関係単語対候補作成処理)について詳細に説明する。
類義関係単語対候補作成部16は、類義関係単語集合対集合を空集合に初期化する(ステップS110)。この類義関係単語集合対集合は、言語Aの単語集合と言語Bの単語集合との対である類義関係単語集合対が集合したものである。また、単語集合は、1以上の単語が集合したものである。
【0101】
類義関係単語対候補作成部16は、対訳コーパス保持部11に保持された単語対応情報において、先頭の単語対を処理対象対応情報として設定する(ステップS111)。ここで、処理対象対応情報は、言語Aの単語aと、言語Bの単語bとの単語対であるため、(a−b)と表す。
【0102】
類義関係単語対候補作成部16は、類義関係単語集合対集合全体から、処理対象対応情報(a−b)の単語a,bのうち何れか一方を言語Aの単語集合または言語Bの単語集合として含む部分集合を求める(ステップS112)。なお、言語A,Bの両方で共通する単語a,bが存在しない場合、この部分集合は、空集合となりうる。
【0103】
類義関係単語対候補作成部16は、処理対象対応情報および部分集合から、言語A,Bで共通する単語集合の対である単語集合対を求める。すなわち、類義関係単語対候補作成部16は、処理対象対応情報および部分集合の各要素において、言語Aの単語集合{a}および単語集合{a}の全ての和集合である言語Aの単語集合と、言語Bの単語集合{b}および単語集合{b}の和集合である言語Bの単語集合の対として構成される単語集合対を求め、類義関係単語集合対集合に追加する。そして、類義関係単語対候補作成部16は、類義関係単語集合対集合から、ステップS112で計算した部分集合の全要素を削除する(ステップS113)。
【0104】
類義関係単語対候補作成部16は、処理対象対応情報(a−b)が単語対応情報の末尾の単語対であるか否かを判定する(ステップS114)。処理対象対応情報(a−b)が末尾でない場合(ステップS114でNo)、類義関係単語対候補作成部16は、ステップS115の処理に進む。一方、処理対象対応情報(a−b)が末尾である場合(ステップS114でYes)、類義関係単語対候補作成部16は、ステップS116の処理に進む。
【0105】
類義関係単語対候補作成部16は、対訳コーパス保持部11に保持された単語対応情報において、次の単語対を処理対象対応情報(a−b)として設定する。例えば、処理対象対応情報(a−b)が単語対応情報で先頭の単語対であった場合、類義関係単語対候補作成部16は、単語対応情報で2番目の単語対を処理対象対応情報(a−b)として設定する。その後、類義関係単語対候補作成部16は、ステップS112の処理に戻る(ステップS115)。
【0106】
類義関係単語対候補作成部16は、類義関係単語集合対集合で任意の1単語集合対を処理対象単語集合対として設定する。例えば、類義関係単語対候補作成部16は、類義関係単語集合対集合の先頭の単語集合対から順に、処理対象単語集合対を設定する。そして、類義関係単語対候補作成部16は、この類義関係単語集合対集合から、設定した処理対象単語集合対を削除する(ステップS116)。
【0107】
類義関係単語対候補作成部16は、言語A,Bのそれぞれについて、処理対象単語集合において、全ての単語同士の組み合わせることで、類義関係単語対候補を求める。すなわち、類義関係単語対候補作成部16は、処理対象単語集合対において、言語Aの全ての単語同士を組み合わせて類義関係単語対候補を求める。そして、類義関係単語対候補作成部16は、求めた類義関係単語対候補を類義関係単語対候補一覧に追加する。また、類義関係単語対候補作成部16は、言語Aと同様、言語Bの類義関係単語対候補を求め、類義関係単語対候補一覧に追加する(ステップS117)。
【0108】
類義関係単語対候補作成部16は、類義関係単語集合対集合が空集合であるか否かを判定する(ステップS118)。類義関係単語集合対集合が空集合である場合(ステップS118でYes)、類義関係単語対候補作成部16は、処理を終了する。一方、類義関係単語集合対集合が空集合でない場合(ステップS118でNo)、類義関係単語対候補作成部16は、ステップS116の処理に戻る。
【0109】
<類義関係単語対候補作成処理:S110〜S115の補足説明>
以下、図7,図8を参照し、図6のステップS110〜S115の処理について、具体例をあげて補足説明する。図7(a)に示すように、単語対応情報は、(a−b),(a−b),(a−b),(a−b),(a−b)という5個の単語対が格納されているとする。
【0110】
類義関係単語対候補作成部16は、ステップS110の処理において、類義関係単語集合対集合を空集合に初期化する。なお、図7および図8において、“φ”は空集合であることを示す。
【0111】
図7(b)に示すように、類義関係単語対候補作成部16は、ステップS111の処理において、単語対応情報で先頭の単語対(a−b)を処理対象対応情報として設定する。
類義関係単語対候補作成部16は、ステップS112の処理において、類義関係単語集合対集合が空集合であるため、部分集合1を空集合として求める。
【0112】
空集合である部分集合1には、言語A,Bの単語集合が含まれない。また、処理対象対応情報(a−b)には、言語Aの単語集合{a}と、言語Bの単語集合{b}とが含まれる。従って、単語集合対1は、処理対象対応情報の単語集合{a}と、処理対象対応情報の単語集合{b}との対になる。
つまり、類義関係単語対候補作成部16は、ステップS113の処理において、{a}−{b}という単語集合対1を求め、類義関係単語集合対集合に追加する。
【0113】
類義関係単語対候補作成部16は、ステップS114の処理において、処理対象対応情報(a−b)が単語対応情報の末尾でないと判定するため、ステップS115の処理に進む(不図示)。
【0114】
図7(c)に示すように、類義関係単語対候補作成部16は、ステップS115の処理において、単語対応情報で2番目の単語対(a−b)を処理対象対応情報として設定する。
【0115】
類義関係単語対候補作成部16は、処理対象対応情報が(a−b)であるため、類義関係単語集合対集合全体において、言語A側に単語集合{a}を有するか、または、言語B側に単語集合{b}を有する単語集合対を部分集合2として求める。ここで、図7(b)の単語集合対1が言語A側に単語集合{a}を含むため、部分集合2は、単語集合対1と同じものとなる。
つまり、類義関係単語対候補作成部16は、ステップS112の処理において、{a}−{b}という部分集合2を求める。
【0116】
部分集合2には、言語Aの単語集合{a}と、言語Bの単語集合{b}とが含まれる。また、処理対象対応情報(a−b)は、言語Aの単語集合{a}と、言語Bの単語集合{b}とが含まれる。従って、単語集合対2は、部分集合2の単語集合{a}および処理対象対応情報の単語集合{a}の和集合と、部分集合2の単語集合{b}および処理対象対応情報の単語集合{b}の和集合との対になる。
【0117】
つまり、類義関係単語対候補作成部16は、ステップS113の処理において、{a}∪{a}−{b}∪{b}、すなわち、{a}−{b,b}という単語集合対2を求め、類義関係単語集合対集合に追加する。そして、類義関係単語対候補作成部16は、類義関係単語集合対集合から部分集合2を削除する。
【0118】
類義関係単語対候補作成部16は、ステップS114の処理において、処理対象対応情報(a−b)が単語対応情報の末尾でないと判定するため、ステップS115の処理に進む(不図示)。
【0119】
図8(a)に示すように、類義関係単語対候補作成部16は、ステップS115の処理において、単語対応情報で3番目の単語対(a−b)を処理対象対応情報として設定する。
【0120】
類義関係単語対候補作成部16は、処理対象対応情報が(a−b)であるため、類義関係単語集合対集合全体において、言語A側に単語集合{a}を有するか、または、言語B側に単語集合{b}を有する単語集合対を部分集合3として求める。ここで、単語集合対2が言語A側に単語集合{a}を含まず、言語B側に単語集合{b}を含まないため、部分集合3は、空集合になる。
つまり、類義関係単語対候補作成部16は、ステップS112の処理において、部分集合3を空集合として求める。
【0121】
空集合である部分集合3には、言語A,Bの単語集合が含まれない。また、処理対象対応情報(a−b)には、言語Aの単語集合{a}と、言語Bの単語集合{b}とが含まれる。従って、単語集合対3は、処理対象対応情報の単語集合{a}と、処理対象対応情報の単語集合{b}との対になる。
つまり、類義関係単語対候補作成部16は、ステップS113の処理において、{a}−{b}という単語集合対3を求め、類義関係単語集合対集合に追加する。
【0122】
類義関係単語対候補作成部16は、ステップS114の処理において、処理対象対応情報(a−b)が単語対応情報の末尾でないと判定するため、ステップS115の処理に進む(不図示)。
【0123】
図8(b)に示すように、類義関係単語対候補作成部16は、ステップS115の処理において、単語対応情報で4番目の単語対(a−b)を処理対象対応情報として設定する。
【0124】
類義関係単語対候補作成部16は、処理対象対応情報が(a−b)であるため、類義関係単語集合対集合全体において、言語A側に単語集合{a}を有するか、または、言語B側に単語集合{b}を有する単語集合対を部分集合4として求める。ここで、単語集合対2,3の何れも、言語A側に単語集合{a}を含まず、言語B側に単語集合{b}を含まないため、部分集合4は、空集合になる。
つまり、類義関係単語対候補作成部16は、ステップS112の処理において、部分集合4を空集合として求める。
【0125】
空集合である部分集合4には、言語A,Bの単語集合が含まれない。また、処理対象対応情報(a−b)には、言語Aの単語集合{a}と、言語Bの単語集合{b}とが含まれる。従って、単語集合対4は、処理対象対応情報の単語集合{a}と、処理対象対応情報の単語集合{b}との対になる。
つまり、類義関係単語対候補作成部16は、ステップS113の処理において、{a}−{b}という単語集合対4を求め、類義関係単語集合対集合に追加する。
【0126】
類義関係単語対候補作成部16は、ステップS114の処理において、処理対象対応情報(a−b)が単語対応情報の末尾でないと判定するため、ステップS115の処理に進む(不図示)。
【0127】
図8(c)に示すように、類義関係単語対候補作成部16は、ステップS115の処理において、単語対応情報で末尾(5番目)の単語対(a−b)を処理対象対応情報として設定する。
【0128】
類義関係単語対候補作成部16は、処理対象対応情報がa−bであるため、類義関係単語集合対集合全体において、言語A側に単語集合{a}を有するか、または、言語B側に単語集合{b}を有する単語集合対を部分集合5として求める。ここで、図8(b)の単語集合対2が言語B側に単語集合{b}を含み、図8(b)の単語集合対4が言語A側に単語集合{a}を含むため、部分集合5は、単語集合対2,4と同じものとなる。
つまり、類義関係単語対候補作成部16は、ステップS112の処理において、{a}−{b,b}および{a}−{b}という部分集合5を求める。
【0129】
部分集合5には、言語Aの単語集合{a},{a}と、言語Bの単語集合{b,b},{b}とが含まれる。また、処理対象対応情報(a−b)には、言語Aの単語集合{a}と、言語Bの単語集合{b}とが含まれる。従って、単語集合対5は、部分集合5の単語集合{a},{a}および処理対象対応情報の単語集合{a}の和集合と、部分集合5の単語集合{b,b},{b}および処理対象対応情報の単語集合{b}の和集合との対になる。
【0130】
つまり、類義関係単語対候補作成部16は、ステップS113の処理において、{a}∪{a}∪{a}−{b,b}∪{b}∪{b}、すなわち、{a,a}−{b,b,b}という単語集合対5を求め、類義関係単語集合対集合に追加する。そして、類義関係単語対候補作成部16は、類義関係単語集合対集合から部分集合5を削除する。
【0131】
類義関係単語対候補作成部16は、ステップS114の処理において、処理対象対応情報(a−b)が単語対応情報の末尾であると判定するため、ステップS116の処理に進む(不図示)。
【0132】
以上をまとめると、図7(a)の単語対応情報では、単語対(a−b),(a−b)の間では単語aが共通する。そして、単語対応情報では、単語対(a−b)に含まれる単語bが、単語対(a−b),(a−b)の間で共通する。さらに、単語対応情報では、単語対(a−b)に含まれる単語aが、単語対(a−b),(a−b)の間で共通する。このように、類義関係単語対候補作成部16は、単語対応情報の単語対(a−b),(a−b),(a−b),(a−b)の間で、単語a,a,bが共通することを利用して、単語集合対3,5を含む類義関係単語集合対集合を作成する。
【0133】
<類義関係単語対候補作成処理:S116〜S118の補足説明>
以下、図9を参照し、図6のステップS116〜S118の処理を補足説明する。ここでは、図9(a)に示すように、類義関係単語集合対集合が、単語集合対3,5を含むこととする。
【0134】
類義関係単語対候補作成部16は、ステップS116の処理において、単語集合対3を処理対象単語集合対として設定する。また、類義関係単語対候補作成部16は、この類義関係単語集合対集合から、設定した処理対象単語集合対(単語集合対3)を削除する。
【0135】
ここで、処理対象単語集合対(単語集合対3)において、単語集合{a}および単語集合{b}には、それぞれ1単語しか含まれない。つまり、この処理対象単語集合対において、言語Aの単語a同士、および、言語Bの単語b同士を組み合わせることができない。従って、類義関係単語対候補作成部16は、ステップS117の処理において、この処理対象単語集合対から類義関係単語対候補を求めることができず、類義関係単語対候補一覧への追加を行わない(不図示)。
【0136】
類義関係単語対候補作成部16は、ステップS118の処理において、類義関係単語集合対集合に単語集合対5が残っており、類義関係単語集合対集合が空集合でないと判定するため、ステップS116の処理に戻る(不図示)。
【0137】
図9(b)に示すように、ステップS116の処理において、単語集合対5を処理対象単語集合対として設定する。また、類義関係単語対候補作成部16は、この類義関係単語集合対集合から、設定した処理対象単語集合対(単語集合対5)を削除する。
【0138】
図9(c)に示すように、類義関係単語対候補作成部16は、処理対象単語集合対において、言語Aの単語集合{a,a}に含まれる単語a,aを組み合わせることで、類義関係単語対候補(a−a)を求め、言語Aの類義関係単語対候補一覧に追加する。また、類義関係単語対候補作成部16は、処理対象単語集合対において、言語Bの単語集合{b,b,b}に含まれる単語b,b,bをそれぞれ組み合わせることで、類義関係単語対候補(b−b),(b−b),(b−b)を求め、言語Bの類義関係単語対候補一覧に追加する(ステップS117)。
【0139】
類義関係単語対候補作成部16は、ステップS118の処理において、類義関係単語集合対集合に単語集合対が残っておらず、類義関係単語集合対集合が空集合であると判定するため、処理を終了する(不図示)。
【0140】
<類義非類義関係単語対判別処理>
以下、図10を参照し、図4のステップS12の処理(類義非類義関係単語対判別処理)について詳細に説明する。
類義非類義関係単語対判別部17は、文脈ベクタ保持部12に保持された言語Aの文脈ベクタ一覧において、先頭の文脈ベクタに対応する対訳付き単語を処理対象単語1として設定する(ステップS120)。
【0141】
類義非類義関係単語対判別部17は、文脈ベクタ保持部12に保持された言語Aの文脈ベクタ一覧において、処理対象単語1の次の文脈ベクタに対応する対訳付き単語を処理対象単語2として設定する(ステップS121)。
【0142】
類義非類義関係単語対判別部17は、処理対象単語1および処理対象単語2において、互いの基部が同一であるか否かを判定する(ステップS122)。互いの基部が同一でない場合(ステップS122でNo)、類義非類義関係単語対判別部17は、ステップS123の処理に進む。一方、互いの基部が同一である場合(ステップS122でYes)、類義非類義関係単語対判別部17は、ステップS124の処理に進む。
【0143】
類義非類義関係単語対判別部17は、処理対象単語1および処理対象単語2における互いの基部(基部の対)が、類義関係単語対候補保持部13に保持された言語Aの類義関係単語対候補一覧に類義関係単語対候補として含まれないか否かを判定する(ステップS123)。互いの基部が言語Aの類義関係単語対候補一覧に含まれる場合(ステップS123でNo)、類義非類義関係単語対判別部17は、ステップS124の処理に進む。一方、互いの基部が言語Aの類義関係単語対候補一覧に含まれない場合(ステップS123でYes)、類義非類義関係単語対判別部17は、ステップS126の処理に進む。
【0144】
類義非類義関係単語対判別部17は、処理対象単語1を表す文脈ベクタと、処理対象単語2を表す文脈ベクタとの類義性指標を計算する。そして、類義非類義関係単語対判別部17は、計算した類義性指標が予め設定した閾値未満であるか否かを判定する(ステップS124)。類義性指標が閾値未満でない場合(ステップS124でNo)、類義非類義関係単語対判別部17は、ステップS125の処理に進む。一方、類義性指標が閾値未満である場合(ステップS124でYes)、類義非類義関係単語対判別部17は、ステップS127の処理に進む。
【0145】
類義非類義関係単語対判別部17は、処理対象単語1と処理対象単語2との対である対訳付き単語の対を、類義非類義関係単語対保持部14に保持された言語Aの類義関係単語対一覧に追加する(ステップS125)。すなわち、ステップS125の処理を実行した場合、類義非類義関係単語対判別部17は、対訳付き単語の対が類義関係であると判定したと言える。
【0146】
類義非類義関係単語対判別部17は、処理対象単語1と処理対象単語2との対である対訳付き単語の対を、類義非類義関係単語対保持部14に保持された言語Aの非類義関係単語対一覧に追加する(ステップS126)。
【0147】
すなわち、ステップS126の処理を実行した場合、類義非類義関係単語対判別部17は、対訳付き単語の対が非類義関係であると判定したと言える。一方、ステップS125およびステップS126の処理を何れも実行しない場合、類義非類義関係単語対判別部17は、対訳付き単語の対が類義関係および非類義関係の何れとも判定しなかったと言える。
【0148】
類義非類義関係単語対判別部17は、処理対象単語2が、文脈ベクタ一覧で末尾の文脈ベクタに対応する対訳付き単語であるか否かを判定する(ステップS127)。処理対象単語2が末尾でない場合(ステップS127でNo)類義非類義関係単語対判別部17は、ステップS128の処理に進む。一方、処理対象単語2が末尾である場合(ステップS127でYes)類義非類義関係単語対判別部17は、ステップS129の処理に進む。
【0149】
類義非類義関係単語対判別部17は、処理対象単語2を、次の文脈ベクタに対応する対訳付き単語に設定し、ステップS122の処理に戻る。例えば、処理対象単語2が2番目の文脈ベクタに対応する対訳付き単語である場合、類義非類義関係単語対判別部17は、3番目の文脈ベクタに対応する対訳付き単語を処理対象単語2として設定する(ステップS128)。
【0150】
類義非類義関係単語対判別部17は、処理対象単語1が、文脈ベクタ一覧で末尾から2番目の文脈ベクタに対応する対訳付き単語であるか否かを判定する(ステップS129)。処理対象単語1が末尾から2番目でない場合(ステップS129でNo)類義非類義関係単語対判別部17は、ステップS130の処理に進む。一方、処理対象単語2が末尾から2番目である場合(ステップS129でYes)類義非類義関係単語対判別部17は、処理を終了する。
【0151】
類義非類義関係単語対判別部17は、処理対象単語1を、次の文脈ベクタに対応する対訳付き単語に設定し、ステップS121の処理に戻る。例えば、処理対象単語1が先頭の文脈ベクタに対応する対訳付き単語である場合、類義非類義関係単語対判別部17は、2番目の文脈ベクタに対応する対訳付き単語を処理対象単語1として設定する(ステップS130)。
【0152】
なお、類義非類義関係単語対判別部17は、言語Aの類義非類義関係単語対判別処理を実行した後、言語Bの類義非類義関係単語対判別処理を言語Aと同様に実行する。
【0153】
<類義非類義関係単語対判別処理:補足説明1>
以下、図11を参照し、図10の類義非類義関係単語対判別処理について、3つの具体例をあげて補足説明する。ここで、図11(a)に示すように、言語Aの文脈ベクタ一覧には、v(ab1),v(ab2),v(ab3),v(ab3)という4個の文脈ベクタが含まれているとする。また、図11(b)に示すように、言語Aの類義関係単語対候補一覧には、単語対(a−a)が類義関係単語対候補として含まれているとする。
【0154】
第1例として、ステップS120の処理において、処理対象単語1がab1に設定され、ステップS121の処理において、処理対象単語2がab2に設定されたケースを説明する。
【0155】
類義非類義関係単語対判別部17は、ステップS122の処理において、処理対象単語1の基部(a)と、処理対象単語2の基部(a)とが互いに同一であると判定するため、ステップS124の処理に進む。
【0156】
類義非類義関係単語対判別部17は、ステップS124の処理において、処理対象単語1を表す文脈ベクタv(ab1)と、処理対象単語2を表す文脈ベクタv(ab2)との類義性指標を計算する。
【0157】
計算した類義性指標が閾値未満でない場合、類義非類義関係単語対判別部17は、ステップS125の処理に進む。この場合、類義関係にあると言えるので、類義非類義関係単語対判別部17は、処理対象単語1,2の対(ab1−ab2)を類義関係単語対一覧に追加する。
【0158】
一方、計算した類義性指標が閾値未満である場合、類義非類義関係単語対判別部17は、ステップS127の処理に進む。この場合、類義関係および非類義関係の何れとも判定しないと言えるので、類義非類義関係単語対判別部17は、処理対象単語1,2の対(ab1−ab2)を類義関係単語対一覧および非類義関係単語対一覧の何れにも追加しない。
【0159】
<類義非類義関係単語対判別処理:補足説明2>
第2例として、ステップS120の処理において、処理対象単語1がab1に設定され、ステップS121の処理において、処理対象単語2がab3に設定されたケースを説明する。
【0160】
類義非類義関係単語対判別部17は、ステップS122の処理において、処理対象単語1の基部(a)と、処理対象単語2の基部(a)とが互いに同一でないと判定するため、ステップS123の処理に進む。
【0161】
類義非類義関係単語対判別部17は、ステップS123の処理において、処理対象単語1,2の基部の対(a−a)が、類義関係単語対候補一覧に類義関係単語対候補として含まれないと判定するため、ステップS126の処理に進む。
【0162】
この場合、非類義関係にあると言えるので、類義非類義関係単語対判別部17は、ステップS126の処理において、処理対象単語1,2の対(ab1−ab3)を非類義関係単語対一覧に追加する。
【0163】
<類義非類義関係単語対判別処理:補足説明3>
第3例として、ステップS120の処理において、処理対象単語1がab3に設定され、ステップS121の処理において、処理対象単語2がab3に設定されたケースを説明する。
【0164】
類義非類義関係単語対判別部17は、ステップS122の処理において、処理対象単語1の基部(a)と、処理対象単語2の基部(a)とが互いに同一でないと判定するため、ステップS123の処理に進む。
【0165】
類義非類義関係単語対判別部17は、ステップS123の処理において、処理対象単語1,2の基部の対(a−a)が、類義関係単語対候補一覧に類義関係単語対候補として含まれると判定するため、ステップS124の処理に進む。
【0166】
類義非類義関係単語対判別部17は、ステップS124の処理において、処理対象単語1を表す文脈ベクタv(ab3)と、処理対象単語2を表す文脈ベクタv(ab3)との類義性指標を計算する。
【0167】
計算した類義性指標が閾値未満でない場合、類義非類義関係単語対判別部17は、ステップS125の処理に進む。この場合、類義関係にあると言えるので、類義非類義関係単語対判別部17は、処理対象単語1,2の対(ab3−ab3)を類義関係単語対一覧に追加する。
【0168】
一方、計算した類義性指標が閾値未満である場合、類義非類義関係単語対判別部17は、ステップS127の処理に進む。この場合、類義関係および非類義関係の何れとも判定しないと言えるので、類義非類義関係単語対判別部17は、処理対象単語1,2の対(ab3−ab3)を類義関係単語対一覧および非類義関係単語対一覧の何れにも追加しない。
【0169】
[パラメタ学習装置の動作]
以下、図12を参照し、パラメタ学習装置3の動作(パラメタ学習処理)について説明する(適宜図1参照)。なお、図12の各処理は、図3のステップS2の処理に相当する。
【0170】
パラメタ学習装置3は、類義非類義関係単語対設定部36によって、言語A,Bのそれぞれについて、類義非類義関係単語対保持部14が保持する類義関係単語対一覧および非類義関係単語対一覧を類義非類義関係単語対保持部34にコピー(設定)する(ステップS20)。
【0171】
パラメタ学習装置3は、言語間文脈整合ベクタ作成部37によって、文脈ベクタ作成部15と同様、文脈ベクタ一覧を作成する(ステップS21)。また、パラメタ学習装置3は、言語間文脈整合ベクタ作成部37によって、語間文脈整合ベクタ一覧を作成する(語間文脈整合ベクタ一覧作成処理、ステップS22)。なお、ステップS21の処理は、図4のステップS10と同様のため、説明を省略する。
【0172】
パラメタ学習装置3は、パラメタ学習部38によって、類義非類義関係単語対保持部34が保持する類義関係単語対一覧および非類義関係単語対一覧と、言語間文脈整合ベクタ一覧が保持する言語間文脈整合ベクタ一覧とを用いて、パラメタをパラメタ関数によって学習する(ステップS23)。
【0173】
<語間文脈整合ベクタ一覧作成処理>
以下、図13を参照し、図12のステップS22の処理(語間文脈整合ベクタ一覧作成処理)について詳細に説明する。
言語間文脈整合ベクタ作成部37は、対訳コーパス保持部11に保持された単語対応情報において、先頭の単語対(a−b)を処理対象対応情報として設定する(ステップS220)。
【0174】
言語間文脈整合ベクタ作成部37は、処理対象対応情報が表す言語Aの単語aについて、対訳コーパス中で前後文脈を予め設定された手法(例えば、単語の出現傾向)で検査する。これによって、言語間文脈整合ベクタ作成部37は、単語aの文脈素性集合を決定して、この文脈素性集合を示す言語A側の文脈ベクタを作成する。
【0175】
また、言語間文脈整合ベクタ作成部37は、言語Aと同様、処理対象対応情報が表す言語Bの単語bについても、言語B側の文脈ベクタを作成する。そして、言語間文脈整合ベクタ作成部37は、作成した言語A側の文脈ベクタと、作成した言語B側の文脈ベクタとの対を言語間文脈整合ベクタとして、言語間文脈整合ベクタ一覧に追加する(ステップS221)。
【0176】
言語間文脈整合ベクタ作成部37は、処理対象対応情報が単語対応情報の末尾であるか否かを判定する(ステップS222)。処理対象対応情報が末尾でない場合(ステップS222でNo)、言語間文脈整合ベクタ作成部37は、ステップS223の処理に進む。一方、処理対象対応情報が末尾である場合(ステップS222でYes)、言語間文脈整合ベクタ作成部37は、処理を終了する。
【0177】
言語間文脈整合ベクタ作成部37は、次の処理対象対応情報を設定する。例えば、処理対象対応情報が先頭の単語対であった場合、言語間文脈整合ベクタ作成部37は、単語対応情報で2番目の単語対を処理対象対応情報として設定する。その後、言語間文脈整合ベクタ作成部37は、ステップS221の処理に戻る(ステップS223)。
【0178】
[類義性尺度計算装置の動作]
以下、図14を参照し、類義性尺度計算装置5の動作(類義性尺度計算処理)について説明する(適宜図1参照)。なお、図14の各処理は、図3のステップS3の処理に相当する。
【0179】
類義性尺度計算装置5は、パラメタ設定部55によって、言語A,Bのそれぞれについて、パラメタ保持部35が保持するパラメタをパラメタ保持部51にコピー(設定)する(ステップS30)。
【0180】
類義性尺度計算装置5は、文脈ベクタ設定部56によって、言語A,Bのそれぞれについて、言語間文脈整合ベクタ保持部32が保持する文脈ベクタ一覧を文脈ベクタ保持部52にコピー(設定)する(ステップS31)。
【0181】
類義性尺度計算装置5は、類義性尺度計算部57によって、パラメタ保持部51が保持するパラメタV,Vと、文脈ベクタ保持部52が保持する文脈ベクタと、類義性尺度計算手順保持部53が保持する類義性尺度の計算手順とを用いて、類義性尺度s,sを計算する(ステップS32)。
【0182】
以上のように、本発明の第1実施形態に係る類義性尺度学習装置100によれば、正解データ作成装置1が、対訳コーパスから、正確性が高い正解データを自動的に作成する。次に、パラメタ学習装置3は、この正解データを用いて、言語間の文脈の対応関係を保ちながらパラメタを学習する。このため、類義性尺度学習装置100によれば、正解データの作成コストを低減することができ、パラメタの正確性を高くすることができる。さらに、類義性尺度計算装置5が、パラメタ学習装置3が学習したパラメタを用いて、言語A,Bのそれぞれについて、類義性尺度を正確に計算することができる。
【0183】
なお、第1実施形態では、図1の類義性尺度学習装置100が3台の装置で構成される例を説明したが、本発明は、これに限定されない。例えば、正解データ作成装置1およびパラメタ学習装置3を1台の装置で構成して、類義性尺度用パラメタ学習装置2としてもよい。また、例えば、正解データ作成装置1と、パラメタ学習装置3と、類義性尺度計算装置5とを1台の装置で構成して、類義性尺度学習装置100としてもよい。
【0184】
なお、類義性尺度用パラメタ学習装置2は、一般的なコンピュータのハードウェア資源を、前記した各手段として協調動作させる類義性尺度用パラメタ学習プログラムによって実現することもできる。この類義性尺度用パラメタ学習プログラムは、通信回線を介して配布してもよく、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
【0185】
なお、類義非類義関係単語対判別部17は、前記したように、ジャッカード係数を用いて類義性指標を計算できる。具体的には、2個の文脈ベクタv(a),v(a)が与えられたとき、類義非類義関係単語対判別部17は、下記の式(5)を用いて、類義性指標を計算することができる。なお、式(5)では、minは最小値を返す関数であり、maxが最大値を返す関数である。
【0186】
【数5】

【0187】
さらに、類義非類義関係単語対判別部17は、重み付けジャッカード係数を用いて類義性指標を計算することもできる。このとき、各文脈ベクタは、その長さを1に正規化しておく必要がある
【0188】
なお、類義非類義関係単語対判別処理の正確性を高めるため、対訳付き単語を表す文脈ベクタが、対訳コーパス中にできるだけ多く出現することが好ましい。このため、文脈ベクタ作成部15は、対訳コーパス中に単語対(a−b)の対応関係が予め設定された回数以上現れた場合のみ、言語A,Bの文脈ベクタv(a),v(b)を求めてもよい。
【0189】
(第2実施形態)
[勾配法パラメタ学習装置の概略]
以下、図15を参照し、本実施形態の第2実施形態を説明する。第2実施形態では、勾配法を用いたパラメタ学習部38を「勾配法パラメタ学習装置」として説明する。この勾配法パラメタ学習装置38は、1台のコンピュータで構成されており、後記する各保持部と、パラメタ更新処理部300と、複数の計算ノード部500とを備える。
【0190】
パラメタ更新処理部300は、後記する計算ノード部500による反復計算の結果に基づいて、パラメタを更新(学習)する。
【0191】
計算ノード部500は、それぞれが、勾配の反復計算を並列に行う。ここで、計算ノード部500は、勾配の反復計算を行う処理単位となるものであり、例えば、CPUコアのそれぞれ、または、勾配の反復計算を行うプログラムによって生成されるプロセスのそれぞれである。
【0192】
以下、勾配法パラメタ学習装置38によるパラメタ学習の概略を説明する。ここで、前記したように、評価関数が2関数の線形結合で表されることとする。従って、事例集合が、線形結合した関数と同数、つまり、事例集合X,Xという2個存在することになる。また、iは反復計算の回数を意味するカウンタである。
【0193】
手順1:パラメタ更新処理部300は、全ての計算ノード部500に事例集合X,Xの何れか1個を割り当てる。ここで、事例集合Xに割り当てられた計算ノード部500を「計算ノード部500X1」とし、事例集合Xに割り当てられた計算ノード部500を「計算ノード部500X2」)とする。
【0194】
手順2:パラメタ更新処理部300は、全ての計算ノード部500が参照可能なパラメタθを用意し、パラメタθの初期値θ(0)を適当に決定する(例えば、乱数を初期値θ(0)として決定する)。
【0195】
手順3:i回目の反復計算の結果であるパラメタθをθ(i)とするとき、計算ノード部500は、以下の手順(a)および手順(b)で表される反復計算を行う。ここでは、計算ノード部500X1の反復計算について説明するが、計算ノード部500X2も同様の反復計算を行う。
手順(a):計算ノード部500X1は、事例集合Xから確率的に選択された事例xを入力する(例えば、事例集合Xからランダムに選択された事例xを入力する)。
手順(b):計算ノード部500X1は、勾配∂f(x;θ(i))/∂θ(i)を計算する。
【0196】
手順4:パラメタ更新処理部300は、計算ノード部500X1,500X2による反復計算の結果を、下記の式(6)を用いて集計することで、i+1回目の反復計算の結果である新しいパラメタθ(i+1)を更新(学習)する。
【0197】
【数6】

【0198】
なお、式(6)において、X(i)は、計算ノード部500X1が反復計算時間内に処理した事例集合Xの部分集合を示す。また、X(i)は、計算ノード部500X2が反復計算時間内に処理した事例集合Xの部分集合を示す。
【0199】
手順5:パラメタ更新処理部300は、iをインクリメント(i←i+1)した後、前記した手順2に戻る。そして、パラメタ更新処理部300は、この手順2〜手順5の処理を予め設定された終了条件を満たすまで繰り返し、パラメタの学習を行う。
【0200】
[勾配法パラメタ学習装置の構成]
以下、勾配法パラメタ学習装置38の構成について説明する。勾配法パラメタ学習装置38を、言語A,Bの単語間の類義性尺度を算出するためのパラメタを学習する装置として説明する。この場合、例えば、事例集合Xは、言語Aで記述された文章に含まれる単語が事例xとして集合したものとなる。また、例えば、事例集合Xは、言語Bで記述された文書に含まれる単語が事例xとして集合したものとなる。
【0201】
勾配法パラメタ学習装置38は、関数保持部110と、パラメタ保持部120と、事例集合保持部130と、勾配計算結果保持部140と、設定値保持部150と、パラメタ更新処理部300と、複数の計算ノード部500とを備える。
【0202】
<保持部>
関数保持部110は、パラメタθの学習に必要な計算手順を保持するメモリ、ハードディスクなどの記憶手段である。具体的には、関数保持部110は、学習対象の評価関数を構成する線形結合した関数f(x;θ(i))において、勾配∂f(x;θ(i))/∂θ(i)を計算手順として予め保持する。また、関数保持部110は、関数f(x;θ(i))の勾配∂f(x;θ(i))/∂θ(i)を計算手順として予め保持する。そして、関数保持部110は、関数f,fの線形結合重みw´,w´を予め保持する。
【0203】
なお、事例集合Xに含まれる事例をxとし、事例集合Xにおける1番目の事例をx11とし、事例集合Xにおける2番目の事例をx12とする。
また、事例集合Xに含まれる事例をxとし、事例集合Xにおける1番目の事例をx21とし、事例集合Xにおける2番目の事例をx22とする。
【0204】
パラメタ保持部120は、パラメタθ(i)を保持するメモリ、ハードディスクなどの記憶手段である。
事例集合保持部130は、事例集合X={x11,x12,・・・},X={x21,x22,・・・}を予め保持するメモリ、ハードディスクなどの記憶手段である。また、事例集合保持部130は、計算ノード部500からの事例要求に応じて、この事例要求で指定された事例集合X,Xに含まれる事例を確率的(例えば、ランダム)に1個選択して計算ノード部500に出力する機能を備える。
【0205】
勾配計算結果保持部140は、全ての計算ノード部500による反復計算の結果を保持するメモリ、ハードディスクなどの記憶手段である。具体的には、勾配計算結果保持部140は、事例集合X,Xごとに、後記する勾配累計値S,Sと、後記する勾配累積数c,cとを保持する。
【0206】
設定値保持部150は、全ての計算ノード部500において、反復計算に必要な設定値を保持するメモリ、ハードディスクなどの記憶手段である。具体的には、設定値保持部150は、事例集合X,Xごとに、後記する計算ノード部500の割当数(個数)n,nを保持する。また、設定値保持部150は、後記する計算ノード部500の割当情報を設定値として保持する。また、設定値保持部150は、事例集合X,Xごとに、事例x,xの1個あたりの処理時間t,tを予め保持する。この処理時間t,tは、学習実験を繰り返し行い、反復計算の待ち時間が少なくなる値を手動で計算しておく。そして、設定値保持部150は、一回の反復計算を行う時間を示す反復計算時間を予め保持する。さらに、設定値保持部150は、確率勾配法の計算に必要な更新重みλを予め保持する。
【0207】
<パラメタ更新処理部>
パラメタ更新処理部300は、パラメタ初期化手段310と、計算ノード部設定手段320と、勾配計算結果初期化手段330と、反復計算開始指示手段340と、反復計算終了指示手段350と、パラメタ更新手段360と、終了判定手段370とを備える。
【0208】
パラメタ初期化手段310は、パラメタθの初期値θ(0)を適当に決定して、この初期値θ(0)をパラメタ保持部120に保持する。ここで、パラメタ初期化手段310は、例えば、乱数を発生させて、この乱数を初期値θ(0)として決定する。
【0209】
計算ノード部設定手段320は、事例集合X,Xごとの事例数の比と、事例集合X,Xごとに予め設定された事例の1個あたりの処理時間t,tとに基づいて、事例集合X,Xごとに反復計算を行う計算ノード部500の割当数(個数)n,nを算出する。ここで、計算ノード部設定手段320は、計算ノード部500の割当数n,nを処理時間t,tで除算した値の比と、事例数の比とからなる等式を解いて、割当数n,nを算出する。そして、計算ノード部設定手段320は、算出した計算ノード部の個数n,nに応じて、計算ノード部500のそれぞれに事例集合X,Xを1個割り当てた後、各計算ノード部500に割り当てた事例集合X,Xを示す割当情報を生成する。その後、計算ノード部設定手段320は、算出した割当数n,nと、生成した割当情報とを設定値保持部150に保持すると共に、この割当情報を全ての計算ノード部500に出力する。なお、計算ノード部設定手段320による割り当ての具体例は、後記する。
【0210】
勾配計算結果初期化手段330は、勾配計算結果保持部140に保持された勾配累計値S,Sと、勾配累積数c,cとをそれぞれ「0」に初期化する。
【0211】
反復計算開始指示手段340は、全ての計算ノード部500に対して、反復計算の開始を指示する反復計算開始指示を出力する。具体的には、反復計算開始指示手段340は、図示を省略したタイムカウンタを「0」に初期化し、これと同時に、反復計算開始指令を全ての計算ノード部500に出力する。また、反復計算開始指示手段340は、反復計算開始指令を出力した後、タイムカウンタをカウントアップ(更新)する。
【0212】
反復計算終了指示手段350は、全ての計算ノード部500に対して、反復計算の終了を指示する反復計算終了指示を出力する。具体的には、反復計算開始指示手段340は、タイムカウンタが設定値保持部150に保持された反復計算時間を超えたとき、反復計算終了指示を全ての計算ノード部500に出力する。
【0213】
パラメタ更新手段360は、全ての計算ノード部500による反復計算の結果に基づいて、パラメタ保持部120が保持するパラメタθ(i)を更新する。具体的には、パラメタ更新手段360は、勾配計算結果保持部140が保持する勾配累計値S,Sおよび勾配累積数c,cと、関数保持部110が保持する線形結合重みw´,w´と、設定値保持部150が保持する更新重みλとを用いて、下記の式(7)に示すように、パラメタθ(i)を更新する。
【0214】
【数7】

【0215】
終了判定手段370は、予め設定された終了条件を満たすか否かを判定する。終了判定手段370によって終了条件を満たすと判定された場合、パラメタ更新処理部300は、パラメタの学習を終了する。一方、終了判定手段370によって終了条件を満たさないと判定された場合、パラメタ更新処理部300は、パラメタの学習を継続する。ここで、終了条件としては、例えば、予め設定した反復上限回数よりも反復計算の回数が多くなること、または、パラメタ保持部120に保持されたパラメタが一定時間以上更新されないことがあげられる。
【0216】
<計算ノード部>
計算ノード部500は、初期化手段510と、反復計算開始判定手段520と、パラメタ入力手段530と、事例入力手段540と、勾配計算手段550と、勾配累積手段560と、反復計算終了判定手段570とを備える。
【0217】
初期化手段510は、計算ノード部500の初期化処理として、パラメタ更新処理部300から入力された割当情報を参照して、この計算ノード部500に何れの事例集合が割り当てられたか判定して、計算手順を入力する。例えば、初期化手段510は、この計算ノード部500に事例集合Xが割り当てられた場合、関数保持部110から、割り当てられた事例集合Xに対応する勾配∂f(x;θ(i))/∂θ(i)を計算手順として入力する。また、例えば、初期化手段510は、この計算ノード部500に事例集合Xが割り当てられた場合、関数保持部110から、割り当てられた事例集合Xに対応する勾配∂f(x;θ(i))/∂θ(i)を計算手順として入力する。
【0218】
反復計算開始判定手段520は、反復計算を開始するか否かを判定する。具体的には、反復計算開始判定手段520は、パラメタ更新処理部300から反復計算開始指示が入力されたとき、反復計算を開始すると判定する。この場合、後記するパラメタ入力手段530、事例入力手段540、勾配計算手段550および勾配累積手段560が、その処理を開始する。
【0219】
一方、反復計算開始判定手段520は、パラメタ更新処理部300から反復計算開始指示が入力されない場合、反復計算を開始しないと判定する。この場合、計算ノード部500は、反復計算開始指示が入力されるまで待機する。
【0220】
パラメタ入力手段530は、パラメタ保持部120からパラメタθ(i)を入力する。
【0221】
事例入力手段540は、事例集合保持部130から、計算ノード部設定手段320によって割り当てられた事例集合に含まれる事例を入力する。具体的には、事例入力手段540は、パラメタ更新処理部300から入力された割当情報を参照して、この計算ノード部500に何れの事例集合が割り当てられたか判定する。そして、事例入力手段540は、割り当てられた事例集合が指定された事例要求を生成して、この事例要求を事例集合保持部130に出力する。
【0222】
例えば、事例入力手段540は、この計算ノード部500に事例集合Xが割り当てられた場合、事例集合Xが指定された事例要求を生成して事例集合保持部130に出力する。この場合、事例入力手段540は、事例集合保持部130から、事例集合Xから選択された事例xが1個入力される。また、例えば、事例入力手段540は、この計算ノード部500に事例集合Xが割り当てられた場合、事例集合Xが指定された事例要求を生成して事例集合保持部130に出力する。この場合、事例入力手段540は、事例集合保持部130から、事例集合Xから選択された事例xが1個入力される。
【0223】
勾配計算手段550は、事例入力手段540に入力した事例を用いて、事例の勾配を反復計算する。例えば、勾配計算手段550は、この計算ノード部500に事例集合Xが割り当てられた場合、事例入力手段540に入力された事例xと、パラメタ入力手段530に入力されたパラメタθ(i)とを用いて、初期化手段510に入力された勾配∂f(x;θ(i))/∂θ(i)を計算する。また、例えば、勾配計算手段550は、この計算ノード部500に事例集合Xが割り当てられた場合、事例入力手段540に入力された事例xと、パラメタ入力手段530に入力されたパラメタθ(i)とを用いて、初期化手段510に入力された勾配∂f(x;θ(i))/∂θ(i)を計算する。
【0224】
勾配累積手段560は、勾配計算手段550によって計算された事例の勾配を累積した勾配累計値を反復計算の結果として算出する。また、勾配累積手段560は、勾配計算結果保持部140に保持されている勾配累積数に「1」を加算する。
【0225】
例えば、勾配累積手段560は、この計算ノード部500に事例集合Xが割り当てられた場合、勾配計算手段550が計算した勾配∂f(x;θ(i))/∂θ(i)を、勾配計算結果保持部140に保持されている勾配累計値Sに加算する。このとき、勾配累積手段560は、勾配計算結果保持部140に保持されている勾配累積数cに「1」を加算する。また、例えば、勾配累積手段560は、この計算ノード部500に事例集合Xが割り当てられた場合、勾配計算手段550が計算した勾配∂f(x;θ(i))/∂θ(i)を、勾配計算結果保持部140に保持されている勾配累計値Sに加算する。このとき、勾配累積手段560は、勾配計算結果保持部140に保持されている勾配累積数cに「1」を加算する。
【0226】
反復計算終了判定手段570は、反復計算を終了するか否かを判定する。具体的には、反復計算終了判定手段570は、パラメタ更新処理部300から反復計算終了指示が入力されたとき、反復計算を終了すると判定する。この場合、計算ノード部500は、処理を終了する。
【0227】
一方、反復計算終了判定手段570は、パラメタ更新処理部300から反復計算終了指示が入力されない場合、反復計算を終了しないと判定する。この場合、事例入力手段540、勾配計算手段550および勾配累積手段560は、その処理を反復して行う。言い換えるなら、反復計算開始指示が入力されてから反復計算終了指示が入力されるまでの間、事例入力手段540、勾配計算手段550および勾配累積手段560は、その処理を反復して行うことになる。
【0228】
<計算ノード部設定手段による割り当て>
以下、計算ノード部設定手段320による割り当てについて、その具体例を説明する。ここで、事例集合Xには100個の事例xが含まれ、事例集合Xには200個の事例xが含まれるとする。また、事例xの1個あたりの処理時間tが1(秒)であり、事例xの1個あたりの処理時間tが2(秒)であるとする。さらに、勾配法パラメタ学習装置38は、10個の計算ノード部500を備えるとする。
【0229】
まず、計算ノード部設定手段320は、事例集合保持部130を参照し、事例集合Xに含まれる事例xの個数をカウントし、事例集合Xの事例数|X|を求める。また、計算ノード部設定手段320は、事例集合Xに含まれる事例xの個数をカウントし、事例集合Xの事例数|X|を求める。
【0230】
次に、計算ノード部設定手段320は、事例集合Xで反復計算を行う計算ノード部500の割当数nと、事例集合Xで反復計算を行う計算ノード部500の割当数nとを算出する。つまり、計算ノード部設定手段320は、下記の式(8)に示すように、事例数の比|X|:|X|と、処理時間t,tとに基づいて、割当数n,nを算出する。より具体的には、割当数nを処理時間tで除算した値と、割当数nを処理時間tで除算した値との比を、式(8)の左辺とする。そして、計算ノード部設定手段320は、式(8)の左辺と、事例数の比|X|:|X|である式(8)の右辺との等式を解いて、割当数n,nを求める。
【0231】
【数8】

【0232】
例えば、前記した値を式(8)に代入すると、式(9)に示すようになる。この場合、計算ノード部設定手段320は、式(9)より、n:n=4:1を求め、計算ノード部500が10個であるため、割当数n=2、および、割当数n=8をそれぞれ算出する。
【0233】
【数9】

【0234】
次に、計算ノード部設定手段320は、算出した割当数n,nに応じて、計算ノード部500のそれぞれに事例集合X,Xの一方を割り当てる。前記した例では、計算ノード部設定手段320は、10個の計算ノード部500のうち、2個の計算ノード部500を事例集合Xに割り当てると共に、8個の計算ノード部500を事例集合Xに割り当てる。ここで、計算ノード部500の演算速度が同一であると仮定するならば、計算ノード部設定手段320は、何れの計算ノード部500を事例集合Xまたは事例集合Xに割り当ててもよい。例えば、計算ノード部設定手段320は、1個目および2個目の計算ノード部500を事例集合Xに割り当てて、3個目から10個目までの計算ノード部500を事例集合Xに割り当てるというように、順番に割り当てを行うことができる。また、例えば、計算ノード部設定手段320は、2個の計算ノード部500をランダムに選択して、それら2個の計算ノード部500を事例集合Xに割り当てて、残り8個の計算ノード部500を事例集合Xに割り当てるというように、ランダムな割り当てを行うこともできる。
【0235】
次に、計算ノード部設定手段320は、例えば、1個目および2個目の計算ノード部500を事例集合Xに割り当てて、3個目から10個目までの計算ノード部500を事例集合Xに割り当てたことを示す割当情報を生成する。最後に、計算ノード部設定手段320は、割当数n,nおよび割当情報を設定値保持部150に保持すると共に、この割当情報を全ての計算ノード部500に出力する。
【符号の説明】
【0236】
1 正解データ作成装置
11 対訳コーパス保持部
12 文脈ベクタ保持部
13 類義関係単語対候補保持部
14 類義非類義関係単語対保持部
15 文脈ベクタ作成部
16 類義関係単語対候補作成部
17 類義非類義関係単語対判別部
18 入出力インタフェース
3 パラメタ学習装置
31 対訳コーパス保持部
32 言語間文脈整合ベクタ保持部
33 類義性尺度計算手順保持部
34 類義非類義関係単語対保持部
35 パラメタ保持部
36 類義非類義関係単語対設定部
37 言語間文脈整合ベクタ作成部
38 パラメタ学習部(勾配法パラメタ学習装置)
39 入出力インタフェース
5 類義性尺度計算装置
51 パラメタ保持部
52 文脈ベクタ保持部
53 類義性尺度計算手順保持部
54 類義性尺度保持部
55 パラメタ設定部
56 文脈ベクタ設定部
57 類義性尺度計算部
58 入出力インタフェース
100 類義性尺度学習装置
110 関数保持部
120 パラメタ保持部
130 事例集合保持部
140 勾配計算結果保持部
150 設定値保持部
300 パラメタ更新処理部
310 パラメタ初期化手段
320 計算ノード部設定手段
330 勾配計算結果初期化手段
340 反復計算開始指示手段
350 反復計算終了指示手段
360 パラメタ更新手段
370 終了判定手段
500 計算ノード部
510 初期化手段
520 反復計算開始判定手段
530 パラメタ入力手段
540 事例入力手段
550 勾配計算手段
560 勾配累積手段
570 反復計算終了判定手段

【特許請求の範囲】
【請求項1】
2言語間の対訳である対訳コーパスを用いて、言語ごとに、単語間の類義性を示す類犠牲尺度の算出に用いるパラメタを学習する類義性尺度用パラメタ学習装置であって、
前記対訳コーパスと、前記2言語間の単語の対訳である単語対が含まれる単語対応情報とを予め保持する対訳コーパス保持部と、
前記単語対応情報の単語対に含まれる一方の言語の単語である基部と他方の言語の単語である対訳部とを前記対訳コーパスに有する対訳付き単語について、前記対訳付き単語の文脈ベクタが格納された文脈ベクタ一覧を前記対訳コーパスの文脈素性によって作成する文脈ベクタ作成部と、
前記単語対応情報の単語対に含まれる前記2言語間の単語のうち何れか一方が共通する単語集合対を求め、前記一方の言語および前記他方の言語ごとに、当該単語集合対に含まれる単語同士を組み合わせることで、類義関係候補の単語対である類義関係単語対候補が格納された類義関係単語対候補一覧を作成する類義関係単語対候補作成部と、
前記類義関係単語対候補一覧および前記文脈ベクタ一覧を用いて、2個の前記文脈ベクタに対応する対訳付き単語の対が、類義関係となるか、非類義関係となるか、または、前記類義関係および前記非類義関係の何れにも該当しないかを予め設定した基準によって判定し、前記類義関係と判定された対訳付き単語の対が格納された類義関係単語対一覧と、前記非類義関係と判定された対訳付き単語の対が格納された非類義関係単語対一覧とを作成する類義非類義関係単語対判別部と、
前記2言語間における前記文脈ベクタの対である言語間文脈整合ベクタが格納された言語間文脈整合ベクタ一覧を作成する言語間文脈整合ベクタ作成部と、
前記類義関係単語対一覧と、前記非類義関係単語対一覧と、前記言語間文脈整合ベクタ一覧とを用いて、前記パラメタを予め定義したパラメタ関数によって学習するパラメタ学習部と、
を備えることを特徴とする類義性尺度用パラメタ学習装置。
【請求項2】
前記類義非類義関係単語対判別部は、前記2個の文脈ベクタに対応する対訳付き単語の対において、互いの前記基部が同一であるか否かを判定し、
前記互いの基部が同一の場合、前記2個の文脈ベクタの類義性指標を算出すると共に、当該類義性指標が予め設定された閾値未満であれば、前記対訳付き単語の対が前記類義関係および前記非類義関係の何れにも該当しないと判定し、当該類義性指標が前記閾値未満でなければ、前記対訳付き単語の対が前記類義関係となると判定し、
前記互いの基部が同一でない場合、前記互いの基部が前記類義関係単語対候補一覧に含まれているか否かを判定し、
前記互いの基部が前記類義関係単語対候補一覧に含まれない場合、前記前記対訳付き単語の対が前記非類義関係となると判定し、
前記互いの基部が前記類義関係単語対候補一覧に含まれる場合、前記2個の文脈ベクタの類義性指標を算出すると共に、当該類義性指標が前記閾値未満であれば、前記対訳付き単語の対が前記類義関係および前記非類義関係の何れにも該当しないと判定し、当該類義性指標が前記閾値未満でなければ、前記対訳付き単語の対が前記類義関係となると判定することを特徴とする請求項1または請求項2に記載の類義性尺度用パラメタ学習装置。
【請求項3】
前記パラメタ学習部は、
前記一方の言語における単語a,aの文脈ベクタがv(a),v(a)と表されるときに、前記単語a,aの類義性尺度s(a,a)が下記の式(1)で定義され、前記他方の言語における単語b,bの文脈ベクタがv(b),v(b)と表されるときに、前記単語b,bの類義性尺度s(b,b)が下記の式(2)で定義され、前記言語間文脈整合ベクタ(w,w)の整合度c(w,w)が下記の式(3)で定義されるときに、
下記の式(4)で定義される前記パラメタ関数を最小化する下記の式(1)のパラメタVおよび下記の式(2)のVを学習することを特徴とする請求項1から請求項3の何れか一項に記載の類義性尺度用パラメタ学習装置。
【数1】

【数2】

【数3】

【数4】

ただし、前記した各式では、Wは前記言語間文脈整合ベクタ一覧であり、Yは前記単語a,aが前記類義関係単語対一覧に含まれるときに真を返す関数、Nは前記単語a,aが前記非類義関係単語対一覧に含まれるときに真を返す関数、Yは前記単語b,bが前記類義関係単語対一覧に含まれるときに真を返す関数、Nは前記単語b,bが前記非類義関係単語対一覧に含まれるときに真を返す関数、α,β,βBは正の実数で予め設定した係数であり、mは前記一方の言語におけるマージンであり、mは前記他方の言語におけるマージンであり、minは最小値を返す関数である。
【請求項4】
2言語間の対訳である対訳コーパスを用いて、言語ごとに、単語間の類義性を示す類犠牲尺度の算出に用いるパラメタを学習するために、前記対訳コーパスと、前記2言語間の単語の対訳である単語対が含まれる単語対応情報とを予め保持する対訳コーパス保持部を備えるコンピュータを、
前記単語対応情報の単語対に含まれる一方の言語の単語である基部と他方の言語の単語である対訳部とを前記対訳コーパスに有する対訳付き単語について、前記対訳付き単語の文脈ベクタが格納された文脈ベクタ一覧を前記対訳コーパスの文脈素性によって作成する文脈ベクタ作成部、
前記単語対応情報の単語対に含まれる前記2言語間の単語のうち何れか一方が共通する単語集合対を求め、前記一方の言語および前記他方の言語ごとに、当該単語集合対に含まれる単語同士を組み合わせることで、類義関係候補の単語対である類義関係単語対候補が格納された類義関係単語対候補一覧を作成する類義関係単語対候補作成部、
前記類義関係単語対候補一覧および前記文脈ベクタ一覧を用いて、2個の前記文脈ベクタに対応する対訳付き単語の対が、類義関係となるか、非類義関係となるか、または、前記類義関係および前記非類義関係の何れにも該当しないかを予め設定される基準によって判定し、前記類義関係と判定された対訳付き単語の対が格納された類義関係単語対一覧と、前記非類義関係と判定された対訳付き単語の対が格納された非類義関係単語対一覧とを作成する類義非類義関係単語対判別部、
前記2言語間における前記文脈ベクタの対である言語間文脈整合ベクタが格納された言語間文脈整合ベクタ一覧を作成する言語間文脈整合ベクタ作成部、
前記類義関係単語対一覧と、前記非類義関係単語対一覧と、前記言語間文脈整合ベクタ一覧とを用いて、前記パラメタを予め定義したパラメタ関数によって学習するパラメタ学習部、
として機能させるための類義性尺度用パラメタ学習プログラム。
【請求項5】
請求項1に記載の類義性尺度用パラメタ学習装置と、
当該類義性尺度用パラメタ学習装置が学習したパラメタを用いて、前記類義性尺度を計算する類義性尺度計算部と、
を備えることを特徴とする類義性尺度学習装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2012−79081(P2012−79081A)
【公開日】平成24年4月19日(2012.4.19)
【国際特許分類】
【出願番号】特願2010−223467(P2010−223467)
【出願日】平成22年10月1日(2010.10.1)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】