類義性尺度用パラメタ学習装置およびそのプログラム、並びに、類義性尺度計算装置

【課題】本発明は、正解データの作成コストを低減でき、正確性が高い類義性尺度を計算可能なパラメタを学習する類義性尺度用パラメタ学習装置を提供する。
【解決手段】類義性尺度学習装置１００は、対訳コーパスを用いて、後記する類義関係単語対一覧および非類義関係単語対一覧を正解データとして作成する正解データ作成装置１と、正解データ作成装置１が作成した類義関係単語対一覧および非類義関係単語対一覧を用いて、単語間の類義性尺度を算出するためのパラメタを学習するパラメタ学習装置３と、パラメタ学習装置３が学習したパラメタを用いて、類義性尺度を計算する類義性尺度計算装置５とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、２言語間の対訳である対訳コーパスを用いて、単語間の類義性尺度を算出するためのパラメタを学習する類義性尺度用パラメタ学習装置およびそのプログラム、並びに、類義性尺度用パラメタ学習装置が学習したパラメタを用いて類義性尺度を計算する類義性尺度計算装置に関する。
【背景技術】
【０００２】
従来から、ある単語と別の単語との意味が類義（類似）しているかどうかを判断する尺度を得ることは、自然言語処理や情報検索処理などの応用分野では、重要な基礎技術である。また、この尺度として、単語が出現する周辺文脈の類義性を利用する手法が広く用いられている。この周辺文脈の類義性を利用する手法では、各単語の前後の文脈にどのような特徴が現れるかを、「文脈ベクタ」と呼ばれる特徴量で表現する。そして、この周辺文脈の類義性を利用する手法では、それら特徴量間（文脈ベクタ間）に何らかの関係を定義して、それら特徴量をこの尺度として用いている。
【０００３】
典型的には、この周辺文脈の類義性を利用する手法では、文脈の特徴として、対象単語の前後ある範囲における単語の出現傾向を用いることが多い。そして、この周辺文脈の類義性を利用する手法では、コーパスなどの文書資源を集計することによって、当該文書資源に現れる各単語の文脈ベクタを作成する。このとき、周辺文脈の類義性を利用する手法では、文脈ベクタの類似度を示す指標として、内積またはジャッカード類似度を用いることもある。
【０００４】
この周辺文脈の類義性を利用する手法以外にも、文脈の特徴に用いる言語的素性や類似度の計算方法が、提案されている。以下、図１６を参照して、各対象単語の前後文脈に出現する単語（文脈単語）を文脈の特徴として、文脈ベクタを構成する手法を説明する。この場合、各文脈ベクタは、当該文書資源に現れる単語の種類数からなる次元数を持つ。そして、典型的には、対象単語の文脈ベクタの各成分が、当該次元に対応する文脈単語が対象単語の前後文脈範囲に現れた回数を、当該文書資源に現れた全ての対象単語について加算した値として表す。図１６の例では、文書資源に現れる単語がＷ_１〜Ｗ_６の６種類であるので、文書資源中において、単語Ｗ_１の前後１単語を文脈素性とする文脈ベクタは（０，１，２，１，１，１）となる。
【０００５】
また、文脈ベクタとしては、各文脈単語が対象単語の類義性の判断に寄与する度合を何らかの方法で見積もった値で各次元の値を重みづける、文脈ベクタの大きさを正規化するなど、様々なバリエーションが提案されている。
【０００６】
ここで、あらゆる文脈素性が文書資源に全て現れるわけではないために、出現に相関のある文脈単語に関わる文脈ベクタの次元を縮退して、文脈ベクタの次元を削減することが行われている。この文脈ベクタの次元縮退は、ＬＳＩ（Latent Semantic Indexing）法と呼ばれ、Ｄ次元の文脈ベクタｖに対し、Ｎ×Ｄ(Ｎ＜Ｄ)次元の行列Ｘにより、Ｎ次元の文脈ベクタＸｖへの線形写像を一般化することで実現できる。典型的には、このような線形写像行列Ｎの作成方法には、特異値分解を利用することができる。
【０００７】
これまでに説明した手法は、単語の意味的な類似の度合が文脈素性（典型的には周辺単語の出現傾向）の共有の度合に相関していることを暗黙のうちに仮定していたが、この仮定は、必ずしも正しくない。このため、類義性に関する何らかの正解データを用意して、この正解データを用いる教師あり学習手法が、提案されている（非特許文献１参照）。
【０００８】
この非特許文献１に記載の手法では、文脈ベクタの構築に用いた文書資源以外の何らかの知識により、単語ａと単語ｂとは類義であるが、単語ｃと単語ｄとは非類義（異義）であるといった対象単語間の類義／異義関係を作成する。そして、非特許文献１に記載の手法では、類義である単語対を正解例とし、異義である単語対を不正解例とした類義性の正解データを用意する。これによって、非特許文献１に記載の手法では、類義である単語の文脈ベクタ間の類似度をある値より大きく（あるいは意味的な「距離」をある値より小さく）、異義である単語の文脈ベクタ間の類似度をある値より小さく（あるいは意味的な「距離」をある値より大きく）、という制約ができるだけ満たされる尺度を学習することができる。
【０００９】
また、類義関係にある単語対を自動的に獲得するための技術として、単語の対訳関係が付与された対訳コーパスを用いる手法が提案されている（非特許文献２，３参照）。ここで、言語Ａのある単語ａ_１が言語Ｂの単語ｂ_１，ｂ_２という複数の単語に翻訳されるならば、単語ｂ_１，ｂ_２が類義関係にある可能性が高くなると考えられる。また、単語ｂ_１，ｂ_２と、単語ｂ_１，ｂ_３が共に類義関係にある可能性が高いならば、単語ｂ_２，ｂ_３も類義関係にある可能性が高くなると考えられる。そこで、非特許文献２，３に記載の手法では、この性質を利用して、類義関係にある可能性の高い単語対を自動的に獲得する。
【００１０】
このとき、非特許文献２，３に記載の手法では、単語の多義性に由来する誤りを含む場合がある。例えば、前記した例において、単語ｂ_１，ｂ_２は、単語ａ_１が有する２つの異なる意味のそれぞれに対する翻訳であり、類義ではない可能性もある。このため、類義候補の単語対の各々について、本当に類義であると言えるかどうかを、何らかの方法で評価する必要がある。ここで、非特許文献２に記載の手法では、使用する対訳コーパスの持つ特殊な性質による判別規則を作成して、この評価に用いている。また、非特許文献３に記載の手法では、先に説明したように、周辺文脈の文脈ベクタの類義性の評価指標を用いている。
【００１１】
仮に、単語ａ_１の翻訳に、単語ｂ_１，ｂ_２があり、単語ｂ_１，ｂ_２が類義でないと評価された場合、単語ａ_１は、その翻訳が、単語ｂ_１である使われ方と、単語ｂ_２である使われ方（以後それぞれａ_１^ｂ１，ａ_１^ｂ２と表記する）では、それぞれ意味が異なる。つまり、非特許文献２，３に記載の手法は、類義語を獲得する手法であると同時に、多義語を発見し分類する手法であるといえる。
【先行技術文献】
【非特許文献】
【００１２】
【非特許文献１】Metric Learning for Synonym Acquisition. Nobuyuki Shimizu, Masato Hagiwara, Yasuhiro Ogawa, Katsuhiko Toyama and Hiroshi Nakagawa. In proceedings of COLING 2008. http://aclweb.org/anthology-new/C/C08/C08-1100.pdf.
【非特許文献２】和英著者キーワードからの多言語類語辞書自動構築の試み. 相澤彰子. 情報管理. Vol. 47, No. 6, (2004), 401-409.
【非特許文献３】Translation-oriented Word Sense Induction Based on Parallel Corpora. Marianna Apidianaki. In proceedings of LREC 2008. http://www.lrec-conf.org/proceedings/lrec2008/pdf/822 paper.pdf.
【発明の概要】
【課題を解決するための手段】
【００１３】
しかし、前記した従来技術には、以下のような問題がある。
非特許文献１に記載の手法は、教師あり学習であるため、その適用に大量の正解データを必要とする。従って、非特許文献１に記載の手法では、広範な単語を扱うことができる尺度の学習が、正解データの作成コストが問題となり、その実現困難である。
【００１４】
また、非特許文献２，３に記載の手法は、類義語を獲得する手法であり、任意の単語間の類義性を判断するための尺度を獲得できないという問題がある。そのため、非特許文献２，３に記載の手法は、類義関係にある可能性が高いと評価された単語以外にも、類似関係にある単語が多数存在するが、それら単語を発見することが困難である。
【００１５】
ここで、非特許文献３に記載の手法を非特許文献１に記載の手法に適用すれば、尺度を学習することも可能と思われる（以下、「非特許文献１，３の尺度学習手法」）。この場合、非特許文献１，３の尺度学習手法では、対訳コーパスから言語Ａ，Ｂのそれぞれについて、正解データを用いて、言語Ａに関する単語間の尺度を学習し、言語Ａと独立して、言語Ｂに関する単語間の尺度を学習することになる。このように、非特許文献１，３の尺度学習手法では、言語Ａ，Ｂに関する学習が独立することになり、尺度の正確性が低くなるという問題があった。
【００１６】
そこで、本発明は、前記した問題を解決し、正解データの作成コストを低減でき、正確性が高い類義性尺度を計算可能なパラメタを学習する類義性尺度用パラメタ学習装置およびそのプログラムを提供することを目的とする。
また、本発明は、正確性が高い類義性尺度を計算する類義性尺度学習装置を提供することを目的とする。
【００１７】
前記した課題に鑑みて、本願第１発明に係る類義性尺度用パラメタ学習装置は、２言語間の対訳である対訳コーパスを用いて、言語ごとに、単語間の類義性を示す類犠牲尺度の算出に用いるパラメタを学習する類義性尺度用パラメタ学習装置であって、対訳コーパス保持部と、文脈ベクタ作成部と、類義関係単語対候補作成部と、類義非類義関係単語対判別部と、言語間文脈整合ベクタ作成部と、パラメタ学習部と、を備えることを特徴とする。
【００１８】
かかる構成によれば、類義性尺度用パラメタ学習装置は、対訳コーパス保持部によって、前記対訳コーパスと、前記２言語間の単語の対訳である単語対が含まれる単語対応情報とを予め保持する。この対訳コーパスは、正解データを作成するために利用される。
【００１９】
また、類義性尺度用パラメタ学習装置は、文脈ベクタ作成部によって、前記単語対応情報の単語対に含まれる一方の言語の単語である基部と他方の言語の単語である対訳部とを前記対訳コーパスに有する対訳付き単語について、前記対訳付き単語の文脈ベクタが格納された文脈ベクタ一覧を前記対訳コーパスの文脈素性によって作成する。
【００２０】
また、類義性尺度用パラメタ学習装置は、類義関係単語対候補作成部によって、前記単語対応情報の単語対に含まれる前記２言語間の単語のうち何れか一方が共通する単語集合対を求め、前記一方の言語および前記他方の言語ごとに、当該単語集合対に含まれる単語同士を組み合わせることで、類義関係候補の単語対である類義関係単語対候補が格納された類義関係単語対候補一覧を作成する。
【００２１】
また、類義性尺度用パラメタ学習装置は、類義非類義関係単語対判別部によって、前記類義関係単語対候補一覧および前記文脈ベクタ一覧を用いて、２個の前記文脈ベクタに対応する対訳付き単語の対が、類義関係となるか、非類義関係となるか、または、前記類義関係および前記非類義関係の何れにも該当しないかを予め設定した基準によって判定し、前記類義関係と判定された対訳付き単語の対が格納された類義関係単語対一覧と、前記非類義関係と判定された対訳付き単語の対が格納された非類義関係単語対一覧とを作成する。つまり、類義非類義関係単語対判別部は、類義関係または非類義関係だけでなく、これらの何れにも該当しないかを判定するため、対訳付き単語の対を類義関係単語対一覧または非類義関係単語対一覧の何れかに正確に分類できる。これによって、類義性尺度用パラメタ学習装置は、正確性が高い正解データを自動的に作成可能とし、正解データを手動で準備する必要がない。
【００２２】
また、類義性尺度用パラメタ学習装置は、言語間文脈整合ベクタ作成部によって、前記２言語間における前記文脈ベクタの対である言語間文脈整合ベクタが格納された言語間文脈整合ベクタ一覧を作成する。
【００２３】
また、類義性尺度用パラメタ学習装置は、パラメタ学習部によって、前記類義関係単語対一覧と、前記非類義関係単語対一覧と、前記言語間文脈整合ベクタ一覧とを用いて、前記パラメタを予め定義したパラメタ関数によって学習する。つまり、パラメタ学習部は、正確性が高い正解データを用いて、言語間の文脈の対応関係を保ちながら、パラメタを学習する。
【００２４】
本願第２発明に係る類義性尺度用パラメタ学習装置は、前記類義非類義関係単語対判別部が、前記２個の文脈ベクタに対応する対訳付き単語の対において、互いの前記基部が同一であるか否かを判定し、前記互いの基部が同一の場合、前記２個の文脈ベクタの類義性指標を算出すると共に、当該類義性指標が予め設定された閾値未満であれば、前記対訳付き単語の対が前記類義関係および前記非類義関係の何れにも該当しないと判定し、当該類義性指標が前記閾値未満でなければ、前記対訳付き単語の対が前記類義関係となると判定し、前記互いの基部が同一でない場合、前記互いの基部が前記類義関係単語対候補一覧に含まれているか否かを判定し、前記互いの基部が前記類義関係単語対候補一覧に含まれない場合、前記前記対訳付き単語の対が前記非類義関係となると判定し、前記互いの基部が前記類義関係単語対候補一覧に含まれる場合、前記２個の文脈ベクタの類義性指標を算出すると共に、当該類義性指標が前記閾値未満であれば、前記対訳付き単語の対が前記類義関係および前記非類義関係の何れにも該当しないと判定し、当該類義性指標が前記閾値未満でなければ、前記対訳付き単語の対が前記類義関係となると判定することが好ましい。
【００２５】
本願第３発明に係る類義性尺度用パラメタ学習装置は、前記パラメタ学習部が、前記一方の言語における単語ａ_１，ａ_２の文脈ベクタがｖ（ａ_１），ｖ（ａ_２）と表されるときに、前記単語ａ_１，ａ_２の類義性尺度ｓ_Ａ（ａ_１，ａ_２）が式（１）で定義され、前記他方の言語における単語ｂ_１，ｂ_２の文脈ベクタがｖ（ｂ_１），ｖ（ｂ_２）と表されるときに、前記単語ｂ_１，ｂ_２の類義性尺度ｓ_Ｂ（ｂ_１，ｂ_２）が式（２）で定義され、前記言語間文脈整合ベクタ（ｗ_Ａ，ｗ_Ｂ）の整合度ｃ（ｗ_Ａ，ｗ_Ｂ）が式（３）で定義されるときに、式（４）で定義される前記パラメタ関数を最小化する式（１）のパラメタＶ_Ａおよび式（２）のＶ_Ｂを学習することが好ましい。
【００２６】
また、本願第４発明に係る類義性尺度学習装置は、本願第１発明に係る類義性尺度用パラメタ学習装置と、当該類義性尺度用パラメタ学習装置が学習したパラメタを用いて、前記類義性尺度を計算する類義性尺度計算部と、を備えることが好ましい。
【００２７】
なお、本願第１発明に係る類義性尺度用パラメタ学習装置は、対訳コーパス保持部を備えるコンピュータを、文脈ベクタ作成部、類義関係単語対候補作成部、類義非類義関係単語対判別部、言語間文脈整合ベクタ作成部、パラメタ学習部として機能させる類義性尺度用パラメタ学習プログラムによって実現することもできる。
【発明の効果】
【００２８】
本発明によれば、対訳コーパスから、正確性が高い正解データを自動的に作成すると共に、この正確性が正解データを用いて、言語間の文脈の対応関係を保ちながらパラメタを学習する。このため、本発明によれば、正解データの作成コストを低減することができ、パラメタの正確性を高くすることができる。
さらに、本発明によれば、このパラメタを用いるため、類義性尺度の正確性を高くすることができる。
【図面の簡単な説明】
【００２９】
【図１】本発明の第１実施形態に係る類義性尺度学習装置の構成を示すブロック図である。
【図２】本発明の第１実施形態において、文脈ベクタを説明する図である。
【図３】図１の類義性尺度学習装置の動作を示すフローチャートである。
【図４】図１の正解データ作成装置の動作を示すフローチャートである。
【図５】図４の文脈ベクタ作成処理を示すフローチャートである。
【図６】図４の類義関係単語対候補作成処理を示すフローチャートである。
【図７】（ａ）〜（ｃ）は、図６の類義関係単語対候補作成処理を補足説明する第１図である。
【図８】（ａ）〜（ｃ）は、図６の類義関係単語対候補作成処理を補足説明する第２図である。
【図９】（ａ）〜（ｃ）は、図６の類義関係単語対候補作成処理を補足説明する第３図である。
【図１０】図４の類義非類義関係単語対判別処理を示すフローチャートである。
【図１１】（ａ），（ｂ）は、図１０の類義非類義関係単語対判別処理を補足説明する図である。
【図１２】図１のパラメタ学習装置の動作を示すフローチャートである。
【図１３】図１２の語間文脈整合ベクタ一覧作成処理を補足説明する図である。
【図１４】図１の類義性尺度計算装置の動作を示すフローチャートである。
【図１５】本発明の第２実施形態に係る勾配法パラメタ学習装置の構成を示すブロック図である。
【図１６】従来技術において、文脈ベクタを説明する図である。
【発明を実施するための形態】
【００３０】
（第１実施形態）
以下、本発明の各実施形態について、適宜図面を参照しながら詳細に説明する。
本発明の第１実施形態に係る類義性尺度学習装置１００は、２言語間の対訳である対訳コーパスを用いて、言語ごとに、単語間の類義性を示す類義性尺度の算出に用いるパラメタを学習すると共に、学習したパラメタを用いて類義性尺度を計算するものである。このため、図１に示すように、類義性尺度学習装置１００は、正解データ作成装置１と、パラメタ学習装置３と、類義性尺度計算装置５とを備える。
【００３１】
正解データ作成装置１およびパラメタ学習装置３は、これら２台をまとめて、類義性尺度用パラメタ学習装置２と呼ぶことがある。
前記した２言語のうち、一方の言語を「言語Ａ」とし、他方の言語を「言語Ｂ」とする。例えば、言語Ａが日本語で、かつ、言語Ｂが英語というように、言語Ａ，Ｂは、互いに異なる言語である。
言語Ａの単語を「単語ａ」とし、言語Ｂの単語を「単語ｂ」とする。
【００３２】
［正解データ作成装置の構成］
以下、正解データ作成装置１の構成について説明する。正解データ作成装置１は、対訳コーパスを用いて、後記する類義関係単語対一覧および非類義関係単語対一覧を正解データとして作成するものである。このため、正解データ作成装置１は、対訳コーパス保持部１１と、文脈ベクタ保持部１２と、類義関係単語対候補保持部１３と、類義非類義関係単語対保持部１４と、文脈ベクタ作成部１５と、類義関係単語対候補作成部１６と、類義非類義関係単語対判別部１７と、入出力インタフェース１８とを備える。
【００３３】
対訳コーパス保持部１１は、対訳コーパスと、単語対応情報とを保持するメモリ、ハードディスクなどの記憶装置である。例えば、対訳コーパスおよび単語対応情報は、オペレータが手動で対訳コーパス保持部１１に記憶（保持）させる。
【００３４】
対訳コーパスは、同一内容の文書が言語Ａ，Ｂでそれぞれ記述された対訳対である。また、日本語文書のように、単語の区切りが分かち書きできない場合、対訳コーパスは、各単語の分割に関する情報（例えば、形態素情報）が含まれている。
【００３５】
単語対応情報は、言語Ａ，Ｂ間の単語の対訳である単語対が含まれる情報である。すなわち、単語対応情報は、言語Ａの単語が、言語Ｂで記述された文書において、どの位置の単語に翻訳されているかを示す情報である。ここで、単語対応情報は、統計機械翻訳技術を用いた単語対応付け手法を用いて作成することができる。この単語対応付け手法は、例えば、文献「GIZA++: Training of Statistical Translation Models. Franz Josef Och.http://fjoch.com/GIZA++.html」に記載されている。
【００３６】
文脈ベクタ保持部１２は、言語Ａ，Ｂそれぞれの文脈ベクタ一覧を保持するメモリ、ハードディスクなどの記憶装置である。ここで、文脈ベクタ一覧は、後記する文脈ベクタ作成部１５が作成するものであり、対訳コーパスに現れる言語Ａ，Ｂの対訳付き単語ａ^ｂ，ｂ^ａの文脈ベクタｖ（ａ^ｂ），ｖ（ｂ^ａ）が格納されている。
【００３７】
なお、単語対応情報の単語対において、言語Ａの単語ａのうち、その対訳である言語Ｂの単語ｂが対訳コーパスに含まれるものを対訳付き単語ａ^ｂとする。この対訳付き単語ａ^ｂにおいて、その言語Ａにおける単語ａを基部と呼び、対訳となる言語Ｂの単語ｂを対訳部と呼ぶこととする。例えば、日本語の単語「自動車」と英語の単語「ＣＡＲ」との単語対が対訳付き単語において、日本語を基準にすると、単語「自動車」が基部となり、単語「ＣＡＲ」が対訳部となる。また、例えば、英語を基準にした場合、単語「ＣＡＲ」が基部となり、単語「自動車」が対訳部となる。
【００３８】
類義関係単語対候補保持部１３は、言語Ａ，Ｂそれぞれの類義関係単語対候補一覧を保持するメモリ、ハードディスクなどの記憶装置である。ここで、類義関係単語対候補一覧は、後記する類義関係単語対候補作成部１６が作成するものであり、類義関係候補の単語対である類義関係単語対候補が格納されている。
【００３９】
類義非類義関係単語対保持部１４は、言語Ａ，Ｂそれぞれの類義関係単語対一覧と、言語Ａ，Ｂそれぞれの非類義関係単語対一覧とを保持するメモリ、ハードディスクなどの記憶装置である。
【００４０】
類義関係単語対一覧は、後記する類義非類義関係単語対判別部１７が作成するものであり、類義非類義関係単語対判別部１７によって類義関係と判定された言語Ａ，Ｂの対訳付き単語ａ^ｂ，ｂ^ａの対が格納されている。
【００４１】
非類義関係単語対一覧は、類義非類義関係単語対判別部１７が作成するものであり、類義非類義関係単語対判別部１７によって非類義関係と判定された言語Ａ，Ｂの対訳付き単語ａ^ｂ，ｂ^ａの対が格納されている。
【００４２】
文脈ベクタ作成部１５は、言語Ａ，Ｂのそれぞれについて、文脈ベクタｖ（ａ^ｂ），ｖ（ｂ^ａ）が含まれる文脈ベクタ一覧を対訳コーパスの文脈素性によって作成する。具体的には、文脈ベクタ作成部１５は、対訳コーパス保持部１１に保持された対訳コーパスおよび単語対応情報を用いて、言語Ａの単語（処理対象単語）ａが対訳コーパスに対訳となる言語Ｂの単語（対応先単語）ｂを有するとき、この関係から対訳付き単語ａ^ｂを求める。そして、文脈ベクタ作成部１５は、言語Ａにおける全ての対訳付き単語ａ^ｂの出現情報（文脈素性）に基づいて、文脈ベクタｖ（ａ^ｂ）を算出する。その後、文脈ベクタ作成部１５は、計算した文脈ベクタｖ（ａ^ｂ）が含まれる文脈ベクタ一覧を作成して、文脈ベクタ保持部１２に保持する。
【００４３】
ここで、図２を参照して、文脈ベクタについて詳細に説明する（適宜図１参照）。なお、図２では、対訳コーパスにおいて、言語Ａの単語が６種類（単語ａ_１，ａ_２，ａ_３，ａ_４，ａ_５，ａ_６）であるとする。また、文脈素性は、対象語の前後１単語とする。
【００４４】
単語ａ_１に注目すると、図２の対訳コーパスから、言語Ａの単語ａ_１が言語Ｂの単語ｂ_１，ｂ_２に翻訳されていることがわかる。この場合、対訳付き単語ａ_１^ｂ１が２個となり、対訳付き単語ａ_１^ｂ２が１個となる。ここで、対訳コーパスの言語Ａ側において、対訳付き単語ａ_１^ｂ１の単語ａ_１で前後１単語の範囲内では、単語ａ_１が０回、単語ａ_２が１回、単語ａ_３が２回、単語ａ_４が０回、単語ａ_５が１回、単語ａ_６が０回出現する。従って、文脈ベクタ作成部１５は、対訳付き単語ａ_１^ｂ１の文脈ベクタｖ（ａ_１^ｂ１）＝（０，１，２，０，１，０）を算出する。また、対訳コーパスの言語Ａ側において、対訳付き単語ａ_１^ｂ２の単語ａ_１で前後１単語の範囲内では、単語ａ_１が０回、単語ａ_２が０回、単語ａ_３が０回、単語ａ_４が１回、単語ａ_５が０回、単語ａ_６が１回出現する。従って、文脈ベクタ作成部１５は、対訳付き単語ａ_１^ｂ２の文脈ベクタｖ（ａ_１^ｂ２）＝（０，０，０，１，０，１）を算出する。このように、文脈ベクタは、対訳コーパスに含まれる文脈素性が異なる数に一致する次元数を持ち、その各成分が文脈素性にそれぞれ対応する。
【００４５】
そして、文脈ベクタ作成部１５は、言語Ａについて、算出した文脈ベクタｖ（ａ_１^ｂ１），ｖ（ａ_１^ｂ２），・・・が格納された文脈ベクタ一覧を作成する。なお、文脈ベクタ作成部１５は、言語Ａと同様の処理で言語Ｂの文脈ベクタ一覧を作成できるため、その説明を省略する。
【００４６】
以下、図１に戻り、正解データ作成装置１の構成について説明を続ける。
類義関係単語対候補作成部１６は、対訳コーパス保持部１１に保持された単語対応情報の単語対に含まれる言語Ａ，Ｂの単語ａ，ｂの一方が共通する単語集合対を求め、言語Ａ，Ｂごとに単語集合対に含まれる単語同士を組み合わせることで、類義関係単語対候補が格納された類義関係単語対候補一覧を作成する。つまり、類義関係単語対候補作成部１６は、同一単語に翻訳されうるならば類義候補という関係の推移関係を有する単語対を類義関係単語対候補として列挙する。その後、類義関係単語対候補作成部１６は、列挙した類義関係単語対候補が類義関係単語対候補保持部を作成して、類義関係単語対候補保持部１３に保持する。なお、類義関係単語対候補一覧の作成は、後記する類義関係単語対候補作成部１６の動作で詳細に説明する。
【００４７】
ここで、類義関係候補とは、単語ａ_１，ａ_２が類義候補にあり、かつ、単語ａ_２，ａ_３が類義候補にあるならば、単語ａ_１，ａ_３も類義候補にあるという類義候補の推移律で結ばれる関係である。
【００４８】
類義非類義関係単語対判別部１７は、言語Ａ，Ｂのそれぞれについて、類義関係単語対候補保持部１３に保持された類義関係単語対候補一覧および文脈ベクタ保持部１２に保持された文脈ベクタ一覧を用いて、２個の文脈ベクタに対応する対訳付き単語の対が、類義関係となるか、非類義関係となるか、または、類義関係および非類義関係の何れにも該当しないかを予め設定した基準判定する。そして、類義非類義関係単語対判別部１７は、この判定結果に応じて、類義関係単語対一覧と、非類義関係単語対一覧とを作成する。その後、類義非類義関係単語対判別部１７は、作成した類義関係単語対一覧と非類義関係単語対一覧とを類義非類義関係単語対保持部１４に保持する。
【００４９】
具体的には、類義非類義関係単語対判別部１７は、言語Ａの対訳付き単語同士を全て組み合わせて、対訳付き単語の対（例えば、ａ_１^ｂ１−ａ_１^ｂ２）を求める。そして、類義非類義関係単語対判別部１７は、対訳付き単語の対において、互いの基部が同一単語であるか、または、類義関係単語対候補一覧に類義候補関係単語対として登録されているかを判定する。さらに、類義非類義関係単語対判別部１７は、この判定が成立し、２個の文脈ベクタから計算した類義性指標の値が予め設定した閾値を越える場合、この対訳付き単語の対を言語Ａの類義関係単語対一覧に追加する。ここで、前記した類義性指標は、文脈ベクタ同士の類義性を示す指標であり、例えば、内積、ジャッカード係数またはマハラノビス距離を用いて、求めることができる。なお、類義性指標の閾値は、類義性指標を求める実験を行い、その実験結果を考慮して経験的に設定することが可能である。
【００５０】
その一方、類義非類義関係単語対判別部１７は、対訳付き単語の対において、互いの基部が異なる単語であり、かつ、類義関係単語対候補一覧に類義候補関係単語対として含まれていない場合、この対訳付き単語の対を言語Ａの非類義関係単語対一覧に追加する。なお、類義関係単語対一覧および非類義関係単語対一覧の作成は、後記する類義非類義関係単語対判別部１７の動作で詳細に説明する。また、類義非類義関係単語対判別部１７は、言語Ａと同様の処理で言語Ｂの類義関係単語対一覧および非類義関係単語対一覧を作成できるため、その説明を省略する。
【００５１】
入出力インタフェース１８は、ネットワークを介して、パラメタ学習装置３との間で、各保持部に保持されたデータを入出力するインタフェースである。
【００５２】
［パラメタ学習装置の構成］
以下、パラメタ学習装置３の構成について説明する。パラメタ学習装置３は、正解データ作成装置１が作成した類義関係単語対一覧および非類義関係単語対一覧を正解データとして用いて、類義性尺度の算出に用いるパラメタを学習するものである。このため、パラメタ学習装置３は、対訳コーパス保持部３１と、言語間文脈整合ベクタ保持部３２と、類義性尺度計算手順保持部３３と、類義非類義関係単語対保持部３４と、パラメタ保持部３５と、類義非類義関係単語対設定部３６と、言語間文脈整合ベクタ作成部３７と、パラメタ学習部３８と、入出力インタフェース３９とを備える。
【００５３】
対訳コーパス保持部３１は、対訳コーパス保持部１１と同様、対訳コーパスと単語対応情報とを保持するものであるため、説明を省略する。
【００５４】
言語間文脈整合ベクタ保持部３２は、文脈ベクタ保持部１２と同様に文脈ベクタ一覧を保持すると共に、後記する言語間文脈整合ベクタ作成部３７が作成する言語間文脈整合ベクタ一覧を保持するメモリ、ハードディスクなどの記憶装置である。
ここで、正解データ作成装置１の出力は、類義関係単語対一覧および非類義関係単語対一覧であり、類義関係単語対一覧および非類義関係単語対一覧の作成手法がパラメタ学習装置３の処理に影響を及ぼすことはない。従って、パラメタ学習装置３における文脈素性は、正解データ作成装置１における文脈素性と一致していなくともよい。
【００５５】
言語間文脈整合ベクタ一覧は、後記する言語間文脈整合ベクタ作成部３７が作成するものであり、言語Ａ，Ｂ間での文脈ベクタの対である言語間文脈整合ベクタが格納されている。つまり、言語間文脈整合ベクタは、対訳コーパス保持部３１に保持された単語対応情報の各単語対に対応する、言語Ａの文脈ベクタと言語Ｂの文脈ベクタとの対である。
【００５６】
類義性尺度計算手順保持部３３は、類義性尺度の計算手順（後記する式（１），式（２））と、パラメタの計算手順（後記する式（３），式（４））とを保持するメモリ、ハードディスクなどの記憶装置である。例えば、類義性尺度およびパラメタの計算手順は、オペレータが手動で類義性尺度計算手順保持部３３に記憶（保持）させる。
【００５７】
類義非類義関係単語対保持部３４は、類義非類義関係単語対保持部１４と同様、類義関係単語対一覧と非類義関係単語対一覧とを保持するものであるため、説明を省略する。
【００５８】
パラメタ保持部３５は、言語Ａ，Ｂのそれぞれについて、後記するパラメタ学習部３８が学習したパラメタを保持するメモリ、ハードディスクなどの記憶装置である。
【００５９】
類義非類義関係単語対設定部３６は、入出力インタフェース１８，３９を介して、言語Ａ，Ｂのそれぞれについて、類義非類義関係単語対保持部１４が保持する類義関係単語対一覧および非類義関係単語対一覧を類義非類義関係単語対保持部３４にコピー（設定）するものである。
【００６０】
言語間文脈整合ベクタ作成部３７は、文脈ベクタ作成部１５と同様、言語Ａ，Ｂそれぞれの文脈ベクタ一覧を作成するものである。また、言語間文脈整合ベクタ作成部３７は、対訳コーパス保持部３１が保持する単語対応情報のそれぞれについて、単語対によって示される言語Ａ，Ｂの単語出現位置（周辺文脈）を表す文脈ベクタの対である言語間文脈整合ベクタを計算する。そして、言語間文脈整合ベクタ作成部３７は、計算した言語間文脈整合ベクタが格納されている語間文脈整合ベクタ一覧を作成する。その後、言語間文脈整合ベクタ作成部３７は、作成した文脈ベクタ一覧と語間文脈整合ベクタ一覧とを言語間文脈整合ベクタ保持部３２に保持する。
【００６１】
なお、言語間文脈整合ベクタは、言語間文脈整合ベクタ保持部３２が保持する言語Ａ，Ｂの文脈ベクタと同じ次元数を有し、各成分がそれぞれ同じ文脈素性の一つ一つに対応する。また、語間文脈整合ベクタ一覧の作成は、後記する言語間文脈整合ベクタ作成部３７の動作で詳細に説明する。
【００６２】
パラメタ学習部３８は、類義非類義関係単語対保持部３４が保持する類義関係単語対一覧および非類義関係単語対一覧と、言語間文脈整合ベクタ一覧が保持する言語間文脈整合ベクタ一覧とを用いて、パラメタをパラメタ関数によって学習するものである。具体的には、パラメタ学習部３８は、前記した類義関係単語対一覧および非類義関係単語対一覧を正解データとして用いて、パラメタを学習する。すなわち、パラメタ学習部３８は、類義性尺度計算手順保持部３３が保持する類義性尺度の計算手順による計算結果が、正解データが示す条件において、類義性尺度計算手順保持部３３が保持するパラメタの計算手順で最適化されるパラメタを学習する。その後、パラメタ学習部３８は、言語Ａ，Ｂのそれぞれについて、学習したパラメタをパラメタ保持部３５に保持する。
【００６３】
＜パラメタの学習＞
以下、パラメタの学習について、具体例を説明する。類義性尺度計算手順保持部３３が保持する言語Ａの類義性尺度の計算手順において、単語ａ_１，ａ_２の類義性尺度ｓ_Ａ（ａ_１，ａ_２）は、下記の式（１）で定義される。すなわち、類義性尺度ｓ_Ａ（ａ_１，ａ_２）は、言語Ａの（対訳付き）単語の文脈ベクタがＤ_Ａ次元であり、言語Ａの（対訳付き）単語ａ_１，ａ_２の文脈ベクタがｖ（ａ_１），ｖ（ａ_２）と表されるときに、式（１）で定義される。
【００６４】
【数１】

【００６５】
ただし、Ｖ_Ａは、Ｎ×Ｄ_Ａ次元の実数行列で、言語Ａの類義性尺度を計算するためのパラメタである。ここで、パラメタＶ_Ａ，Ｖ_Ｂの次元数を決定する数Ｎは、Ｎ≦Ｖ_Ａ、かつ、Ｎ≦Ｖ_Ｂとなるようにオペレータが手動で設定する。また、“｜｜”はノルムを示し、“Ｔ”は転置を示す。
【００６６】
また、類義性尺度計算手順保持部３３が保持する言語Ｂの類義性尺度の計算手順において、単語ｂ_１，ｂ_２の類義性尺度ｓ_Ｂ（ｂ_１，ｂ_２）は、下記の式（２）で定義される。すなわち、類義性尺度ｓ_Ｂ（ｂ_１，ｂ_２）は、言語Ｂの（対訳付き）単語の文脈ベクタがＤ_Ｂ次元であり、言語Ｂの（対訳付き）単語ｂ_１，ｂ_２の文脈ベクタがｖ（ｂ_１），ｖ（ｂ_２）と表されるときに、式（２）で定義される。ただし、Ｖ_Ｂは、Ｎ×Ｄ_Ｂ次元の実数行列で、言語Ｂの類義性尺度を計算するためのパラメタである。
【００６７】
【数２】

【００６８】
また、パラメタＶ_Ａ，Ｖ_Ｂの学習では、２つの制約条件を満たす最適化学習を行うこととする。ここで、第１の制約条件は、言語間文脈整合ベクタ作成部３７に保持された言語間文脈整合ベクタ（ｗ_Ａ，ｗ_Ａ）の整合度ｃ（ｗ_Ａ，ｗ_Ａ）が、できるだけ大きくなるようにする。このとき、言語間文脈整合ベクタ（ｗ_Ａ，ｗ_Ａ）の整合度ｃ（ｗ_Ａ，ｗ_Ａ）は、下記の式（３）で定義される。
【００６９】
【数３】

【００７０】
また、第２の制約条件は、類義非類義関係単語対保持部３４に保持されている言語Ａの類義関係単語対一覧において、（対訳付き）単語の対（ａ_１，ａ_２）の類義性尺度が、非類義関係単語対一覧の対訳付き単語の対（ａ_１，ａ´），（ａ´´，ａ_２）の類義性尺度よりできるだけ大きくなるようにする。ここで、単語ａ´は、単語ａ_２以外で、かつ、単語の対（ａ_１，ａ´）が非類義関係単語対一覧に含まれている言語Ａの単語である。また、単語ａ´´は、単語ａ_１以外で、かつ、単語の対（ａ´´，ａ_２）が非類義関係単語対一覧に含まれている言語Ａの単語である。なお、第１，第２の制約条件は、言語Ｂについても同様である。
【００７１】
すなわち、パラメタ学習部３８は、前記した第１，第２の制約条件を満たすために、以下の式（４）で定義されたパラメタ関数を最小化するパラメタＶ_Ａ，Ｖ_Ｂを学習する。
【００７２】
【数４】

【００７３】
なお、この式（４）では、Ｗは言語間文脈整合ベクタ一覧を表す集合であり、Ｙ_Ａは単語（対訳付き単語の基部）ａ_１，ａ_２が類義関係単語対一覧に含まれるときに真を返す関数、Ｎ_Ａは単語（対訳付き単語の基部）ａ_１，ａ_２が非類義関係単語対一覧に含まれるときに真を返す関数、Ｙ_Ｂは単語（対訳付き単語の基部）ｂ_１，ｂ_２が類義関係単語対一覧に含まれるときに真を返す関数、Ｎ_Ｂは単語（対訳付き単語の基部）ｂ_１，ｂ_２が非類義関係単語対一覧に含まれるときに真を返す関数、α，β_Ａ，β_Bはオペレータが手動で設定した係数（正の実数）であり、ｍ_Ａは言語Ａのマージンであり、ｍ_Ｂは言語Ｂのマージンであり、ｍｉｎは最小値を返す関数である。
【００７４】
なお、パラメタ学習部３８は、様々な手法を用いてパラメタを学習することができ、例えば、勾配法を用いることもできる。パラメタ学習部３８が勾配法を用いる構成は、第２実施形態として後記する。
【００７５】
以下、パラメタ学習装置３の構成について、説明を続ける。
入出力インタフェース３９は、ネットワークを介して、正解データ作成装置１および類義性尺度計算装置５との間で、各保持部に保持されたデータなどを入出力するインタフェースである。
【００７６】
［類義性尺度計算装置の構成］
以下、類義性尺度計算装置５の構成について説明する。類義性尺度計算装置５は、パラメタ学習装置３が学習したパラメタを用いて、類義性尺度を計算するものであり、パラメタ保持部５１と、文脈ベクタ保持部５２と、類義性尺度計算手順保持部５３と、類義性尺度保持部５４と、パラメタ設定部５５と、文脈ベクタ設定部５６と、類義性尺度計算部５７と、入出力インタフェース５８とを備える。
パラメタ保持部５１は、パラメタ保持部３５と同様、学習したパラメタを保持するものであるため、説明を省略する。
【００７７】
文脈ベクタ保持部５２は、言語間文脈整合ベクタ保持部３２と同様に文脈ベクタ一覧を保持するメモリ、ハードディスクなどの記憶装置である。
ここで、パラメタ学習装置３の出力は、ある文脈素性を用いて文脈ベクタを表現する場合において、類義性尺度を計算するためのパラメタである。当然、このパラメタを用いる類義性尺度計算装置５には、パラメタ学習装置３と同じ文脈素性を用いた文脈ベクタを準備しておく必要がある。従って、類義性尺度計算装置５における文脈素性は、パラメタ学習装置３における文脈素性と一致していなければならない。
【００７８】
類義性尺度計算手順保持部５３は、類義性尺度計算手順保持部３３と同様、類義性尺度の計算手順を保持するものであるため、説明を省略する。なお、類義性尺度計算装置５における類義性尺度の計算手順は、パラメタ学習装置３における類義性尺度の計算手順と一致していなければならない。
【００７９】
類義性尺度保持部５４は、言語Ａ，Ｂそれぞれについて、後記する類義性尺度計算部５７が計算した類義性尺度を保持するメモリ、ハードディスクなどの記憶装置である。
【００８０】
パラメタ設定部５５は、入出力インタフェース３９，５８を介して、言語Ａ，Ｂのそれぞれについて、パラメタ保持部３５が保持するパラメタをパラメタ保持部５１にコピー（設定）するものである。
【００８１】
文脈ベクタ設定部５６は、入出力インタフェース３９，５８を介して、言語Ａ，Ｂのそれぞれについて、言語間文脈整合ベクタ保持部３２が保持する文脈ベクタ一覧を文脈ベクタ保持部５２にコピー（設定）するものである。
【００８２】
類義性尺度計算部５７は、パラメタ保持部５１が保持するパラメタＶ_Ａ，Ｖ_Ｂと、文脈ベクタ保持部５２が保持する文脈ベクタと、類義性尺度計算手順保持部５３が保持する類義性尺度の計算手順とを用いて、類義性尺度ｓ_Ａ，ｓ_Ｂを計算するものである。具体的には、類義性尺度計算部５７は、前記した式（１）を用いて、言語Ａにおける単語間の類義性尺度ｓ_Ａを計算し、計算した類義性尺度ｓ_Ａを類義性尺度保持部５４に保持する。また、類義性尺度計算部５７は、前記した式（２）を用いて、言語Ｂにおける単語間の類義性尺度ｓ_Ｂを計算し、計算した類義性尺度ｓ_Ｂを類義性尺度保持部５４に保持する。
【００８３】
入出力インタフェース５８は、ネットワークを介して、パラメタ学習装置３との間で、各保持部に保持されたデータを入出力するインタフェースである。また、入出力インタフェース５８は、類義性尺度保持部５４に保持された類義性尺度ｓ_Ａ，ｓ_Ｂを外部に出力する。
【００８４】
［類義性尺度学習装置の動作］
以下、図３を参照し、類義性尺度学習装置１００の動作（全体処理）について説明する（適宜図１参照）。
【００８５】
類義性尺度学習装置１００は、正解データ作成装置１によって、対訳コーパスを用いて、類義関係単語対一覧および非類義関係単語対一覧を正解データとして作成する（正解データ作成処理、ステップＳ１）
【００８６】
類義性尺度学習装置１００は、パラメタ学習装置３によって、正解データ作成装置１が作成した類義関係単語対一覧および非類義関係単語対一覧を用いて、パラメタを学習する（パラメタ学習処理、ステップＳ２）。
【００８７】
類義性尺度学習装置１００は、類義性尺度計算装置５によって、パラメタ学習装置３が学習したパラメタを用いて、類義性尺度を計算する（類義性尺度計算処理、ステップＳ３）。
【００８８】
［正解データ作成装置の動作］
以下、図４を参照し、正解データ作成装置１の動作（正解データ作成処理）について説明する（適宜図１参照）。なお、図４の各処理は、図３のステップＳ１の処理に相当する。
【００８９】
正解データ作成装置１は、文脈ベクタ作成部１５によって、言語Ａ，Ｂのそれぞれについて、文脈ベクタｖ（ａ^ｂ），ｖ（ｂ^ａ）が格納された文脈ベクタ一覧を作成する（文脈ベクタ作成処理、ステップＳ１０）。
【００９０】
正解データ作成装置１は、類義関係単語対候補作成部１６によって、言語Ａ，Ｂのそれぞれについて、類義関係単語対候補一覧を作成する（類義関係単語対候補作成処理、ステップＳ１１）。
【００９１】
正解データ作成装置１は、類義非類義関係単語対判別部１７によって、言語Ａ，Ｂのそれぞれについて、対訳付き単語の対が、類義関係となるか、非類義関係となるか、または、類義関係および非類義関係の何れにも該当しないかを判定する。そして、正解データ作成装置１は、類義非類義関係単語対判別部１７によって、その判別結果に応じて、類義関係単語対一覧と、非類義関係単語対一覧とを作成する（類義非類義関係単語対判別処理、ステップＳ１２）。
【００９２】
＜文脈ベクタ作成処理＞
以下、図５を参照し、図４のステップＳ１０の処理（文脈ベクタ作成処理）について詳細に説明する。
文脈ベクタ作成部１５は、対訳コーパス保持部１１に保持された対訳コーパスの言語Ａの先頭単語を処理対象単語（単語ａ）として設定する（ステップＳ１００）。
【００９３】
文脈ベクタ作成部１５は、対訳コーパス保持部１１に保持された単語対応情報を参照し、設定した処理対象単語について、対訳コーパス中に言語Ｂの対応先単語（単語ｂ）が存在しないか否かを判定する（ステップＳ１０１）。対応先単語が存在しない場合（ステップＳ１０１でＹｅｓ）、文脈ベクタ作成部１５は、ステップＳ１０４の処理に進む。一方、対応先単語が存在する場合（ステップＳ１０１でＮｏ）、文脈ベクタ作成部１５は、ステップＳ１０２の処理に進む。
【００９４】
文脈ベクタ作成部１５は、言語Ａの文脈ベクタ一覧を参照し、対訳付き単語ａ^ｂの文脈ベクタｖ(ａ^ｂ)が存在しなければ、文脈ベクタｖ(ａ^ｂ)として零ベクタを言語Ａの文脈ベクタ一覧に追加する（ステップＳ１０２）。
【００９５】
文脈ベクタ作成部１５は、処理対象単語の前後文脈を予め設定された手法（例えば、単語の出現傾向）により検査することで、処理対象単語の文脈素性集合を決定する。その後、文脈ベクタ作成部１５は、対訳付き単語ａ^ｂの文脈ベクタｖ(ａ^ｂ)に対して、文脈素性集合の各要素に対応する成分にそれぞれ１を加え、文脈ベクタを作成する（ステップＳ１０３）。
【００９６】
文脈ベクタ作成部１５は、処理対象単語が対訳コーパスの末尾単語であるか否かを判定する（ステップＳ１０４）。処理対象単語が末尾単語でない場合（ステップＳ１０４でＮｏ）、文脈ベクタ作成部１５は、ステップＳ１０５の処理に進む。一方、処理対象単語が末尾単語である場合（ステップＳ１０４でＹｅｓ）、文脈ベクタ作成部１５は、ステップＳ１０６の処理に進む。
【００９７】
文脈ベクタ作成部１５は、次の処理対象単語を設定する。例えば、処理対象単語が対訳コーパスの先頭単語であった場合、文脈ベクタ作成部１５は、対訳コーパスで２番目の単語を処理対象単語として設定する。その後、文脈ベクタ作成部１５は、ステップＳ１０１の処理に戻る（ステップＳ１０５）。
【００９８】
文脈ベクタ作成部１５は、各文脈ベクタに対して、例えば、その各成分に対する重み付けや文脈ベクタの長さを１に正規化する処理を行う（ステップＳ１０６）。その後、文脈ベクタ作成部１５は、処理を終了する。
【００９９】
なお、文脈ベクタ作成部１５は、言語Ａの文脈ベクタ作成処理を実行した後、言語Ｂの文脈ベクタ作成処理を言語Ａと同様に実行する。
【０１００】
＜類義関係単語対候補作成処理＞
以下、図６を参照し、図４のステップＳ１１の処理（類義関係単語対候補作成処理）について詳細に説明する。
類義関係単語対候補作成部１６は、類義関係単語集合対集合を空集合に初期化する（ステップＳ１１０）。この類義関係単語集合対集合は、言語Ａの単語集合と言語Ｂの単語集合との対である類義関係単語集合対が集合したものである。また、単語集合は、１以上の単語が集合したものである。
【０１０１】
類義関係単語対候補作成部１６は、対訳コーパス保持部１１に保持された単語対応情報において、先頭の単語対を処理対象対応情報として設定する（ステップＳ１１１）。ここで、処理対象対応情報は、言語Ａの単語ａと、言語Ｂの単語ｂとの単語対であるため、（ａ−ｂ）と表す。
【０１０２】
類義関係単語対候補作成部１６は、類義関係単語集合対集合全体から、処理対象対応情報（ａ−ｂ）の単語ａ，ｂのうち何れか一方を言語Ａの単語集合または言語Ｂの単語集合として含む部分集合を求める（ステップＳ１１２）。なお、言語Ａ，Ｂの両方で共通する単語ａ，ｂが存在しない場合、この部分集合は、空集合となりうる。
【０１０３】
類義関係単語対候補作成部１６は、処理対象対応情報および部分集合から、言語Ａ，Ｂで共通する単語集合の対である単語集合対を求める。すなわち、類義関係単語対候補作成部１６は、処理対象対応情報および部分集合の各要素において、言語Ａの単語集合｛ａ｝および単語集合｛ａ｝の全ての和集合である言語Ａの単語集合と、言語Ｂの単語集合｛ｂ｝および単語集合｛ｂ｝の和集合である言語Ｂの単語集合の対として構成される単語集合対を求め、類義関係単語集合対集合に追加する。そして、類義関係単語対候補作成部１６は、類義関係単語集合対集合から、ステップＳ１１２で計算した部分集合の全要素を削除する（ステップＳ１１３）。
【０１０４】
類義関係単語対候補作成部１６は、処理対象対応情報（ａ−ｂ）が単語対応情報の末尾の単語対であるか否かを判定する（ステップＳ１１４）。処理対象対応情報（ａ−ｂ）が末尾でない場合（ステップＳ１１４でＮｏ）、類義関係単語対候補作成部１６は、ステップＳ１１５の処理に進む。一方、処理対象対応情報（ａ−ｂ）が末尾である場合（ステップＳ１１４でＹｅｓ）、類義関係単語対候補作成部１６は、ステップＳ１１６の処理に進む。
【０１０５】
類義関係単語対候補作成部１６は、対訳コーパス保持部１１に保持された単語対応情報において、次の単語対を処理対象対応情報（ａ−ｂ）として設定する。例えば、処理対象対応情報（ａ−ｂ）が単語対応情報で先頭の単語対であった場合、類義関係単語対候補作成部１６は、単語対応情報で２番目の単語対を処理対象対応情報（ａ−ｂ）として設定する。その後、類義関係単語対候補作成部１６は、ステップＳ１１２の処理に戻る（ステップＳ１１５）。
【０１０６】
類義関係単語対候補作成部１６は、類義関係単語集合対集合で任意の１単語集合対を処理対象単語集合対として設定する。例えば、類義関係単語対候補作成部１６は、類義関係単語集合対集合の先頭の単語集合対から順に、処理対象単語集合対を設定する。そして、類義関係単語対候補作成部１６は、この類義関係単語集合対集合から、設定した処理対象単語集合対を削除する（ステップＳ１１６）。
【０１０７】
類義関係単語対候補作成部１６は、言語Ａ，Ｂのそれぞれについて、処理対象単語集合において、全ての単語同士の組み合わせることで、類義関係単語対候補を求める。すなわち、類義関係単語対候補作成部１６は、処理対象単語集合対において、言語Ａの全ての単語同士を組み合わせて類義関係単語対候補を求める。そして、類義関係単語対候補作成部１６は、求めた類義関係単語対候補を類義関係単語対候補一覧に追加する。また、類義関係単語対候補作成部１６は、言語Ａと同様、言語Ｂの類義関係単語対候補を求め、類義関係単語対候補一覧に追加する（ステップＳ１１７）。
【０１０８】
類義関係単語対候補作成部１６は、類義関係単語集合対集合が空集合であるか否かを判定する（ステップＳ１１８）。類義関係単語集合対集合が空集合である場合（ステップＳ１１８でＹｅｓ）、類義関係単語対候補作成部１６は、処理を終了する。一方、類義関係単語集合対集合が空集合でない場合（ステップＳ１１８でＮｏ）、類義関係単語対候補作成部１６は、ステップＳ１１６の処理に戻る。
【０１０９】
＜類義関係単語対候補作成処理：Ｓ１１０〜Ｓ１１５の補足説明＞
以下、図７，図８を参照し、図６のステップＳ１１０〜Ｓ１１５の処理について、具体例をあげて補足説明する。図７（ａ）に示すように、単語対応情報は、（ａ_１−ｂ_１），（ａ_１−ｂ_２），（ａ_２−ｂ_３），（ａ_３−ｂ_４），（ａ_３−ｂ_２）という５個の単語対が格納されているとする。
【０１１０】
類義関係単語対候補作成部１６は、ステップＳ１１０の処理において、類義関係単語集合対集合を空集合に初期化する。なお、図７および図８において、“φ”は空集合であることを示す。
【０１１１】
図７（ｂ）に示すように、類義関係単語対候補作成部１６は、ステップＳ１１１の処理において、単語対応情報で先頭の単語対（ａ_１−ｂ_１）を処理対象対応情報として設定する。
類義関係単語対候補作成部１６は、ステップＳ１１２の処理において、類義関係単語集合対集合が空集合であるため、部分集合１を空集合として求める。
【０１１２】
空集合である部分集合１には、言語Ａ，Ｂの単語集合が含まれない。また、処理対象対応情報（ａ_１−ｂ_１）には、言語Ａの単語集合｛ａ_１｝と、言語Ｂの単語集合｛ｂ_１｝とが含まれる。従って、単語集合対１は、処理対象対応情報の単語集合｛ａ_１｝と、処理対象対応情報の単語集合｛ｂ_１｝との対になる。
つまり、類義関係単語対候補作成部１６は、ステップＳ１１３の処理において、｛ａ_１｝−｛ｂ_１｝という単語集合対１を求め、類義関係単語集合対集合に追加する。
【０１１３】
類義関係単語対候補作成部１６は、ステップＳ１１４の処理において、処理対象対応情報（ａ_１−ｂ_１）が単語対応情報の末尾でないと判定するため、ステップＳ１１５の処理に進む（不図示）。
【０１１４】
図７（ｃ）に示すように、類義関係単語対候補作成部１６は、ステップＳ１１５の処理において、単語対応情報で２番目の単語対（ａ_１−ｂ_２）を処理対象対応情報として設定する。
【０１１５】
類義関係単語対候補作成部１６は、処理対象対応情報が（ａ_１−ｂ_２）であるため、類義関係単語集合対集合全体において、言語Ａ側に単語集合｛ａ_１｝を有するか、または、言語Ｂ側に単語集合｛ｂ_２｝を有する単語集合対を部分集合２として求める。ここで、図７（ｂ）の単語集合対１が言語Ａ側に単語集合｛ａ_１｝を含むため、部分集合２は、単語集合対１と同じものとなる。
つまり、類義関係単語対候補作成部１６は、ステップＳ１１２の処理において、｛ａ_１｝−｛ｂ_１｝という部分集合２を求める。
【０１１６】
部分集合２には、言語Ａの単語集合｛ａ_１｝と、言語Ｂの単語集合｛ｂ_１｝とが含まれる。また、処理対象対応情報（ａ_１−ｂ_２）は、言語Ａの単語集合｛ａ_１｝と、言語Ｂの単語集合｛ｂ_２｝とが含まれる。従って、単語集合対２は、部分集合２の単語集合｛ａ_１｝および処理対象対応情報の単語集合｛ａ_１｝の和集合と、部分集合２の単語集合｛ｂ_１｝および処理対象対応情報の単語集合｛ｂ_２｝の和集合との対になる。
【０１１７】
つまり、類義関係単語対候補作成部１６は、ステップＳ１１３の処理において、｛ａ_１｝∪｛ａ_１｝−｛ｂ_１｝∪｛ｂ_２｝、すなわち、｛ａ_１｝−｛ｂ_１，ｂ_２｝という単語集合対２を求め、類義関係単語集合対集合に追加する。そして、類義関係単語対候補作成部１６は、類義関係単語集合対集合から部分集合２を削除する。
【０１１８】
類義関係単語対候補作成部１６は、ステップＳ１１４の処理において、処理対象対応情報（ａ_１−ｂ_２）が単語対応情報の末尾でないと判定するため、ステップＳ１１５の処理に進む（不図示）。
【０１１９】
図８（ａ）に示すように、類義関係単語対候補作成部１６は、ステップＳ１１５の処理において、単語対応情報で３番目の単語対（ａ_２−ｂ_３）を処理対象対応情報として設定する。
【０１２０】
類義関係単語対候補作成部１６は、処理対象対応情報が（ａ_２−ｂ_３）であるため、類義関係単語集合対集合全体において、言語Ａ側に単語集合｛ａ_２｝を有するか、または、言語Ｂ側に単語集合｛ｂ_３｝を有する単語集合対を部分集合３として求める。ここで、単語集合対２が言語Ａ側に単語集合｛ａ_２｝を含まず、言語Ｂ側に単語集合｛ｂ_３｝を含まないため、部分集合３は、空集合になる。
つまり、類義関係単語対候補作成部１６は、ステップＳ１１２の処理において、部分集合３を空集合として求める。
【０１２１】
空集合である部分集合３には、言語Ａ，Ｂの単語集合が含まれない。また、処理対象対応情報（ａ_２−ｂ_３）には、言語Ａの単語集合｛ａ_２｝と、言語Ｂの単語集合｛ｂ_３｝とが含まれる。従って、単語集合対３は、処理対象対応情報の単語集合｛ａ_２｝と、処理対象対応情報の単語集合｛ｂ_３｝との対になる。
つまり、類義関係単語対候補作成部１６は、ステップＳ１１３の処理において、｛ａ_２｝−｛ｂ_３｝という単語集合対３を求め、類義関係単語集合対集合に追加する。
【０１２２】
類義関係単語対候補作成部１６は、ステップＳ１１４の処理において、処理対象対応情報（ａ_２−ｂ_３）が単語対応情報の末尾でないと判定するため、ステップＳ１１５の処理に進む（不図示）。
【０１２３】
図８（ｂ）に示すように、類義関係単語対候補作成部１６は、ステップＳ１１５の処理において、単語対応情報で４番目の単語対（ａ_３−ｂ_４）を処理対象対応情報として設定する。
【０１２４】
類義関係単語対候補作成部１６は、処理対象対応情報が（ａ_３−ｂ_４）であるため、類義関係単語集合対集合全体において、言語Ａ側に単語集合｛ａ_３｝を有するか、または、言語Ｂ側に単語集合｛ｂ_４｝を有する単語集合対を部分集合４として求める。ここで、単語集合対２，３の何れも、言語Ａ側に単語集合｛ａ_３｝を含まず、言語Ｂ側に単語集合｛ｂ_４｝を含まないため、部分集合４は、空集合になる。
つまり、類義関係単語対候補作成部１６は、ステップＳ１１２の処理において、部分集合４を空集合として求める。
【０１２５】
空集合である部分集合４には、言語Ａ，Ｂの単語集合が含まれない。また、処理対象対応情報（ａ_３−ｂ_４）には、言語Ａの単語集合｛ａ_３｝と、言語Ｂの単語集合｛ｂ_４｝とが含まれる。従って、単語集合対４は、処理対象対応情報の単語集合｛ａ_３｝と、処理対象対応情報の単語集合｛ｂ_４｝との対になる。
つまり、類義関係単語対候補作成部１６は、ステップＳ１１３の処理において、｛ａ_３｝−｛ｂ_４｝という単語集合対４を求め、類義関係単語集合対集合に追加する。
【０１２６】
類義関係単語対候補作成部１６は、ステップＳ１１４の処理において、処理対象対応情報（ａ_３−ｂ_４）が単語対応情報の末尾でないと判定するため、ステップＳ１１５の処理に進む（不図示）。
【０１２７】
図８（ｃ）に示すように、類義関係単語対候補作成部１６は、ステップＳ１１５の処理において、単語対応情報で末尾（５番目）の単語対（ａ_３−ｂ_２）を処理対象対応情報として設定する。
【０１２８】
類義関係単語対候補作成部１６は、処理対象対応情報がａ_３−ｂ_２であるため、類義関係単語集合対集合全体において、言語Ａ側に単語集合｛ａ_３｝を有するか、または、言語Ｂ側に単語集合｛ｂ_２｝を有する単語集合対を部分集合５として求める。ここで、図８（ｂ）の単語集合対２が言語Ｂ側に単語集合｛ｂ_２｝を含み、図８（ｂ）の単語集合対４が言語Ａ側に単語集合｛ａ_３｝を含むため、部分集合５は、単語集合対２，４と同じものとなる。
つまり、類義関係単語対候補作成部１６は、ステップＳ１１２の処理において、｛ａ_１｝−｛ｂ_１，ｂ_２｝および｛ａ_３｝−｛ｂ_４｝という部分集合５を求める。
【０１２９】
部分集合５には、言語Ａの単語集合｛ａ_１｝,｛ａ_３｝と、言語Ｂの単語集合｛ｂ_１，ｂ_２｝,｛ｂ_４｝とが含まれる。また、処理対象対応情報（ａ_３−ｂ_２）には、言語Ａの単語集合｛ａ_３｝と、言語Ｂの単語集合｛ｂ_２｝とが含まれる。従って、単語集合対５は、部分集合５の単語集合｛ａ_１｝,｛ａ_３｝および処理対象対応情報の単語集合｛ａ_３｝の和集合と、部分集合５の単語集合｛ｂ_１，ｂ_２｝,｛ｂ_４｝および処理対象対応情報の単語集合｛ｂ_２｝の和集合との対になる。
【０１３０】
つまり、類義関係単語対候補作成部１６は、ステップＳ１１３の処理において、｛ａ_１｝∪｛ａ_３｝∪｛ａ_３｝−｛ｂ_１，ｂ_２｝∪｛ｂ_４｝∪｛ｂ_２｝、すなわち、｛ａ_１，ａ_３｝−｛ｂ_１，ｂ_２，ｂ_４｝という単語集合対５を求め、類義関係単語集合対集合に追加する。そして、類義関係単語対候補作成部１６は、類義関係単語集合対集合から部分集合５を削除する。
【０１３１】
類義関係単語対候補作成部１６は、ステップＳ１１４の処理において、処理対象対応情報（ａ_３−ｂ_２）が単語対応情報の末尾であると判定するため、ステップＳ１１６の処理に進む（不図示）。
【０１３２】
以上をまとめると、図７（ａ）の単語対応情報では、単語対（ａ_１−ｂ_１），（ａ_１−ｂ_２）の間では単語ａ_１が共通する。そして、単語対応情報では、単語対（ａ_１−ｂ_２）に含まれる単語ｂ_２が、単語対（ａ_１−ｂ_２），（ａ_３−ｂ_２）の間で共通する。さらに、単語対応情報では、単語対（ａ_３−ｂ_２）に含まれる単語ａ_３が、単語対（ａ_３−ｂ_４），（ａ_３−ｂ_２）の間で共通する。このように、類義関係単語対候補作成部１６は、単語対応情報の単語対（ａ_１−ｂ_１），（ａ_１−ｂ_２），（ａ_３−ｂ_４），（ａ_３−ｂ_２）の間で、単語ａ_１，ａ_３，ｂ_２が共通することを利用して、単語集合対３，５を含む類義関係単語集合対集合を作成する。
【０１３３】
＜類義関係単語対候補作成処理：Ｓ１１６〜Ｓ１１８の補足説明＞
以下、図９を参照し、図６のステップＳ１１６〜Ｓ１１８の処理を補足説明する。ここでは、図９（ａ）に示すように、類義関係単語集合対集合が、単語集合対３，５を含むこととする。
【０１３４】
類義関係単語対候補作成部１６は、ステップＳ１１６の処理において、単語集合対３を処理対象単語集合対として設定する。また、類義関係単語対候補作成部１６は、この類義関係単語集合対集合から、設定した処理対象単語集合対（単語集合対３）を削除する。
【０１３５】
ここで、処理対象単語集合対（単語集合対３）において、単語集合｛ａ_２｝および単語集合｛ｂ_３｝には、それぞれ１単語しか含まれない。つまり、この処理対象単語集合対において、言語Ａの単語ａ同士、および、言語Ｂの単語ｂ同士を組み合わせることができない。従って、類義関係単語対候補作成部１６は、ステップＳ１１７の処理において、この処理対象単語集合対から類義関係単語対候補を求めることができず、類義関係単語対候補一覧への追加を行わない（不図示）。
【０１３６】
類義関係単語対候補作成部１６は、ステップＳ１１８の処理において、類義関係単語集合対集合に単語集合対５が残っており、類義関係単語集合対集合が空集合でないと判定するため、ステップＳ１１６の処理に戻る（不図示）。
【０１３７】
図９（ｂ）に示すように、ステップＳ１１６の処理において、単語集合対５を処理対象単語集合対として設定する。また、類義関係単語対候補作成部１６は、この類義関係単語集合対集合から、設定した処理対象単語集合対（単語集合対５）を削除する。
【０１３８】
図９（ｃ）に示すように、類義関係単語対候補作成部１６は、処理対象単語集合対において、言語Ａの単語集合｛ａ_１，ａ_３｝に含まれる単語ａ_１，ａ_３を組み合わせることで、類義関係単語対候補（ａ_１−ａ_３）を求め、言語Ａの類義関係単語対候補一覧に追加する。また、類義関係単語対候補作成部１６は、処理対象単語集合対において、言語Ｂの単語集合｛ｂ_１，ｂ_２，ｂ_４｝に含まれる単語ｂ_１，ｂ_２，ｂ_４をそれぞれ組み合わせることで、類義関係単語対候補（ｂ_１−ｂ_２），（ｂ_１−ｂ_４），（ｂ_２−ｂ_４）を求め、言語Ｂの類義関係単語対候補一覧に追加する（ステップＳ１１７）。
【０１３９】
類義関係単語対候補作成部１６は、ステップＳ１１８の処理において、類義関係単語集合対集合に単語集合対が残っておらず、類義関係単語集合対集合が空集合であると判定するため、処理を終了する（不図示）。
【０１４０】
＜類義非類義関係単語対判別処理＞
以下、図１０を参照し、図４のステップＳ１２の処理（類義非類義関係単語対判別処理）について詳細に説明する。
類義非類義関係単語対判別部１７は、文脈ベクタ保持部１２に保持された言語Ａの文脈ベクタ一覧において、先頭の文脈ベクタに対応する対訳付き単語を処理対象単語１として設定する（ステップＳ１２０）。
【０１４１】
類義非類義関係単語対判別部１７は、文脈ベクタ保持部１２に保持された言語Ａの文脈ベクタ一覧において、処理対象単語１の次の文脈ベクタに対応する対訳付き単語を処理対象単語２として設定する（ステップＳ１２１）。
【０１４２】
類義非類義関係単語対判別部１７は、処理対象単語１および処理対象単語２において、互いの基部が同一であるか否かを判定する（ステップＳ１２２）。互いの基部が同一でない場合（ステップＳ１２２でＮｏ）、類義非類義関係単語対判別部１７は、ステップＳ１２３の処理に進む。一方、互いの基部が同一である場合（ステップＳ１２２でＹｅｓ）、類義非類義関係単語対判別部１７は、ステップＳ１２４の処理に進む。
【０１４３】
類義非類義関係単語対判別部１７は、処理対象単語１および処理対象単語２における互いの基部（基部の対）が、類義関係単語対候補保持部１３に保持された言語Ａの類義関係単語対候補一覧に類義関係単語対候補として含まれないか否かを判定する（ステップＳ１２３）。互いの基部が言語Ａの類義関係単語対候補一覧に含まれる場合（ステップＳ１２３でＮｏ）、類義非類義関係単語対判別部１７は、ステップＳ１２４の処理に進む。一方、互いの基部が言語Ａの類義関係単語対候補一覧に含まれない場合（ステップＳ１２３でＹｅｓ）、類義非類義関係単語対判別部１７は、ステップＳ１２６の処理に進む。
【０１４４】
類義非類義関係単語対判別部１７は、処理対象単語１を表す文脈ベクタと、処理対象単語２を表す文脈ベクタとの類義性指標を計算する。そして、類義非類義関係単語対判別部１７は、計算した類義性指標が予め設定した閾値未満であるか否かを判定する（ステップＳ１２４）。類義性指標が閾値未満でない場合（ステップＳ１２４でＮｏ）、類義非類義関係単語対判別部１７は、ステップＳ１２５の処理に進む。一方、類義性指標が閾値未満である場合（ステップＳ１２４でＹｅｓ）、類義非類義関係単語対判別部１７は、ステップＳ１２７の処理に進む。
【０１４５】
類義非類義関係単語対判別部１７は、処理対象単語１と処理対象単語２との対である対訳付き単語の対を、類義非類義関係単語対保持部１４に保持された言語Ａの類義関係単語対一覧に追加する（ステップＳ１２５）。すなわち、ステップＳ１２５の処理を実行した場合、類義非類義関係単語対判別部１７は、対訳付き単語の対が類義関係であると判定したと言える。
【０１４６】
類義非類義関係単語対判別部１７は、処理対象単語１と処理対象単語２との対である対訳付き単語の対を、類義非類義関係単語対保持部１４に保持された言語Ａの非類義関係単語対一覧に追加する（ステップＳ１２６）。
【０１４７】
すなわち、ステップＳ１２６の処理を実行した場合、類義非類義関係単語対判別部１７は、対訳付き単語の対が非類義関係であると判定したと言える。一方、ステップＳ１２５およびステップＳ１２６の処理を何れも実行しない場合、類義非類義関係単語対判別部１７は、対訳付き単語の対が類義関係および非類義関係の何れとも判定しなかったと言える。
【０１４８】
類義非類義関係単語対判別部１７は、処理対象単語２が、文脈ベクタ一覧で末尾の文脈ベクタに対応する対訳付き単語であるか否かを判定する（ステップＳ１２７）。処理対象単語２が末尾でない場合（ステップＳ１２７でＮｏ）類義非類義関係単語対判別部１７は、ステップＳ１２８の処理に進む。一方、処理対象単語２が末尾である場合（ステップＳ１２７でＹｅｓ）類義非類義関係単語対判別部１７は、ステップＳ１２９の処理に進む。
【０１４９】
類義非類義関係単語対判別部１７は、処理対象単語２を、次の文脈ベクタに対応する対訳付き単語に設定し、ステップＳ１２２の処理に戻る。例えば、処理対象単語２が２番目の文脈ベクタに対応する対訳付き単語である場合、類義非類義関係単語対判別部１７は、３番目の文脈ベクタに対応する対訳付き単語を処理対象単語２として設定する（ステップＳ１２８）。
【０１５０】
類義非類義関係単語対判別部１７は、処理対象単語１が、文脈ベクタ一覧で末尾から２番目の文脈ベクタに対応する対訳付き単語であるか否かを判定する（ステップＳ１２９）。処理対象単語１が末尾から２番目でない場合（ステップＳ１２９でＮｏ）類義非類義関係単語対判別部１７は、ステップＳ１３０の処理に進む。一方、処理対象単語２が末尾から２番目である場合（ステップＳ１２９でＹｅｓ）類義非類義関係単語対判別部１７は、処理を終了する。
【０１５１】
類義非類義関係単語対判別部１７は、処理対象単語１を、次の文脈ベクタに対応する対訳付き単語に設定し、ステップＳ１２１の処理に戻る。例えば、処理対象単語１が先頭の文脈ベクタに対応する対訳付き単語である場合、類義非類義関係単語対判別部１７は、２番目の文脈ベクタに対応する対訳付き単語を処理対象単語１として設定する（ステップＳ１３０）。
【０１５２】
なお、類義非類義関係単語対判別部１７は、言語Ａの類義非類義関係単語対判別処理を実行した後、言語Ｂの類義非類義関係単語対判別処理を言語Ａと同様に実行する。
【０１５３】
＜類義非類義関係単語対判別処理：補足説明１＞
以下、図１１を参照し、図１０の類義非類義関係単語対判別処理について、３つの具体例をあげて補足説明する。ここで、図１１（ａ）に示すように、言語Ａの文脈ベクタ一覧には、ｖ（ａ_１^ｂ１），ｖ（ａ_１^ｂ２），ｖ（ａ_２^ｂ３），ｖ（ａ_３^ｂ３）という４個の文脈ベクタが含まれているとする。また、図１１（ｂ）に示すように、言語Ａの類義関係単語対候補一覧には、単語対（ａ_２−ａ_３）が類義関係単語対候補として含まれているとする。
【０１５４】
第１例として、ステップＳ１２０の処理において、処理対象単語１がａ_１^ｂ１に設定され、ステップＳ１２１の処理において、処理対象単語２がａ_１^ｂ２に設定されたケースを説明する。
【０１５５】
類義非類義関係単語対判別部１７は、ステップＳ１２２の処理において、処理対象単語１の基部（ａ_１）と、処理対象単語２の基部（ａ_１）とが互いに同一であると判定するため、ステップＳ１２４の処理に進む。
【０１５６】
類義非類義関係単語対判別部１７は、ステップＳ１２４の処理において、処理対象単語１を表す文脈ベクタｖ（ａ_１^ｂ１）と、処理対象単語２を表す文脈ベクタｖ（ａ_１^ｂ２）との類義性指標を計算する。
【０１５７】
計算した類義性指標が閾値未満でない場合、類義非類義関係単語対判別部１７は、ステップＳ１２５の処理に進む。この場合、類義関係にあると言えるので、類義非類義関係単語対判別部１７は、処理対象単語１，２の対（ａ_１^ｂ１−ａ_１^ｂ２）を類義関係単語対一覧に追加する。
【０１５８】
一方、計算した類義性指標が閾値未満である場合、類義非類義関係単語対判別部１７は、ステップＳ１２７の処理に進む。この場合、類義関係および非類義関係の何れとも判定しないと言えるので、類義非類義関係単語対判別部１７は、処理対象単語１，２の対（ａ_１^ｂ１−ａ_１^ｂ２）を類義関係単語対一覧および非類義関係単語対一覧の何れにも追加しない。
【０１５９】
＜類義非類義関係単語対判別処理：補足説明２＞
第２例として、ステップＳ１２０の処理において、処理対象単語１がａ_１^ｂ１に設定され、ステップＳ１２１の処理において、処理対象単語２がａ_２^ｂ３に設定されたケースを説明する。
【０１６０】
類義非類義関係単語対判別部１７は、ステップＳ１２２の処理において、処理対象単語１の基部（ａ_１）と、処理対象単語２の基部（ａ_２）とが互いに同一でないと判定するため、ステップＳ１２３の処理に進む。
【０１６１】
類義非類義関係単語対判別部１７は、ステップＳ１２３の処理において、処理対象単語１，２の基部の対（ａ_１−ａ_２）が、類義関係単語対候補一覧に類義関係単語対候補として含まれないと判定するため、ステップＳ１２６の処理に進む。
【０１６２】
この場合、非類義関係にあると言えるので、類義非類義関係単語対判別部１７は、ステップＳ１２６の処理において、処理対象単語１，２の対（ａ_１^ｂ１−ａ_２^ｂ３）を非類義関係単語対一覧に追加する。
【０１６３】
＜類義非類義関係単語対判別処理：補足説明３＞
第３例として、ステップＳ１２０の処理において、処理対象単語１がａ_２^ｂ３に設定され、ステップＳ１２１の処理において、処理対象単語２がａ_３^ｂ３に設定されたケースを説明する。
【０１６４】
類義非類義関係単語対判別部１７は、ステップＳ１２２の処理において、処理対象単語１の基部（ａ_２）と、処理対象単語２の基部（ａ_３）とが互いに同一でないと判定するため、ステップＳ１２３の処理に進む。
【０１６５】
類義非類義関係単語対判別部１７は、ステップＳ１２３の処理において、処理対象単語１，２の基部の対（ａ_２−ａ_３）が、類義関係単語対候補一覧に類義関係単語対候補として含まれると判定するため、ステップＳ１２４の処理に進む。
【０１６６】
類義非類義関係単語対判別部１７は、ステップＳ１２４の処理において、処理対象単語１を表す文脈ベクタｖ（ａ_２^ｂ３）と、処理対象単語２を表す文脈ベクタｖ（ａ_３^ｂ３）との類義性指標を計算する。
【０１６７】
計算した類義性指標が閾値未満でない場合、類義非類義関係単語対判別部１７は、ステップＳ１２５の処理に進む。この場合、類義関係にあると言えるので、類義非類義関係単語対判別部１７は、処理対象単語１，２の対（ａ_２^ｂ３−ａ_３^ｂ３）を類義関係単語対一覧に追加する。
【０１６８】
一方、計算した類義性指標が閾値未満である場合、類義非類義関係単語対判別部１７は、ステップＳ１２７の処理に進む。この場合、類義関係および非類義関係の何れとも判定しないと言えるので、類義非類義関係単語対判別部１７は、処理対象単語１，２の対（ａ_２^ｂ３−ａ_３^ｂ３）を類義関係単語対一覧および非類義関係単語対一覧の何れにも追加しない。
【０１６９】
［パラメタ学習装置の動作］
以下、図１２を参照し、パラメタ学習装置３の動作（パラメタ学習処理）について説明する（適宜図１参照）。なお、図１２の各処理は、図３のステップＳ２の処理に相当する。
【０１７０】
パラメタ学習装置３は、類義非類義関係単語対設定部３６によって、言語Ａ，Ｂのそれぞれについて、類義非類義関係単語対保持部１４が保持する類義関係単語対一覧および非類義関係単語対一覧を類義非類義関係単語対保持部３４にコピー（設定）する（ステップＳ２０）。
【０１７１】
パラメタ学習装置３は、言語間文脈整合ベクタ作成部３７によって、文脈ベクタ作成部１５と同様、文脈ベクタ一覧を作成する（ステップＳ２１）。また、パラメタ学習装置３は、言語間文脈整合ベクタ作成部３７によって、語間文脈整合ベクタ一覧を作成する（語間文脈整合ベクタ一覧作成処理、ステップＳ２２）。なお、ステップＳ２１の処理は、図４のステップＳ１０と同様のため、説明を省略する。
【０１７２】
パラメタ学習装置３は、パラメタ学習部３８によって、類義非類義関係単語対保持部３４が保持する類義関係単語対一覧および非類義関係単語対一覧と、言語間文脈整合ベクタ一覧が保持する言語間文脈整合ベクタ一覧とを用いて、パラメタをパラメタ関数によって学習する（ステップＳ２３）。
【０１７３】
＜語間文脈整合ベクタ一覧作成処理＞
以下、図１３を参照し、図１２のステップＳ２２の処理（語間文脈整合ベクタ一覧作成処理）について詳細に説明する。
言語間文脈整合ベクタ作成部３７は、対訳コーパス保持部１１に保持された単語対応情報において、先頭の単語対（ａ−ｂ）を処理対象対応情報として設定する（ステップＳ２２０）。
【０１７４】
言語間文脈整合ベクタ作成部３７は、処理対象対応情報が表す言語Ａの単語ａについて、対訳コーパス中で前後文脈を予め設定された手法（例えば、単語の出現傾向）で検査する。これによって、言語間文脈整合ベクタ作成部３７は、単語ａの文脈素性集合を決定して、この文脈素性集合を示す言語Ａ側の文脈ベクタを作成する。
【０１７５】
また、言語間文脈整合ベクタ作成部３７は、言語Ａと同様、処理対象対応情報が表す言語Ｂの単語ｂについても、言語Ｂ側の文脈ベクタを作成する。そして、言語間文脈整合ベクタ作成部３７は、作成した言語Ａ側の文脈ベクタと、作成した言語Ｂ側の文脈ベクタとの対を言語間文脈整合ベクタとして、言語間文脈整合ベクタ一覧に追加する（ステップＳ２２１）。
【０１７６】
言語間文脈整合ベクタ作成部３７は、処理対象対応情報が単語対応情報の末尾であるか否かを判定する（ステップＳ２２２）。処理対象対応情報が末尾でない場合（ステップＳ２２２でＮｏ）、言語間文脈整合ベクタ作成部３７は、ステップＳ２２３の処理に進む。一方、処理対象対応情報が末尾である場合（ステップＳ２２２でＹｅｓ）、言語間文脈整合ベクタ作成部３７は、処理を終了する。
【０１７７】
言語間文脈整合ベクタ作成部３７は、次の処理対象対応情報を設定する。例えば、処理対象対応情報が先頭の単語対であった場合、言語間文脈整合ベクタ作成部３７は、単語対応情報で２番目の単語対を処理対象対応情報として設定する。その後、言語間文脈整合ベクタ作成部３７は、ステップＳ２２１の処理に戻る（ステップＳ２２３）。
【０１７８】
［類義性尺度計算装置の動作］
以下、図１４を参照し、類義性尺度計算装置５の動作（類義性尺度計算処理）について説明する（適宜図１参照）。なお、図１４の各処理は、図３のステップＳ３の処理に相当する。
【０１７９】
類義性尺度計算装置５は、パラメタ設定部５５によって、言語Ａ，Ｂのそれぞれについて、パラメタ保持部３５が保持するパラメタをパラメタ保持部５１にコピー（設定）する（ステップＳ３０）。
【０１８０】
類義性尺度計算装置５は、文脈ベクタ設定部５６によって、言語Ａ，Ｂのそれぞれについて、言語間文脈整合ベクタ保持部３２が保持する文脈ベクタ一覧を文脈ベクタ保持部５２にコピー（設定）する（ステップＳ３１）。
【０１８１】
類義性尺度計算装置５は、類義性尺度計算部５７によって、パラメタ保持部５１が保持するパラメタＶ_Ａ，Ｖ_Ｂと、文脈ベクタ保持部５２が保持する文脈ベクタと、類義性尺度計算手順保持部５３が保持する類義性尺度の計算手順とを用いて、類義性尺度ｓ_Ａ，ｓ_Ｂを計算する（ステップＳ３２）。
【０１８２】
以上のように、本発明の第１実施形態に係る類義性尺度学習装置１００によれば、正解データ作成装置１が、対訳コーパスから、正確性が高い正解データを自動的に作成する。次に、パラメタ学習装置３は、この正解データを用いて、言語間の文脈の対応関係を保ちながらパラメタを学習する。このため、類義性尺度学習装置１００によれば、正解データの作成コストを低減することができ、パラメタの正確性を高くすることができる。さらに、類義性尺度計算装置５が、パラメタ学習装置３が学習したパラメタを用いて、言語Ａ，Ｂのそれぞれについて、類義性尺度を正確に計算することができる。
【０１８３】
なお、第１実施形態では、図１の類義性尺度学習装置１００が３台の装置で構成される例を説明したが、本発明は、これに限定されない。例えば、正解データ作成装置１およびパラメタ学習装置３を１台の装置で構成して、類義性尺度用パラメタ学習装置２としてもよい。また、例えば、正解データ作成装置１と、パラメタ学習装置３と、類義性尺度計算装置５とを１台の装置で構成して、類義性尺度学習装置１００としてもよい。
【０１８４】
なお、類義性尺度用パラメタ学習装置２は、一般的なコンピュータのハードウェア資源を、前記した各手段として協調動作させる類義性尺度用パラメタ学習プログラムによって実現することもできる。この類義性尺度用パラメタ学習プログラムは、通信回線を介して配布してもよく、ＣＤ−ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
【０１８５】
なお、類義非類義関係単語対判別部１７は、前記したように、ジャッカード係数を用いて類義性指標を計算できる。具体的には、２個の文脈ベクタｖ（ａ_１），ｖ（ａ_２）が与えられたとき、類義非類義関係単語対判別部１７は、下記の式（５）を用いて、類義性指標を計算することができる。なお、式（５）では、ｍｉｎは最小値を返す関数であり、ｍａｘが最大値を返す関数である。
【０１８６】
【数５】

【０１８７】
さらに、類義非類義関係単語対判別部１７は、重み付けジャッカード係数を用いて類義性指標を計算することもできる。このとき、各文脈ベクタは、その長さを１に正規化しておく必要がある
【０１８８】
なお、類義非類義関係単語対判別処理の正確性を高めるため、対訳付き単語を表す文脈ベクタが、対訳コーパス中にできるだけ多く出現することが好ましい。このため、文脈ベクタ作成部１５は、対訳コーパス中に単語対(ａ−ｂ)の対応関係が予め設定された回数以上現れた場合のみ、言語Ａ，Ｂの文脈ベクタｖ（ａ^ｂ），ｖ（ｂ^ａ）を求めてもよい。
【０１８９】
（第２実施形態）
［勾配法パラメタ学習装置の概略］
以下、図１５を参照し、本実施形態の第２実施形態を説明する。第２実施形態では、勾配法を用いたパラメタ学習部３８を「勾配法パラメタ学習装置」として説明する。この勾配法パラメタ学習装置３８は、１台のコンピュータで構成されており、後記する各保持部と、パラメタ更新処理部３００と、複数の計算ノード部５００とを備える。
【０１９０】
パラメタ更新処理部３００は、後記する計算ノード部５００による反復計算の結果に基づいて、パラメタを更新（学習）する。
【０１９１】
計算ノード部５００は、それぞれが、勾配の反復計算を並列に行う。ここで、計算ノード部５００は、勾配の反復計算を行う処理単位となるものであり、例えば、ＣＰＵコアのそれぞれ、または、勾配の反復計算を行うプログラムによって生成されるプロセスのそれぞれである。
【０１９２】
以下、勾配法パラメタ学習装置３８によるパラメタ学習の概略を説明する。ここで、前記したように、評価関数が２関数の線形結合で表されることとする。従って、事例集合が、線形結合した関数と同数、つまり、事例集合Ｘ_１，Ｘ_２という２個存在することになる。また、ｉは反復計算の回数を意味するカウンタである。
【０１９３】
手順１：パラメタ更新処理部３００は、全ての計算ノード部５００に事例集合Ｘ_１，Ｘ_２の何れか１個を割り当てる。ここで、事例集合Ｘ_１に割り当てられた計算ノード部５００を「計算ノード部５００_Ｘ１」とし、事例集合Ｘ_２に割り当てられた計算ノード部５００を「計算ノード部５００_Ｘ２」）とする。
【０１９４】
手順２：パラメタ更新処理部３００は、全ての計算ノード部５００が参照可能なパラメタθを用意し、パラメタθの初期値θ^（０）を適当に決定する（例えば、乱数を初期値θ^（０）として決定する）。
【０１９５】
手順３：ｉ回目の反復計算の結果であるパラメタθをθ^（ｉ）とするとき、計算ノード部５００は、以下の手順（ａ）および手順（ｂ）で表される反復計算を行う。ここでは、計算ノード部５００_Ｘ１の反復計算について説明するが、計算ノード部５００_Ｘ２も同様の反復計算を行う。
手順（ａ）：計算ノード部５００_Ｘ１は、事例集合Ｘ_１から確率的に選択された事例ｘ_１を入力する（例えば、事例集合Ｘ_１からランダムに選択された事例ｘ_１を入力する）。
手順（ｂ）：計算ノード部５００_Ｘ１は、勾配∂ｆ_１（ｘ_１；θ^（ｉ））／∂θ^（ｉ）を計算する。
【０１９６】
手順４：パラメタ更新処理部３００は、計算ノード部５００_Ｘ１，５００_Ｘ２による反復計算の結果を、下記の式（６）を用いて集計することで、ｉ＋１回目の反復計算の結果である新しいパラメタθ^{（ｉ＋１）}を更新（学習）する。
【０１９７】
【数６】

【０１９８】
なお、式（６）において、Ｘ_１^（ｉ）は、計算ノード部５００_Ｘ１が反復計算時間内に処理した事例集合Ｘ_１の部分集合を示す。また、Ｘ_２^（ｉ）は、計算ノード部５００_Ｘ２が反復計算時間内に処理した事例集合Ｘ_２の部分集合を示す。
【０１９９】
手順５：パラメタ更新処理部３００は、ｉをインクリメント（ｉ←ｉ＋１）した後、前記した手順２に戻る。そして、パラメタ更新処理部３００は、この手順２〜手順５の処理を予め設定された終了条件を満たすまで繰り返し、パラメタの学習を行う。
【０２００】
［勾配法パラメタ学習装置の構成］
以下、勾配法パラメタ学習装置３８の構成について説明する。勾配法パラメタ学習装置３８を、言語Ａ，Ｂの単語間の類義性尺度を算出するためのパラメタを学習する装置として説明する。この場合、例えば、事例集合Ｘ_１は、言語Ａで記述された文章に含まれる単語が事例ｘ_１として集合したものとなる。また、例えば、事例集合Ｘ_２は、言語Ｂで記述された文書に含まれる単語が事例ｘ_２として集合したものとなる。
【０２０１】
勾配法パラメタ学習装置３８は、関数保持部１１０と、パラメタ保持部１２０と、事例集合保持部１３０と、勾配計算結果保持部１４０と、設定値保持部１５０と、パラメタ更新処理部３００と、複数の計算ノード部５００とを備える。
【０２０２】
＜保持部＞
関数保持部１１０は、パラメタθの学習に必要な計算手順を保持するメモリ、ハードディスクなどの記憶手段である。具体的には、関数保持部１１０は、学習対象の評価関数を構成する線形結合した関数ｆ_１（ｘ_１；θ^（ｉ））において、勾配∂ｆ_１（ｘ_１；θ^（ｉ））／∂θ^（ｉ）を計算手順として予め保持する。また、関数保持部１１０は、関数ｆ_２（ｘ_２；θ^（ｉ））の勾配∂ｆ_２（ｘ_２；θ^（ｉ））／∂θ^（ｉ）を計算手順として予め保持する。そして、関数保持部１１０は、関数ｆ_１，ｆ_２の線形結合重みｗ_１´，ｗ_２´を予め保持する。
【０２０３】
なお、事例集合Ｘ_１に含まれる事例をｘ_１とし、事例集合Ｘ_１における１番目の事例をｘ_１１とし、事例集合Ｘ_１における２番目の事例をｘ_１２とする。
また、事例集合Ｘ_２に含まれる事例をｘ_２とし、事例集合Ｘ_２における１番目の事例をｘ_２１とし、事例集合Ｘ_２における２番目の事例をｘ_２２とする。
【０２０４】
パラメタ保持部１２０は、パラメタθ^（ｉ）を保持するメモリ、ハードディスクなどの記憶手段である。
事例集合保持部１３０は、事例集合Ｘ_１＝｛ｘ_１１，ｘ_１２,・・・｝，Ｘ_２＝｛ｘ_２１，ｘ_２２,・・・｝を予め保持するメモリ、ハードディスクなどの記憶手段である。また、事例集合保持部１３０は、計算ノード部５００からの事例要求に応じて、この事例要求で指定された事例集合Ｘ_１，Ｘ_２に含まれる事例を確率的（例えば、ランダム）に１個選択して計算ノード部５００に出力する機能を備える。
【０２０５】
勾配計算結果保持部１４０は、全ての計算ノード部５００による反復計算の結果を保持するメモリ、ハードディスクなどの記憶手段である。具体的には、勾配計算結果保持部１４０は、事例集合Ｘ_１，Ｘ_２ごとに、後記する勾配累計値Ｓ_１，Ｓ_２と、後記する勾配累積数ｃ_１，ｃ_２とを保持する。
【０２０６】
設定値保持部１５０は、全ての計算ノード部５００において、反復計算に必要な設定値を保持するメモリ、ハードディスクなどの記憶手段である。具体的には、設定値保持部１５０は、事例集合Ｘ_１，Ｘ_２ごとに、後記する計算ノード部５００の割当数（個数）ｎ_１，ｎ_２を保持する。また、設定値保持部１５０は、後記する計算ノード部５００の割当情報を設定値として保持する。また、設定値保持部１５０は、事例集合Ｘ_１，Ｘ_２ごとに、事例ｘ_１，ｘ_２の１個あたりの処理時間ｔ_１，ｔ_２を予め保持する。この処理時間ｔ_１，ｔ_２は、学習実験を繰り返し行い、反復計算の待ち時間が少なくなる値を手動で計算しておく。そして、設定値保持部１５０は、一回の反復計算を行う時間を示す反復計算時間を予め保持する。さらに、設定値保持部１５０は、確率勾配法の計算に必要な更新重みλを予め保持する。
【０２０７】
＜パラメタ更新処理部＞
パラメタ更新処理部３００は、パラメタ初期化手段３１０と、計算ノード部設定手段３２０と、勾配計算結果初期化手段３３０と、反復計算開始指示手段３４０と、反復計算終了指示手段３５０と、パラメタ更新手段３６０と、終了判定手段３７０とを備える。
【０２０８】
パラメタ初期化手段３１０は、パラメタθの初期値θ^（０）を適当に決定して、この初期値θ^（０）をパラメタ保持部１２０に保持する。ここで、パラメタ初期化手段３１０は、例えば、乱数を発生させて、この乱数を初期値θ^（０）として決定する。
【０２０９】
計算ノード部設定手段３２０は、事例集合Ｘ_１，Ｘ_２ごとの事例数の比と、事例集合Ｘ_１，Ｘ_２ごとに予め設定された事例の１個あたりの処理時間ｔ_１，ｔ_２とに基づいて、事例集合Ｘ_１，Ｘ_２ごとに反復計算を行う計算ノード部５００の割当数（個数）ｎ_１，ｎ_２を算出する。ここで、計算ノード部設定手段３２０は、計算ノード部５００の割当数ｎ_１，ｎ_２を処理時間ｔ_１，ｔ_２で除算した値の比と、事例数の比とからなる等式を解いて、割当数ｎ_１，ｎ_２を算出する。そして、計算ノード部設定手段３２０は、算出した計算ノード部の個数ｎ_１，ｎ_２に応じて、計算ノード部５００のそれぞれに事例集合Ｘ_１，Ｘ_２を１個割り当てた後、各計算ノード部５００に割り当てた事例集合Ｘ_１，Ｘ_２を示す割当情報を生成する。その後、計算ノード部設定手段３２０は、算出した割当数ｎ_１，ｎ_２と、生成した割当情報とを設定値保持部１５０に保持すると共に、この割当情報を全ての計算ノード部５００に出力する。なお、計算ノード部設定手段３２０による割り当ての具体例は、後記する。
【０２１０】
勾配計算結果初期化手段３３０は、勾配計算結果保持部１４０に保持された勾配累計値Ｓ_１，Ｓ_２と、勾配累積数ｃ_１，ｃ_２とをそれぞれ「０」に初期化する。
【０２１１】
反復計算開始指示手段３４０は、全ての計算ノード部５００に対して、反復計算の開始を指示する反復計算開始指示を出力する。具体的には、反復計算開始指示手段３４０は、図示を省略したタイムカウンタを「０」に初期化し、これと同時に、反復計算開始指令を全ての計算ノード部５００に出力する。また、反復計算開始指示手段３４０は、反復計算開始指令を出力した後、タイムカウンタをカウントアップ（更新）する。
【０２１２】
反復計算終了指示手段３５０は、全ての計算ノード部５００に対して、反復計算の終了を指示する反復計算終了指示を出力する。具体的には、反復計算開始指示手段３４０は、タイムカウンタが設定値保持部１５０に保持された反復計算時間を超えたとき、反復計算終了指示を全ての計算ノード部５００に出力する。
【０２１３】
パラメタ更新手段３６０は、全ての計算ノード部５００による反復計算の結果に基づいて、パラメタ保持部１２０が保持するパラメタθ^（ｉ）を更新する。具体的には、パラメタ更新手段３６０は、勾配計算結果保持部１４０が保持する勾配累計値Ｓ_１，Ｓ_２および勾配累積数ｃ_１，ｃ_２と、関数保持部１１０が保持する線形結合重みｗ_１´，ｗ_２´と、設定値保持部１５０が保持する更新重みλとを用いて、下記の式（７）に示すように、パラメタθ^（ｉ）を更新する。
【０２１４】
【数７】

【０２１５】
終了判定手段３７０は、予め設定された終了条件を満たすか否かを判定する。終了判定手段３７０によって終了条件を満たすと判定された場合、パラメタ更新処理部３００は、パラメタの学習を終了する。一方、終了判定手段３７０によって終了条件を満たさないと判定された場合、パラメタ更新処理部３００は、パラメタの学習を継続する。ここで、終了条件としては、例えば、予め設定した反復上限回数よりも反復計算の回数が多くなること、または、パラメタ保持部１２０に保持されたパラメタが一定時間以上更新されないことがあげられる。
【０２１６】
＜計算ノード部＞
計算ノード部５００は、初期化手段５１０と、反復計算開始判定手段５２０と、パラメタ入力手段５３０と、事例入力手段５４０と、勾配計算手段５５０と、勾配累積手段５６０と、反復計算終了判定手段５７０とを備える。
【０２１７】
初期化手段５１０は、計算ノード部５００の初期化処理として、パラメタ更新処理部３００から入力された割当情報を参照して、この計算ノード部５００に何れの事例集合が割り当てられたか判定して、計算手順を入力する。例えば、初期化手段５１０は、この計算ノード部５００に事例集合Ｘ_１が割り当てられた場合、関数保持部１１０から、割り当てられた事例集合Ｘ_１に対応する勾配∂ｆ_１（ｘ_１；θ^（ｉ））／∂θ^（ｉ）を計算手順として入力する。また、例えば、初期化手段５１０は、この計算ノード部５００に事例集合Ｘ_２が割り当てられた場合、関数保持部１１０から、割り当てられた事例集合Ｘ_２に対応する勾配∂ｆ_２（ｘ_２；θ^（ｉ））／∂θ^（ｉ）を計算手順として入力する。
【０２１８】
反復計算開始判定手段５２０は、反復計算を開始するか否かを判定する。具体的には、反復計算開始判定手段５２０は、パラメタ更新処理部３００から反復計算開始指示が入力されたとき、反復計算を開始すると判定する。この場合、後記するパラメタ入力手段５３０、事例入力手段５４０、勾配計算手段５５０および勾配累積手段５６０が、その処理を開始する。
【０２１９】
一方、反復計算開始判定手段５２０は、パラメタ更新処理部３００から反復計算開始指示が入力されない場合、反復計算を開始しないと判定する。この場合、計算ノード部５００は、反復計算開始指示が入力されるまで待機する。
【０２２０】
パラメタ入力手段５３０は、パラメタ保持部１２０からパラメタθ^（ｉ）を入力する。
【０２２１】
事例入力手段５４０は、事例集合保持部１３０から、計算ノード部設定手段３２０によって割り当てられた事例集合に含まれる事例を入力する。具体的には、事例入力手段５４０は、パラメタ更新処理部３００から入力された割当情報を参照して、この計算ノード部５００に何れの事例集合が割り当てられたか判定する。そして、事例入力手段５４０は、割り当てられた事例集合が指定された事例要求を生成して、この事例要求を事例集合保持部１３０に出力する。
【０２２２】
例えば、事例入力手段５４０は、この計算ノード部５００に事例集合Ｘ_１が割り当てられた場合、事例集合Ｘ_１が指定された事例要求を生成して事例集合保持部１３０に出力する。この場合、事例入力手段５４０は、事例集合保持部１３０から、事例集合Ｘ_１から選択された事例ｘ_１が１個入力される。また、例えば、事例入力手段５４０は、この計算ノード部５００に事例集合Ｘ_２が割り当てられた場合、事例集合Ｘ_２が指定された事例要求を生成して事例集合保持部１３０に出力する。この場合、事例入力手段５４０は、事例集合保持部１３０から、事例集合Ｘ_２から選択された事例ｘ_２が１個入力される。
【０２２３】
勾配計算手段５５０は、事例入力手段５４０に入力した事例を用いて、事例の勾配を反復計算する。例えば、勾配計算手段５５０は、この計算ノード部５００に事例集合Ｘ_１が割り当てられた場合、事例入力手段５４０に入力された事例ｘ_１と、パラメタ入力手段５３０に入力されたパラメタθ^（ｉ）とを用いて、初期化手段５１０に入力された勾配∂ｆ_１（ｘ_１；θ^（ｉ））／∂θ^（ｉ）を計算する。また、例えば、勾配計算手段５５０は、この計算ノード部５００に事例集合Ｘ_２が割り当てられた場合、事例入力手段５４０に入力された事例ｘ_２と、パラメタ入力手段５３０に入力されたパラメタθ^（ｉ）とを用いて、初期化手段５１０に入力された勾配∂ｆ_２（ｘ_２；θ^（ｉ））／∂θ^（ｉ）を計算する。
【０２２４】
勾配累積手段５６０は、勾配計算手段５５０によって計算された事例の勾配を累積した勾配累計値を反復計算の結果として算出する。また、勾配累積手段５６０は、勾配計算結果保持部１４０に保持されている勾配累積数に「１」を加算する。
【０２２５】
例えば、勾配累積手段５６０は、この計算ノード部５００に事例集合Ｘ_１が割り当てられた場合、勾配計算手段５５０が計算した勾配∂ｆ_１（ｘ_１；θ^（ｉ））／∂θ^（ｉ）を、勾配計算結果保持部１４０に保持されている勾配累計値Ｓ_１に加算する。このとき、勾配累積手段５６０は、勾配計算結果保持部１４０に保持されている勾配累積数ｃ_１に「１」を加算する。また、例えば、勾配累積手段５６０は、この計算ノード部５００に事例集合Ｘ_２が割り当てられた場合、勾配計算手段５５０が計算した勾配∂ｆ_２（ｘ_２；θ^（ｉ））／∂θ^（ｉ）を、勾配計算結果保持部１４０に保持されている勾配累計値Ｓ_２に加算する。このとき、勾配累積手段５６０は、勾配計算結果保持部１４０に保持されている勾配累積数ｃ_２に「１」を加算する。
【０２２６】
反復計算終了判定手段５７０は、反復計算を終了するか否かを判定する。具体的には、反復計算終了判定手段５７０は、パラメタ更新処理部３００から反復計算終了指示が入力されたとき、反復計算を終了すると判定する。この場合、計算ノード部５００は、処理を終了する。
【０２２７】
一方、反復計算終了判定手段５７０は、パラメタ更新処理部３００から反復計算終了指示が入力されない場合、反復計算を終了しないと判定する。この場合、事例入力手段５４０、勾配計算手段５５０および勾配累積手段５６０は、その処理を反復して行う。言い換えるなら、反復計算開始指示が入力されてから反復計算終了指示が入力されるまでの間、事例入力手段５４０、勾配計算手段５５０および勾配累積手段５６０は、その処理を反復して行うことになる。
【０２２８】
＜計算ノード部設定手段による割り当て＞
以下、計算ノード部設定手段３２０による割り当てについて、その具体例を説明する。ここで、事例集合Ｘ_１には１００個の事例ｘ_１が含まれ、事例集合Ｘ_２には２００個の事例ｘ_２が含まれるとする。また、事例ｘ_１の１個あたりの処理時間ｔ_１が１（秒）であり、事例ｘ_２の１個あたりの処理時間ｔ_２が２（秒）であるとする。さらに、勾配法パラメタ学習装置３８は、１０個の計算ノード部５００を備えるとする。
【０２２９】
まず、計算ノード部設定手段３２０は、事例集合保持部１３０を参照し、事例集合Ｘ_１に含まれる事例ｘ_１の個数をカウントし、事例集合Ｘ_１の事例数｜Ｘ_１｜を求める。また、計算ノード部設定手段３２０は、事例集合Ｘ_２に含まれる事例ｘ_２の個数をカウントし、事例集合Ｘ_２の事例数｜Ｘ_２｜を求める。
【０２３０】
次に、計算ノード部設定手段３２０は、事例集合Ｘ_１で反復計算を行う計算ノード部５００の割当数ｎ_１と、事例集合Ｘ_２で反復計算を行う計算ノード部５００の割当数ｎ_２とを算出する。つまり、計算ノード部設定手段３２０は、下記の式（８）に示すように、事例数の比｜Ｘ_１｜：｜Ｘ_２｜と、処理時間ｔ_１，ｔ_２とに基づいて、割当数ｎ_１，ｎ_２を算出する。より具体的には、割当数ｎ_１を処理時間ｔ_１で除算した値と、割当数ｎ_２を処理時間ｔ_２で除算した値との比を、式（８）の左辺とする。そして、計算ノード部設定手段３２０は、式（８）の左辺と、事例数の比｜Ｘ_１｜：｜Ｘ_２｜である式（８）の右辺との等式を解いて、割当数ｎ_１，ｎ_２を求める。
【０２３１】
【数８】

【０２３２】
例えば、前記した値を式（８）に代入すると、式（９）に示すようになる。この場合、計算ノード部設定手段３２０は、式（９）より、ｎ_１：ｎ_２＝４：１を求め、計算ノード部５００が１０個であるため、割当数ｎ_１＝２、および、割当数ｎ_２＝８をそれぞれ算出する。
【０２３３】
【数９】

【０２３４】
次に、計算ノード部設定手段３２０は、算出した割当数ｎ_１，ｎ_２に応じて、計算ノード部５００のそれぞれに事例集合Ｘ_１，Ｘ_２の一方を割り当てる。前記した例では、計算ノード部設定手段３２０は、１０個の計算ノード部５００のうち、２個の計算ノード部５００を事例集合Ｘ_１に割り当てると共に、８個の計算ノード部５００を事例集合Ｘ_２に割り当てる。ここで、計算ノード部５００の演算速度が同一であると仮定するならば、計算ノード部設定手段３２０は、何れの計算ノード部５００を事例集合Ｘ_１または事例集合Ｘ_２に割り当ててもよい。例えば、計算ノード部設定手段３２０は、１個目および２個目の計算ノード部５００を事例集合Ｘ_１に割り当てて、３個目から１０個目までの計算ノード部５００を事例集合Ｘ_２に割り当てるというように、順番に割り当てを行うことができる。また、例えば、計算ノード部設定手段３２０は、２個の計算ノード部５００をランダムに選択して、それら２個の計算ノード部５００を事例集合Ｘ_１に割り当てて、残り８個の計算ノード部５００を事例集合Ｘ_２に割り当てるというように、ランダムな割り当てを行うこともできる。
【０２３５】
次に、計算ノード部設定手段３２０は、例えば、１個目および２個目の計算ノード部５００を事例集合Ｘ_１に割り当てて、３個目から１０個目までの計算ノード部５００を事例集合Ｘ_２に割り当てたことを示す割当情報を生成する。最後に、計算ノード部設定手段３２０は、割当数ｎ_１，ｎ_２および割当情報を設定値保持部１５０に保持すると共に、この割当情報を全ての計算ノード部５００に出力する。
【符号の説明】
【０２３６】
１正解データ作成装置
１１対訳コーパス保持部
１２文脈ベクタ保持部
１３類義関係単語対候補保持部
１４類義非類義関係単語対保持部
１５文脈ベクタ作成部
１６類義関係単語対候補作成部
１７類義非類義関係単語対判別部
１８入出力インタフェース
３パラメタ学習装置
３１対訳コーパス保持部
３２言語間文脈整合ベクタ保持部
３３類義性尺度計算手順保持部
３４類義非類義関係単語対保持部
３５パラメタ保持部
３６類義非類義関係単語対設定部
３７言語間文脈整合ベクタ作成部
３８パラメタ学習部（勾配法パラメタ学習装置）
３９入出力インタフェース
５類義性尺度計算装置
５１パラメタ保持部
５２文脈ベクタ保持部
５３類義性尺度計算手順保持部
５４類義性尺度保持部
５５パラメタ設定部
５６文脈ベクタ設定部
５７類義性尺度計算部
５８入出力インタフェース
１００類義性尺度学習装置
１１０関数保持部
１２０パラメタ保持部
１３０事例集合保持部
１４０勾配計算結果保持部
１５０設定値保持部
３００パラメタ更新処理部
３１０パラメタ初期化手段
３２０計算ノード部設定手段
３３０勾配計算結果初期化手段
３４０反復計算開始指示手段
３５０反復計算終了指示手段
３６０パラメタ更新手段
３７０終了判定手段
５００計算ノード部
５１０初期化手段
５２０反復計算開始判定手段
５３０パラメタ入力手段
５４０事例入力手段
５５０勾配計算手段
５６０勾配累積手段
５７０反復計算終了判定手段

【特許請求の範囲】
【請求項１】
２言語間の対訳である対訳コーパスを用いて、言語ごとに、単語間の類義性を示す類犠牲尺度の算出に用いるパラメタを学習する類義性尺度用パラメタ学習装置であって、
前記対訳コーパスと、前記２言語間の単語の対訳である単語対が含まれる単語対応情報とを予め保持する対訳コーパス保持部と、
前記単語対応情報の単語対に含まれる一方の言語の単語である基部と他方の言語の単語である対訳部とを前記対訳コーパスに有する対訳付き単語について、前記対訳付き単語の文脈ベクタが格納された文脈ベクタ一覧を前記対訳コーパスの文脈素性によって作成する文脈ベクタ作成部と、
前記単語対応情報の単語対に含まれる前記２言語間の単語のうち何れか一方が共通する単語集合対を求め、前記一方の言語および前記他方の言語ごとに、当該単語集合対に含まれる単語同士を組み合わせることで、類義関係候補の単語対である類義関係単語対候補が格納された類義関係単語対候補一覧を作成する類義関係単語対候補作成部と、
前記類義関係単語対候補一覧および前記文脈ベクタ一覧を用いて、２個の前記文脈ベクタに対応する対訳付き単語の対が、類義関係となるか、非類義関係となるか、または、前記類義関係および前記非類義関係の何れにも該当しないかを予め設定した基準によって判定し、前記類義関係と判定された対訳付き単語の対が格納された類義関係単語対一覧と、前記非類義関係と判定された対訳付き単語の対が格納された非類義関係単語対一覧とを作成する類義非類義関係単語対判別部と、
前記２言語間における前記文脈ベクタの対である言語間文脈整合ベクタが格納された言語間文脈整合ベクタ一覧を作成する言語間文脈整合ベクタ作成部と、
前記類義関係単語対一覧と、前記非類義関係単語対一覧と、前記言語間文脈整合ベクタ一覧とを用いて、前記パラメタを予め定義したパラメタ関数によって学習するパラメタ学習部と、
を備えることを特徴とする類義性尺度用パラメタ学習装置。
【請求項２】
前記類義非類義関係単語対判別部は、前記２個の文脈ベクタに対応する対訳付き単語の対において、互いの前記基部が同一であるか否かを判定し、
前記互いの基部が同一の場合、前記２個の文脈ベクタの類義性指標を算出すると共に、当該類義性指標が予め設定された閾値未満であれば、前記対訳付き単語の対が前記類義関係および前記非類義関係の何れにも該当しないと判定し、当該類義性指標が前記閾値未満でなければ、前記対訳付き単語の対が前記類義関係となると判定し、
前記互いの基部が同一でない場合、前記互いの基部が前記類義関係単語対候補一覧に含まれているか否かを判定し、
前記互いの基部が前記類義関係単語対候補一覧に含まれない場合、前記前記対訳付き単語の対が前記非類義関係となると判定し、
前記互いの基部が前記類義関係単語対候補一覧に含まれる場合、前記２個の文脈ベクタの類義性指標を算出すると共に、当該類義性指標が前記閾値未満であれば、前記対訳付き単語の対が前記類義関係および前記非類義関係の何れにも該当しないと判定し、当該類義性指標が前記閾値未満でなければ、前記対訳付き単語の対が前記類義関係となると判定することを特徴とする請求項１または請求項２に記載の類義性尺度用パラメタ学習装置。
【請求項３】
前記パラメタ学習部は、
前記一方の言語における単語ａ_１，ａ_２の文脈ベクタがｖ（ａ_１），ｖ（ａ_２）と表されるときに、前記単語ａ_１，ａ_２の類義性尺度ｓ_Ａ（ａ_１，ａ_２）が下記の式（１）で定義され、前記他方の言語における単語ｂ_１，ｂ_２の文脈ベクタがｖ（ｂ_１），ｖ（ｂ_２）と表されるときに、前記単語ｂ_１，ｂ_２の類義性尺度ｓ_Ｂ（ｂ_１，ｂ_２）が下記の式（２）で定義され、前記言語間文脈整合ベクタ（ｗ_Ａ，ｗ_Ｂ）の整合度ｃ（ｗ_Ａ，ｗ_Ｂ）が下記の式（３）で定義されるときに、
下記の式（４）で定義される前記パラメタ関数を最小化する下記の式（１）のパラメタＶ_Ａおよび下記の式（２）のＶ_Ｂを学習することを特徴とする請求項１から請求項３の何れか一項に記載の類義性尺度用パラメタ学習装置。
【数１】

【数２】

【数３】

【数４】

ただし、前記した各式では、Ｗは前記言語間文脈整合ベクタ一覧であり、Ｙ_Ａは前記単語ａ_１，ａ_２が前記類義関係単語対一覧に含まれるときに真を返す関数、Ｎ_Ａは前記単語ａ_１，ａ_２が前記非類義関係単語対一覧に含まれるときに真を返す関数、Ｙ_Ｂは前記単語ｂ_１，ｂ_２が前記類義関係単語対一覧に含まれるときに真を返す関数、Ｎ_Ｂは前記単語ｂ_１，ｂ_２が前記非類義関係単語対一覧に含まれるときに真を返す関数、α，β_Ａ，β_Bは正の実数で予め設定した係数であり、ｍ_Ａは前記一方の言語におけるマージンであり、ｍ_Ｂは前記他方の言語におけるマージンであり、ｍｉｎは最小値を返す関数である。
【請求項４】
２言語間の対訳である対訳コーパスを用いて、言語ごとに、単語間の類義性を示す類犠牲尺度の算出に用いるパラメタを学習するために、前記対訳コーパスと、前記２言語間の単語の対訳である単語対が含まれる単語対応情報とを予め保持する対訳コーパス保持部を備えるコンピュータを、
前記単語対応情報の単語対に含まれる一方の言語の単語である基部と他方の言語の単語である対訳部とを前記対訳コーパスに有する対訳付き単語について、前記対訳付き単語の文脈ベクタが格納された文脈ベクタ一覧を前記対訳コーパスの文脈素性によって作成する文脈ベクタ作成部、
前記単語対応情報の単語対に含まれる前記２言語間の単語のうち何れか一方が共通する単語集合対を求め、前記一方の言語および前記他方の言語ごとに、当該単語集合対に含まれる単語同士を組み合わせることで、類義関係候補の単語対である類義関係単語対候補が格納された類義関係単語対候補一覧を作成する類義関係単語対候補作成部、
前記類義関係単語対候補一覧および前記文脈ベクタ一覧を用いて、２個の前記文脈ベクタに対応する対訳付き単語の対が、類義関係となるか、非類義関係となるか、または、前記類義関係および前記非類義関係の何れにも該当しないかを予め設定される基準によって判定し、前記類義関係と判定された対訳付き単語の対が格納された類義関係単語対一覧と、前記非類義関係と判定された対訳付き単語の対が格納された非類義関係単語対一覧とを作成する類義非類義関係単語対判別部、
前記２言語間における前記文脈ベクタの対である言語間文脈整合ベクタが格納された言語間文脈整合ベクタ一覧を作成する言語間文脈整合ベクタ作成部、
前記類義関係単語対一覧と、前記非類義関係単語対一覧と、前記言語間文脈整合ベクタ一覧とを用いて、前記パラメタを予め定義したパラメタ関数によって学習するパラメタ学習部、
として機能させるための類義性尺度用パラメタ学習プログラム。
【請求項５】
請求項１に記載の類義性尺度用パラメタ学習装置と、
当該類義性尺度用パラメタ学習装置が学習したパラメタを用いて、前記類義性尺度を計算する類義性尺度計算部と、
を備えることを特徴とする類義性尺度学習装置。

【図１】