説明

用語対訳抽出装置、用語対訳抽出方法、および用語対訳辞書の生産方法

【課題】従来、正しい用語対訳を自動抽出する場合、学習データや対訳辞書が必要であった。
【解決手段】対訳データベースから1以上の品詞情報パターンに合致する1以上の対訳フレーズを取得する対訳フレーズ取得部と、対訳フレーズ取得部が取得した1以上の対訳フレーズから、第一言語の用語と用語に対応する第二言語の用語の組の候補である1以上の用語対訳候補を取得する用語対訳候補取得部と、2以上の異なる方法により、2以上の各用語対訳候補に対して、スコアを算出し、2以上のスコアを取得するスコア算出部と、2以上のスコアを用いて、2以上の用語対訳候補のうちの一部を選択して蓄積する用語対訳蓄積部とを具備する用語対訳抽出装置により、正しい用語対訳を自動抽出する場合、学習データや対訳辞書が不要である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、用語の対訳である用語対訳を自動取得する用語対訳抽出装置等に関するものである。
【背景技術】
【0002】
用語の対訳は、機械翻訳などの自然言語処理の分野に留まらず、翻訳支援など広い分野で必要とされている。これらの用語対訳を人手で整備すると大変なコストがかかるため、用語対訳を自動抽出する研究が行われてきた。
【0003】
その用語対訳を自動抽出する従来技術において、フレーズテーブルから分類器によって正しい用語対訳を得る手法がある(非特許文献1参照)。この手法では対訳コーパスからフレーズテーブルを獲得し、対訳リストを作成する。次に、対訳コーパスの原言語側から複合名詞リストを作成する。この2つのリストで原言語側のフレーズが重複しているものを用語対訳候補とする。フレーズテーブルを用いて得られる用語対訳候補には信頼度の低いものも含まれている。そこで、従来手法において、正しい用語対訳であるか判別するために、学習データを予め用意して分類器を学習させている。なお、フレーズテーブルとは単語列の対訳関係とその翻訳確率などの集合であり、フレーズベース統計的機械翻訳の訓練過程で生成される。
【0004】
また、既存の対訳辞書を用いたものとして、要素合成法がある(非特許文献2参照)。この手法は用語を構成する単語・形態素毎に既存辞書から訳語を獲得し、これらを結合することで用語対訳を獲得する。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Masaki Itagaki, Takako Aikawa, and Xiaodong He. Automatic validation of terminology transla-tion consistency with statistical method. In Pro-ceedings of MT summit XI, pp. 269-274, 2007.
【非特許文献2】外池昌嗣, 宇津呂武仁, 佐藤理史. ウェブから収集した専門分野コーパスと要素合成法を用いた専門用語訳語推定. 自然言語処理, Vol. 14, No. 2, pp.33-68, 2007.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来の手法において、学習データや対訳辞書が必要になり、人手やコストがかかっていた。また、従来の手法において、正しい用語対訳を精度高く自動抽出できなかった。
【課題を解決するための手段】
【0007】
本発明は、上記課題に鑑み、以下のような解決手段を有する。
本第一の発明の用語対訳抽出装置は、第一言語のフレーズとフレーズを構成する各用語の品詞情報とを有する第一フレーズ情報と、第一言語のフレーズの第二言語の訳である第二言語のフレーズとフレーズを構成する各用語の品詞情報とを有する第二フレーズ情報とを対応付けて有する1以上の対訳フレーズを格納し得る対訳データベースと、1以上の品詞情報を有するパターンである1以上の品詞情報パターンを格納し得る品詞情報パターン格納部と、対訳データベースから、1以上の品詞情報パターンに合致する1以上の対訳フレーズを取得する対訳フレーズ取得部と、対訳フレーズ取得部が取得した1以上の対訳フレーズから、第一言語の用語と用語に対応する第二言語の用語の組の候補である1以上の用語対訳候補を取得する用語対訳候補取得部と、2以上の異なる方法により、2以上の各用語対訳候補に対して、スコアを算出し、2以上のスコアを取得するスコア算出部と、2以上のスコアを用いて、2以上の用語対訳候補のうちの一部を選択して蓄積する用語対訳蓄積部とを具備する用語対訳抽出装置である。
【0008】
かかる構成により、学習データや対訳辞書を必要とせずに、正しい用語対訳を抽出できる。また、正しい用語対訳を精度高く自動抽出できる。
【0009】
また、本第二の発明の用語対訳抽出装置は、第一の発明に対して、第一言語の文と文の第二言語の訳文である第二言語の文とを対応付けて有する1以上の対訳文を格納し得る対訳コーパスと、1以上の各対訳文が有する第一言語の文と第二言語の文とに対して、構造解析を行い、第一言語の文を構成する1以上の各用語と、第二言語の文を構成する1以上の各用語との対応に関する情報である対応情報を取得する対応情報取得部とをさらに具備し、スコア算出部は、対訳コーパスに格納されている1以上の対訳文から、2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語の両方が出現する対訳文の数である出現文数を取得する出現文数取得手段と、対応情報取得部が取得した対応情報から、2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語とが対応する対訳文の数を取得する対訳文の数である対応文数を取得する対応文数取得手段と、対応情報取得部が取得した対応情報が対応しないことを示す情報である場合、対応情報に対する用語対訳候補が有する対応しない用語が出現する文の数である用語出現数を、対訳コーパスから取得する用語出現数取得手段と、2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語の両方が出現するが、対応しない対訳文の数である未対応文数を、対訳コーパスから取得する未対応文数取得手段と、出現文数と用語出現数が大きいほどスコアが小さくなるように、かつ対応文数と未対応文数が大きいほどスコアが大きくなるように、スコアを算出するスコア算出手段とを具備し、2以上の異なる方法のうちの一の方法は、出現文数取得手段と対応文数取得手段と用語出現数取得手段と未対応文数取得手段とスコア算出手段とを用いたスコアの算出方法である用語対訳抽出装置である。
【0010】
かかる構成により、学習データや対訳辞書を必要とせずに、正しい用語対訳を抽出できる。また、正しい用語対訳を極めて精度高く自動抽出できる。
【0011】
また、本第三の発明の用語対訳抽出装置は、第一言語の文と文の第二言語の訳文である第二言語の文とを対応付けて有する1以上の対訳文を格納し得る対訳コーパスと、第一言語のフレーズとフレーズを構成する各用語の品詞情報とを有する第一フレーズ情報と、第一言語のフレーズの第二言語の訳である第二言語のフレーズとフレーズを構成する各用語の品詞情報とを有する第二フレーズ情報とを対応付けて有する1以上の対訳フレーズを格納し得る対訳データベースと、1以上の品詞情報を有するパターンである1以上の品詞情報パターンを格納し得る品詞情報パターン格納部と、1以上の各対訳文が有する第一言語の文と第二言語の文とに対して、構造解析を行い、第一言語の文を構成する1以上の各用語と、第二言語の文を構成する1以上の各用語との対応に関する情報である対応情報を取得する対応情報取得部と、1以上の品詞情報パターンに合致する1以上の対訳フレーズを取得する対訳フレーズ取得部と、対訳フレーズ取得部が取得した1以上の対訳フレーズから、第一言語の用語と用語に対応する第二言語の用語の組の候補である1以上の用語対訳候補を取得する用語対訳候補取得部と、1以上の各用語対訳候補に対して、スコアを算出するスコア算出部と、スコア算出部が算出した1以上の各用語対訳候補の各スコアを用いて、1以上の用語対訳候補のうちの一部を選択して蓄積する用語対訳蓄積部とを具備し、をさらに具備し、スコア算出部は、対訳コーパスに格納されている1以上の対訳文から、2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語の両方が出現する対訳文の数である出現文数を取得する出現文数取得手段と、対応情報取得部が取得した対応情報から、2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語とが対応する対訳文の数を取得する対訳文の数である対応文数を取得する対応文数取得手段と、対応情報取得部が取得した対応情報が対応しないことを示す用語対訳候補が有する対応しない用語が出現する文の数である用語出現数を、対訳コーパスから取得する用語出現数取得手段と、2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語の両方が出現するが、対応しない対訳文の数である未対応文数を、対訳コーパスから取得する未対応文数取得手段と、出現文数と用語出現数が大きいほどスコアが小さくなるように、かつ対応文数と未対応文数が大きいほどスコアが大きくなるように、スコアを算出するスコア算出手段とを具備する用語対訳抽出装置である。
【0012】
かかる構成により、学習データや対訳辞書を必要とせずに、正しい用語対訳を抽出できる。また、正しい用語対訳を極めて精度高く自動抽出できる。
【発明の効果】
【0013】
本発明による用語対訳抽出装置によれば、学習データや対訳辞書を必要とせずに、正しい用語対訳を抽出できる。
【図面の簡単な説明】
【0014】
【図1】実施の形態1における用語対訳抽出装置のブロック図
【図2】実施の形態1におけるTJ,Eの語対応を示す図
【図3】実施の形態1における第二スコア算出手段が取得する分割表を示す図
【図4】実施の形態1における用語対訳抽出装置の動作について説明するフローチャート
【図5】実施の形態1におけるスコア算出処理について説明するフローチャート
【図6】実施の形態1における評価結果を示す図
【図7】実施の形態1における用語対訳候補に対する日本語側の構成要素数を示すグラフ
【図8】実施の形態1における用語対訳候補の出現頻度の変化を示すグラフ
【図9】実施の形態1における実験結果の例を示す図
【図10】実施の形態2における用語対訳抽出装置のブロック図
【図11】上記実施の形態におけるコンピュータシステムの概観図
【図12】上記実施の形態におけるコンピュータシステムのブロック図
【発明を実施するための形態】
【0015】
以下、用語対訳抽出装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0016】
(実施の形態1)
本実施の形態において、学習データや対訳辞書を必要とせずに、用語対訳を自動抽出できる用語対訳抽出装置について説明する。また、本実施の形態において、2以上(具体的には3つ)の異なる方法により、2以上の各用語対訳候補に対して、2以上のスコアを算出し、当該2以上のスコアに基づいて、一部の用語対訳候補を選択して取得し、蓄積する用語対訳抽出装置について説明する。
【0017】
図1は、本実施の形態における用語対訳抽出装置1の内部構造を示すブロック図である。用語対訳抽出装置1は、対訳コーパス11、対訳データベース12、品詞情報パターン格納部13、対訳データベース生成部14、対応情報取得部15、対訳フレーズ取得部16、用語対訳候補取得部17、スコア算出部18、用語対訳蓄積部19、および用語対訳データベース20を具備する。
【0018】
また、スコア算出部18は、出現文数取得手段181、対応文数取得手段182、用語出現数取得手段183、未対応文数取得手段184、スコア算出手段185、第二スコア算出手段186、および第三スコア算出手段187を具備する。
【0019】
対訳コーパス11は、1以上の対訳文を格納し得る。対訳文とは、第一言語の文と第二言語の文とを対応付けて有する情報である。第二言語の文は、第一言語の文の第二言語の訳文である。
【0020】
対訳データベース12は、1以上の対訳フレーズを格納し得る。対訳フレーズは、第一フレーズ情報と、第二フレーズ情報とを対応付けて有する情報である。第一フレーズ情報とは、第一言語のフレーズと当該フレーズを構成する各用語の品詞情報とを有する。第二フレーズ情報も、第二言語のフレーズと当該フレーズを構成する各用語の品詞情報とを有する。また、第二言語のフレーズは、第一言語のフレーズの第二言語の訳である。また、対訳データベース12は、通常、従来技術により、対訳コーパス11から自動抽出される。かかる従来技術は、例えば、Moses(Philipp Koehn, Hieu Hoang, Alexandra Birch,Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar,Alexandra Constantin, and Evan Herbst. Moses:Open source toolkit for statistical machine trans-lation. In Proceedings of the 45th Annual Meet-ing of the Association for Computational Lin-guistics(ACL), pp. 177-180, 2007.参照})の技術である。Mosesの技術は、公知技術であるので説明を省略する。なお、品詞情報とは品詞を示す情報であり、例えば、「名詞」「名詞句」「動詞」などである。
【0021】
品詞情報パターン格納部13は、1以上の品詞情報パターンを格納し得る。品詞情報パターンとは、1以上の品詞情報を有するパターンである。品詞情報パターンとは、例えば、「"名詞"の"名詞"」「"名詞"を"動詞"」などである。なお、品詞情報パターンとは、第一言語の品詞情報パターンでも良く、第二言語の品詞情報パターンでも良く、第一言語および第二言語の品詞情報パターンでも良い。
【0022】
対訳データベース生成部14は、対訳コーパス11が有する1以上の各対訳文から、1以上の対訳フレーズを生成し、対訳データベース12に蓄積する。対訳文から1以上の対訳フレーズを生成する技術は公知技術であるので説明を省略する。対訳文から1以上の対訳フレーズを生成する技術は、例えば、上記のMosesの技術である。
【0023】
対応情報取得部15は、1以上の各対訳文が有する第一言語の文と第二言語の文とに対して構造解析を行い、第一言語の文を構成する1以上の各用語と、第二言語の文を構成する1以上の各用語との対応に関する情報である対応情報を取得する。つまり、対応情報とは、第一言語の文と第二言語の文が有する用語間の対応を示す情報である。対応情報は、第一言語の文が有する用語と、第二言語の文が有する用語でも良いし、第一言語の文が有する用語の識別子(例えば、第一言語の文内の出願順を示す整数)と第二言語の文が有する用語の識別子(例えば、第二言語の文内の出願順を示す整数)でも良い。対応情報取得部15の処理も公知技術であるので、詳細な説明を省略する。対応情報取得部15の処理は、例えば、Mosesの技術により行う。Mosesの技術が翻訳モデルを学習する際に出力する。
【0024】
対訳フレーズ取得部16は、対訳データベース12から、1以上の品詞情報パターンに合致する1以上の対訳フレーズを取得する。つまり、対訳フレーズ取得部16は、例えば、品詞情報パターン「"名詞"の"名詞"」に合致する対訳フレーズ「冬の空」「the sky of winter」を取得する。
【0025】
用語対訳候補取得部17は、対訳フレーズ取得部16が取得した1以上の対訳フレーズから、1以上の用語対訳候補を取得する。用語対訳候補とは、第一言語の用語と当該用語に対応する第二言語の用語の組の候補である。用語対訳候補取得部17は、例えば、対訳フレーズ取得部16が取得した「冬の空」「the sky of winter」から、用語対訳候補「冬」「winter」、および用語対訳候補「空」「sky」を取得する。
【0026】
スコア算出部18は、2以上の各用語対訳候補に対して、スコアを算出し、スコアを取得する。また、スコア算出部18は、2以上の異なる方法により、2以上の各用語対訳候補に対して、スコアを算出し、2以上のスコアを取得する。また、スコア算出部18は、2以上のスコアを取得した後、通常、当該2以上のスコアの代表値を取得する。スコアの代表値とは、2以上のスコアの平均値や中央値などであり、2以上のスコアを用いて算出される一の値である。ただし、スコア算出部18は、異なる方法により取得された2以上のスコアをどのように用いても良い。また、用語対訳候補のスコアの算出方法は問わない。スコアの算出方法について、例えば、後述する対数尤度比を用いることが好適である。ただし、後述するFisher's exact testのp値(J Howard Johnson, Joel Martin, George Foster,and Roland Kuhn. Improving translation quality by discarding most of the phrasetable. In Pro-ceedings of the 2007 Joint Conference on Em-pirical Methods in Natural Language Processing and Computational Natural Language Learning,pp. 967-975, 2007.参照)や後述するC-value(Katerina T. Frantzi and Sophia Ananiadou. Ex-tracting nested collocations. In Proceedings of the 16th International Conference on Computational Linguistics (COLING 96), pp. 41-46, 1996.参照)などを用いても良い。ここでのスコアの算出方法は、通常、用語対訳候補の出現数などを用いた、統計的手法に基づく。
【0027】
スコア算出部18を構成する出現文数取得手段181は、対訳コーパス11に格納されている1以上の対訳文から、出現文数を取得する。出現文数とは、2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語の両方が出現する対訳文の数である。
【0028】
対応文数取得手段182は、対応情報取得部15が取得した対応情報から、対応文数を取得する。対応文数とは、2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語とが対応する対訳文の数である。対応文数取得手段182は、対訳コーパス11に格納されている1以上の対訳文を用いて、対応文数を取得する。
【0029】
用語出現数取得手段183は、用語出現数を対訳コーパス11から取得する。用語出現数は、用語対訳候補に対する対応情報が対応しないことを示す情報である場合、当該用語対訳候補が有する対応しない用語が出現する文の数である。つまり、この用語出現数取得手段183は、対訳文内で第一言語の用語と第二言語の用語とが出現するが、対応しない場合、当該対応しない用語が出現した文の数である用語出現数を、対訳コーパス11から取得する。
【0030】
未対応文数取得手段184は、対訳文内で第一言語の用語と第二言語の用語の両方が出現するが、対応しない対訳文の数である未対応文数を、対訳コーパス11から取得する。
【0031】
スコア算出手段185は、第一の方法を用いて、スコアを算出し、スコアを取得する。第一の方法は、対訳文内で第一言語の用語と第二言語の用語とが対応する場合と対応しない場合の対数尤度比を算出する方法である。さらに具体的には、第一の方法は、例えば、出現文数が大きいほどスコアが小さくなるように、かつ対応文数が大きいほどスコアが大きくなるように、スコアを算出する方法である。また、第一の方法は、例えば、用語出現数が大きいほどスコアが小さくなるように、かつ未対応文数が大きいほどスコアが大きくなるように、スコアを算出する方法である。つまり、第一の方法は、例えば、出現文数と用語出現数とをパラメータとする減少関数であり、対応文数と未対応文数とをパラメータとする増加関数である演算式f(スコア=f(出現文数,対応文数,用語出現数,未対応文数))により、スコアを算出する方法である。そして、スコア算出手段185が算出するスコアは、例えば、以下の対数尤度比(Log-likelihood Ratio,以下、LLRという。)である。LLRではフレーズベース統計的機械翻訳で生成される語対応を構成要素の対応とし、用語対訳内の語対応の強さを尺度(スコア)とする。LLRの計算には用語対訳候補TJ,E内の語対応と、対訳コーパス内の各対訳文に対する語対応(用語の対応)の情報である対応情報が必要となる。TJ,Eの日本語用語Jはj1,j2,・・・,jkで構成されるとし、英語側をe1,e2,・・・,elとすると、TJ,Eの対数尤度比(ScoreL(TJ,E))は、以下の数式1を用いて算出される。なお、対応情報は、対応情報取得部15により取得される情報である。
【数1】

【0032】
数式1において、TJ,E内での語対応の集合をAj,e、TJ,E内で対応先を持たない構成要素の集合をAcとする。日本語用語J={j1,j2,j3}、英語用語E={e1,e2,e3}で構成されるTJ,Eの語対応を例として、図2に示す。図2において、Aj,e={(j1,e1),(j1,e2),(j3,e2)}は、j1とe1とが語対応があり、j1とe2とが語対応があり、j3とe2とが語対応があることを示す。かかる語対応は、対応情報により取得される。
【0033】
また、数式1において、LLR J,E(jk,el|TJ,E)は語対応の強さを表し、以下の数式2により算出される。
【数2】

【0034】
また、数式2において、P(+1|jk,el)は数式3により算出される。数式3において、α>=0である。また、数式3において、jkとelに対応がある文数は、上記の対応文数である。また、jkとelが共に出現した文数は、上記の出現文数である。
【数3】

【0035】
また、数式3において、P(−1|jk,el)は、数式4で示される。
【数4】

【0036】
数式3はTJ,Eの日本語用語Jと英語用語Eが対訳文に出現したとき、対訳文内でjkとelが対応する場合と対応しない場合の対数尤度比である。αはスムージングのために設けており、例えば、α=1である。
【0037】
また、TJ,Eが対訳文に出現したときに対応を持たない語は、空の構成要素ψと対応していると考え、P(+1|c,ψ)は以下の数式5で定義される。数式5において、cの対応先がない文数は、上記の未対応文数である。また、cが出現した文数は、上記の用語出現数である。
【数5】

【0038】
また、スコア算出手段185は、LLRc,ψ(c,ψ|TJ,E)を数式2と同様に算出する。図2の語対応例では、スコア算出手段185は、ScoreL(TJ,E)を以下の数式6を用いて計算する。
【数6】

【0039】
第二スコア算出手段186は、第二の方法を用いて、スコアを算出し、スコアを取得する。第二の方法は、第一の方法とは異なる。第二の方法は、例えば、Fisher's exact testのp値を用いる方法である。ここでの第二の方法は、以下のような方法である。
ある用語対訳候補TJ,Eにおける日本語の用語候補をJ、英語の用語候補をEとすると、第二スコア算出手段186は、対訳コーパス11から図3のような分割表を得る。つまり、第二スコア算出手段186は、対訳コーパス11から、対訳文の総数Nを取得する。また、第二スコア算出手段186は、対訳コーパス11から、日本語の用語Jを含む対訳文数C(J)を取得する。また、第二スコア算出手段186は、対訳コーパス11から、英語の用語Eを含む対訳文数C(E)を取得する。そして、第二スコア算出手段186は、対訳コーパス11から、日本語の用語Jと英語の用語Eの両方を含む対訳文数C(J,E)を取得する。
【0040】
そして、JとEが独立に出現する場合、図3のような分割表が得られる確率は組み合わせの数より数式7で定義される。C(J,E)以上の各値について確率を計算し、それらの総和がp値となる。p値(p-value)は数式8で定義される。
【数7】

【数8】

【0041】
p値が0に近づく程JとEは従属であるとする。第二スコア算出手段186が算出する最終的なスコア(ScoreF)は以下の数式9であることは好適である。
【数9】

【0042】
第三スコア算出手段187は、第三の方法を用いて、スコアを算出し、スコアを取得する。第三の方法は、第一の方法や第二の方法とは異なる。第三の方法は、例えば、C-valueを用いる方法である。C-valueは、以下の数式10により算出される。C-value(T)は、用語Tが安定して使用される度合いを示す。
【数10】

【0043】
数式10において、|T|は、用語Tの構成要素数、n(T)は、対訳コーパス11におけるTの出現頻度、t(T)は、対訳コーパス11中に、Tを部分文字列として含む用語の延べ語数、c(T)は、Tを部分文字列として含む用語の異なり語数である。なお、用語Tの構成要素数とは、用語Tの品詞情報を解析して、分割した場合の部分の数である。用語Tが「自然言語処理」であったとき、この用語Tの品詞情報を解析すると、「自然/名詞 言語/名詞 処理/名詞」となり、かかる場合の構成要素数が「3」である。また、|T|、n(T)、およびc(T)を取得する技術は公知技術である。
【0044】
数式10において、(|T|−1)より、構成要素数が1の用語はC-valueが0になり、構成要素数に比例して高い値をとる。
【0045】
本実施の形態では、用語対訳候補について、両言語側ともC-valueが、閾値より高いという条件を満たせば、正しい用語対訳である可能性が高いと仮定する。C-valueによる用語対訳候補の順位付けは、例えば、(1)両言語の用語に対してC-valueを計算し、各言語で独立に順位付けを行う。(2)用語対訳候補を構成する両言語の用語に対して、順位の平均を計算する。(3)順位の平均を尺度(ScoreC)として、用語対訳候補を順位付けする、という手順で行う。
【0046】
用語対訳蓄積部19は、スコア算出部18が算出した2以上のスコアを用いて、2以上の用語対訳候補のうちの一部を選択して、用語対訳データベース20に蓄積する。ここで、用語対訳蓄積部19は、スコアが閾値以上の用語対訳候補を蓄積しても良いし、スコアが上位n組の用語対訳候補を蓄積しても良い。また、「2以上のスコアを用いて」とは、2以上のスコアの代表値(平均値、中央値など)が、閾値以上の用語対訳候補を蓄積しても良いし、代表値が上位n組の用語対訳候補を蓄積しても良い。
【0047】
用語対訳データベース20は、1以上の用語対訳を格納し得る。
【0048】
対訳コーパス11、対訳データベース12、品詞情報パターン格納部13、および用語対訳データベース20は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0049】
対訳コーパス11等に対訳文等が記憶される過程は問わない。例えば、記録媒体を介して対訳文等が対訳コーパス11等で記憶されるようになってもよく、通信回線等を介して送信された対訳文等が対訳データベース12で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された対訳文等が対訳コーパス11等で記憶されるようになってもよい。
【0050】
対訳データベース生成部14、対応情報取得部15、対訳フレーズ取得部16、用語対訳候補取得部17、スコア算出部18、用語対訳蓄積部19は、通常、MPUやメモリ等から実現され得る。対訳データベース生成部14等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0051】
次に、用語対訳抽出装置1の動作について、図4のフローチャートを用いて説明する。なお、図4のフローチャートにおいて、既に、対訳データベース生成部14が対訳コーパス11に格納されている1以上の対訳文から1以上の対訳フレーズを生成し、対訳データベース12に蓄積しているもの、とする。
【0052】
(ステップS401)対訳フレーズ取得部16は、カウンタiに1を代入する。
【0053】
(ステップS402)対訳フレーズ取得部16は、i番目の対訳フレーズが対訳データベース12に存在するか否かを判断する。存在すればステップS403に行き、存在しなければステップS411に行く。
【0054】
(ステップS403)対訳フレーズ取得部16は、i番目の対訳フレーズを対訳データベース12から読み出す。
【0055】
(ステップS404)対訳フレーズ取得部16は、ステップS403で読み出した対訳フレーズが、品詞情報パターン格納部13に格納されている1以上のいずれかの品詞情報パターンに合致するか否かを判断する。1以上のいずれかの品詞情報パターンに合致すればステップS405に行き、合致しなければステップS413に行く。
【0056】
(ステップS405)用語対訳候補取得部17は、i番目の対訳フレーズから、1以上の用語対訳候補を取得する。なお、対訳フレーズから1以上の用語対訳候補を取得する方法は従来技術であり、いかなる方法でも良い。
【0057】
(ステップS406)スコア算出部18は、カウンタjに1を代入する。
【0058】
(ステップS407)スコア算出部18は、ステップS405で取得された用語対訳候補の中で、j番目の用語対訳候補が存在するか否かを判断する。j番目の用語対訳候補が存在すればステップS408に行き、存在しなければステップS413に行く。
【0059】
(ステップS408)スコア算出部18は、j番目の用語対訳候補のスコアを算出する。スコアを算出する処理については、図5のフローチャートを用いて説明する。
【0060】
(ステップS409)スコア算出部18は、j番目の用語対訳候補と、そのスコアとを対応付けて図示しないバッファに一時蓄積する。
【0061】
(ステップS410)スコア算出部18は、カウンタjを1、インクリメントし、ステップS407に戻る。
【0062】
(ステップS411)用語対訳蓄積部19は、図示しないバッファ中のスコアが上位のnの用語対訳候補を取得する。
【0063】
(ステップS412)用語対訳蓄積部19は、ステップS411で取得したnの用語対訳候補を、用語対訳として、用語対訳データベース20に蓄積し、処理を終了する。
【0064】
(ステップS413)対訳フレーズ取得部16は、カウンタiを1、インクリメントし、ステップS402に戻る。
【0065】
なお、図4のフローチャートにおいて、用語対訳蓄積部19が用語対訳データベース20に蓄積する用語対訳は、スコアが閾値以上の用語対訳候補等でも良い。
【0066】
次に、ステップS408のスコア算出処理について、図5のフローチャートを用いて説明する。なお、ここでは、用語対訳候補は、第一言語の第一用語と、第二言語の第二用語とを有する、とする。
【0067】
(ステップS501)出現文数取得手段181は、用語対訳候補を構成する第一用語と第二用語の両方が出現する対訳文の数である出現文数を、対訳コーパス11を検索して、取得する。
【0068】
(ステップS502)対応情報取得部15は、用語対訳候補を構成する第一用語と第二用語の両方が出現する1以上の対訳文に対して構造解析を行い、第一用語と第二用語との対応に関する情報である対応情報を取得する。つまり、対応情報取得部15は、用語対訳候補を構成する第一用語と第二用語の両方が出現する1以上の各対訳文に対して構造解析を行い、第一用語と第二用語が対応するか否かを、対訳文ごとに判断し、判断結果を対訳文ごとにバッファに一時蓄積する。かかる場合、判断結果が対応情報である。
【0069】
(ステップS503)対応文数取得手段182は、ステップS502で取得された対応情報を用いて、第一用語と第二用語とが対応する対応文数を取得する。対応文数取得手段182は、例えば、ステップS502で取得された第一用語と第二用語が対応することを示す対応情報の数を算出する。
【0070】
(ステップS504)用語出現数取得手段183は、用語対訳候補を対訳コーパス11から取得する。つまり、用語出現数取得手段183は、ステップS502で取得された対応情報を用いて、用語対訳候補に対する対応情報が対応しないことを示す情報である場合、当該用語対訳候補が有する対応しない用語が出現する文の数である用語出現数を対訳コーパス11から取得する。
【0071】
(ステップS505)未対応文数取得手段184は、ステップS502で取得された対応情報を用いて、対訳文内で第一言語の用語と第二言語の用語の両方が出現するが、対応しない対訳文の数である未対応文数を、対訳コーパス11から取得する。
【0072】
(ステップS506)スコア算出手段185は、数式1から数式5を読み出し、出現文数、対応文数、用語出現数、および未対応文数を数式に代入し、対数尤度比(ScoreL(TJ,E))を算出する。かかる対数尤度比を第一スコアとする。なお、スコア算出手段185は、数式1から数式5を予め格納している、とする。
【0073】
(ステップS507)第二スコア算出手段186は、対訳コーパス11に格納されている対訳文の総数Nを取得する。
【0074】
(ステップS508)第二スコア算出手段186は、第一言語の文に第一用語を含む数C(J)を、対訳コーパス11から取得する。
【0075】
(ステップS509)第二スコア算出手段186は、第二言語の文に第二用語を含む数C(E)を、対訳コーパス11から取得する。
【0076】
(ステップS510)第二スコア算出手段186は、第一用語、第二用語の両方を含む対訳文の数C(J,E)を、対訳コーパス11から取得する。
【0077】
(ステップS511)第二スコア算出手段186は、数式7および8に、N、C(J)、C(E)、およびC(J,E)を代入し、p値を算出する。p値を第二スコアとする。なお、第二スコア算出手段186は、数式7から数式8を予め格納している、とする。
【0078】
(ステップS512)第三スコア算出手段187は、第一用語の構成要素数|T|を取得する。
【0079】
(ステップS513)第三スコア算出手段187は、対訳コーパス11における第一用語の出現頻度n(T)を取得する。
【0080】
(ステップS514)第三スコア算出手段187は、対訳コーパス11中に、第一用語を部分文字列として含む用語の延べ語数t(T)を取得する。
【0081】
(ステップS515)第三スコア算出手段187は、対訳コーパス11中に、第一用語を部分文字列として含む用語の異なり語数c(T)を取得する。
【0082】
(ステップS516)第三スコア算出手段187は、数式10を用いて、第一用語のC-valueを算出する。
【0083】
(ステップS517)第三スコア算出手段187は、第二用語の構成要素数|T|を取得する。
【0084】
(ステップS518)第三スコア算出手段187は、対訳コーパス11における第二用語の出現頻度n(T)を取得する。
【0085】
(ステップS519)第三スコア算出手段187は、対訳コーパス11中に、第二用語を部分文字列として含む用語の延べ語数t(T)を取得する。
【0086】
(ステップS520)第三スコア算出手段187は、対訳コーパス11中に、第二用語を部分文字列として含む用語の異なり語数c(T)を取得する。
【0087】
(ステップS521)第三スコア算出手段187は、数式10を用いて、第二用語のC-valueを算出する。
【0088】
(ステップS522)第三スコア算出手段187は、第一用語のC-valueと第二用語のC-valueとを用いて、用語対訳候補の第三スコアを算出する。
【0089】
(ステップS523)スコア算出部18は、第一スコア、第二スコア、および第三スコアを用いて、代表値スコアを算出し、上位処理(ステップS409)にリターンする。代表値スコアは、例えば、第一スコア、第二スコア、および第三スコアの平均値である。
【0090】
なお、図5のフローチャートにおいて、第三スコア算出手段187は、以下のように第三スコアを算出することは好適である。つまり、第三スコア算出手段187は、まず、両言語の用語に対してC-valueを計算し、各言語で独立に順位付けを行う。そして、第三スコア算出手段187は、用語対訳候補を構成する両言語の用語に対して、順位の平均を計算する。次に、第三スコア算出手段187は、順位の平均を第三スコアとする。
【0091】
また、図5のフローチャートにおいて、対応情報取得部15は、1以上の対訳文に対して、予め構造解析を行い、すべての対応情報を予め保持していても良い。かかる場合、ステップS502の処理は不要となる。
【0092】
また、図5のフローチャートにおいて、スコア算出手段185、第二スコア算出手段186、および第三スコア算出手段187は、スコア順に用語対訳候補を並べ、各用語対訳候補の順位を取得し、かかる順位を、各方法のスコアとしても良い。かかる場合、最終的なスコアを、3つの順位の代表値(平均値や中央値など)としても良い。
【0093】
さらに、図5のフローチャートにおいて、スコア算出方法は上記の3つに限らず、2以上の異なる方法を用いれば良い。
【0094】
以下、本実施の形態における用語対訳抽出装置1の実験結果について説明する。
(実験)
【0095】
対訳コーパス11に、アパレル分野の約6万文対の日英対訳文を格納した。また、図4、図5のフローチャートを用いて説明した動作により、用語対訳抽出装置1は、用語対訳を抽出し、用語対訳データベース20に蓄積した。なお、C-value(第三スコア)は既に部分文字列を考慮した尺度なので、本実験において、Fisher's exact test(第二スコア)とLLR(第一スコア)に対してこの制限を設けて用語対訳抽出を行い、制限を設けない場合と比較する。
【0096】
そして、対訳データベース生成部14が1以上の対訳フレーズを生成し、当該1以上の対訳フレーズを対訳データベース12に格納し、得られたフレーズテーブルから、用語対訳候補取得部17が抽出した用語対訳候補は22,543対であった。これらの用語対訳候補に対して第一スコア(ScoreL)、第二スコア(ScoreF)、および第三スコア(ScoreC)を計算した。そして、第一から第三のスコアにおいて上位1,000対を正しい用語対訳として抽出し、抽出した用語対訳の比較を行った。
【0097】
そして、実験における評価方法は以下である。つまり、用語対訳候補を各スコアで順位付けし、上位1,000対から無作為に100対を抽出して対訳精度を評価した。評価結果を図6に示す。図6において、評価は人手で行い、対訳として正しいものをA、対訳として正しいが、文脈に依存するものをA'、部分的に正しいものをB、対訳として正しくないものをCとした。
【0098】
図6より各スコアでのA評価の数を比較すると、ScoreFが最も対訳精度が低かった。ScoreLとScoreCでは1対の差でScoreCが最も良い精度となったが、C評価の数はScoreLが最も少なく、ScoreLとScoreCは同程度の精度で用語対訳を抽出することが分かった。Score'FとScore'Lは部分文字列を考慮した場合の評価結果である。Score'Fでの評価Aの数は71対となり、制限を設けない場合よりも28対多く抽出した。Score'Lでも精度が向上しており、用語対訳の部分文字列を考慮することは有効であることが分かった。
【0099】
なお、部分文字列を考慮することは、以下のことである。本実験において、用語対訳抽出装置1は、対訳コーパスから両言語の用語候補を抽出し、各尺度の計算に必要な用語候補の出現頻度を数える。ある用語候補Tの部分文字列として文章に出現した用語候補T'は、T'単体で使用されていない。用語候補の適切な出現頻度を数えるために、用語候補が単体で使用されていない場合は出現頻度を数えないという制限を設ける。C-valueは既に部分文字列を考慮した尺度なので、Fisher's exact testとLLRに対してこの制限を設けて用語対訳抽出を行い、制限を設けない場合と比較した。そして、部分文字列を考慮したFisher's exact testによるスコアを、Score'Fとする。また、部分文字列を考慮したLLRによるスコアを、Score'Lとする。
【0100】
そして、Score'F、Score'L、ScoreCの各スコアにおいて、どのような用語対訳を抽出しているのか調査した。図7に用語対訳候補の上位5,000対に対する日本語側の構成要素数を示す。また、図8に出現頻度の変化を示す。図7において、縦軸が用語対訳の構成要素数、横軸が用語対訳のスコア順に並べた順位(ランク)を示す。また、図8において、縦軸が用語対訳の出現頻度、横軸が用語対訳のスコア順に並べた順位(ランク)を示す。また、図7、図8において、各点は1,000位毎の平均値である。英語側の構成要素数は日本語側の性質とほぼ同じ性質を示したため省略する。図7、図8より、各スコアで性質の異なる用語対訳が上位に集中していることが分かった。Score'Fは高頻度で構成要素数が少ない用語対訳を抽出した。Score'Lによって抽出した用語対訳も高頻度であるが、構成要素数は多いものを抽出した。Score'Lは対応の強さを語対応の数だけ加算するため、構成要素数が多く、それぞれの対応が強い用語対訳が上位に集中する。ScoreCでは低頻度で構成要素数が多い用語対訳を抽出した。なお、構成要素数が1の用語はC-valueが0となるため、ScoreCによる用語対訳候補の順位では、構成要素数が2以上のものが集中している。ScoreCは両言語で独立にC-valueを計算した結果を統合しているので、日本語用語がどの英語用語に翻訳されるかについて考慮していない。しかし、対訳精度は高いことから、フレーズテーブルから用語対訳を抽出する本手法において、両言語側の用語が安定して出現し、構成要素数が2以上であるという制限が対訳精度に影響を与えることが分かった。
【0101】
次に、図9にScoreFで抽出され、Score'Fでは抽出されなかった用語対訳の例と、それぞれの尺度における順位を示す。括弧内は用語対訳の正誤判定である。1番目と2番目の例は、間違った用語対訳をScoreFによって抽出した例である。「リング/coloring」の正しい用語対訳は「カラーリング/coloring」である。このような間違った用語対訳に高いScoreFが与えているのは、用語対訳の部分文字列を考慮せずに出現頻度を数えているためである。「カラーリング/coloring」の例では、日本語用語が「カラー」と「リング」に分割された形態素解析結果となっている。「coloring」に対して「リング」が単体で出現することは少ないにもかかわらず、部分文字列として出現した場合を考慮していないので「リング/coloring」の出現頻度が高くなる。
【0102】
2番目の例については「side pocket」中の「side」と「サイドポケット」が同時に出現する頻度を数えているので、間違った用語対訳が抽出された。
【0103】
3番目の例はScoreFで正しく抽出されているが、Score'Fでは抽出できなかった例である。抽出失敗の理由は「スリーブ」と「sleeve」がそれぞれ部分文字列として多く出現し、十分な頻度が得られなかったためである。用語対訳候補内には「スリーブ」を部分文字列として含む日本語用語候補が38個、「sleeve」を含む英語用語候補が49個あった。「スリーブ/sleeve」の例のように、他の用語の部分文字列となりやすい用語で構成されている用語対訳は、用語対訳単体で出現する頻度が低くなる。Score'LについてもScoreLより精度が向上しているが、Score'F程大きな向上ではない。ScoreLの上位には構成要素数の多い用語対訳が集中するため、部分文字列となっている用語対訳が抽出されにくい。
【0104】
各スコアによって抽出する用語対訳の性質が異なることが分かった。そこで各スコアの性質を持った用語対訳を抽出することで、高品質の用語対訳が獲得できる。そのために各用語対訳候補についてScore'F,Score'L,ScoreCでの順位の平均値をScoreFLCと定義し、ScoreFLCを、各スコアを統合したスコアとして用語対訳の抽出を行った。評価結果は図6である。各スコアを統合したところ、スコアを統合しない場合で最も精度が高かったScore'LよりA評価が8対増え、各スコアを統合することで精度の高い用語対訳を抽出できることが分かった。
【0105】
以上、本実施の形態によれば、学習データや対訳辞書を必要とせずに、正しい用語対訳を抽出できる。また、本実施の形態によれば、正しい用語対訳を極めて精度高く自動抽出できる。
【0106】
なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。
【0107】
(実施の形態2)
本実施の形態において、スコア算出方法が実施の形態1で説明した対数尤度比のみを使用して、用語対訳を抽出する用語対訳抽出装置について説明する。
【0108】
図10は、本実施の形態における用語対訳抽出装置2のブロック図である。用語対訳抽出装置2は、対訳コーパス11、対訳データベース12、品詞情報パターン格納部13、対訳データベース生成部14、対応情報取得部15、対訳フレーズ取得部16、用語対訳候補取得部17、スコア算出部28、および用語対訳蓄積部19を具備する。
【0109】
スコア算出部28は、出現文数取得手段181、対応文数取得手段182、用語出現数取得手段183、未対応文数取得手段184、およびスコア算出手段185を具備する。スコア算出部28は、1以上の各用語対訳候補に対して、実施の形態1で説明した第一スコア(対数尤度比)のみを算出する。
【0110】
スコア算出部28は、通常、MPUやメモリ等から実現され得る。スコア算出部28の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0111】
次に、用語対訳抽出装置2の動作について説明する。用語対訳抽出装置2の動作は、図4を用いて説明した用語対訳抽出装置1の動作と比較して、ステップS408のスコア算出処理のみが異なる。また、用語対訳抽出装置2のスコア算出処理は、図5のステップS501からS506を有し、最終的なスコアは、S506で取得される対数尤度比である。また、スコア算出部28が算出する最終的なスコアは、S506で取得される対数尤度比を用いた、用語対訳候補の順位などでも良い。
【0112】
以上、本実施の形態によれば、学習データや対訳辞書を必要とせずに、正しい用語対訳を抽出できる。また、正しい用語対訳を極めて精度高く自動抽出できる。
【0113】
また、図11は、本明細書で述べた用語対訳抽出装置1や用語対訳抽出装置2を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図11は、このコンピュータシステム340の概観図であり、図12は、コンピュータシステム340の内部構成を示す図である。
【0114】
図11において、コンピュータシステム340は、FDドライブ3411、CD−ROMドライブ3412を含むコンピュータ341と、キーボード342と、マウス343と、モニタ344とを含む。
【0115】
図12において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、MPU3413と、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM3415とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0116】
コンピュータシステム340に、上述した実施の形態の用語対訳抽出装置等の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
【0117】
プログラムは、コンピュータ341に、上述した実施の形態の用語対訳抽出装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
【0118】
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0119】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0120】
以上のように、本発明にかかる用語対訳抽出装置は、学習データや対訳辞書を必要とせずに、正しい用語対訳を抽出できる、という効果を有し、用語対訳抽出装置等として有用である。
【符号の説明】
【0121】
1、2 用語対訳抽出装置
11 対訳コーパス
12 対訳データベース
13 品詞情報パターン格納部
14 対訳データベース生成部
15 対応情報取得部
16 対訳フレーズ取得部
17 用語対訳候補取得部
18、28 スコア算出部
19 用語対訳蓄積部
20 用語対訳データベース
181 出現文数取得手段
182 対応文数取得手段
183 用語出現数取得手段
184 未対応文数取得手段
185 スコア算出手段
186 第二スコア算出手段
187 第三スコア算出手段

【特許請求の範囲】
【請求項1】
第一言語のフレーズと当該フレーズを構成する各用語の品詞情報とを有する第一フレーズ情報と、前記第一言語のフレーズの第二言語の訳である第二言語のフレーズと当該フレーズを構成する各用語の品詞情報とを有する第二フレーズ情報とを対応付けて有する1以上の対訳フレーズを格納し得る対訳データベースと、
1以上の品詞情報を有するパターンである1以上の品詞情報パターンを格納し得る品詞情報パターン格納部と、
前記対訳データベースから、前記1以上の品詞情報パターンに合致する1以上の対訳フレーズを取得する対訳フレーズ取得部と、
前記対訳フレーズ取得部が取得した1以上の対訳フレーズから、第一言語の用語と当該用語に対応する第二言語の用語の組の候補である1以上の用語対訳候補を取得する用語対訳候補取得部と、
2以上の異なる方法により、前記2以上の各用語対訳候補に対して、スコアを算出し、2以上のスコアを取得するスコア算出部と、
前記2以上のスコアを用いて、前記2以上の用語対訳候補のうちの一部を選択して蓄積する用語対訳蓄積部とを具備する用語対訳抽出装置。
【請求項2】
第一言語の文と当該文の第二言語の訳文である第二言語の文とを対応付けて有する1以上の対訳文を格納し得る対訳コーパスと、
前記1以上の各対訳文が有する第一言語の文と第二言語の文とに対して、構造解析を行い、前記第一言語の文を構成する1以上の各用語と、前記第二言語の文を構成する1以上の各用語との対応に関する情報である対応情報を取得する対応情報取得部とをさらに具備し、
前記スコア算出部は、
前記対訳コーパスに格納されている1以上の対訳文から、前記2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語の両方が出現する対訳文の数である出現文数を取得する出現文数取得手段と、
前記対応情報取得部が取得した対応情報から、前記2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語とが対応する対訳文の数を取得する対訳文の数である対応文数を取得する対応文数取得手段と、
前記対応情報取得部が取得した対応情報が対応しないことを示す情報である場合、当該対応情報に対する用語対訳候補が有する対応しない用語が出現する文の数である用語出現数を、前記対訳コーパスから取得する用語出現数取得手段と、
前記2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語の両方が出現するが、対応しない対訳文の数である未対応文数を、前記対訳コーパスから取得する未対応文数取得手段と、
前記出現文数と前記用語出現数が大きいほどスコアが小さくなるように、かつ前記対応文数と前記未対応文数が大きいほどスコアが大きくなるように、スコアを算出するスコア算出手段とを具備し、
前記2以上の異なる方法のうちの一の方法は、前記出現文数取得手段と前記対応文数取得手段と前記用語出現数取得手段と前記未対応文数取得手段と前記スコア算出手段とを用いたスコアの算出方法である請求項1記載の用語対訳抽出装置。
【請求項3】
第一言語の文と当該文の第二言語の訳文である第二言語の文とを対応付けて有する1以上の対訳文を格納し得る対訳コーパスと、
第一言語のフレーズと当該フレーズを構成する各用語の品詞情報とを有する第一フレーズ情報と、前記第一言語のフレーズの第二言語の訳である第二言語のフレーズと当該フレーズを構成する各用語の品詞情報とを有する第二フレーズ情報とを対応付けて有する1以上の対訳フレーズを格納し得る対訳データベースと、
1以上の品詞情報を有するパターンである1以上の品詞情報パターンを格納し得る品詞情報パターン格納部と、
前記1以上の各対訳文が有する第一言語の文と第二言語の文とに対して、構造解析を行い、前記第一言語の文を構成する1以上の各用語と、前記第二言語の文を構成する1以上の各用語との対応に関する情報である対応情報を取得する対応情報取得部と、
前記1以上の品詞情報パターンに合致する1以上の対訳フレーズを取得する対訳フレーズ取得部と、
前記対訳フレーズ取得部が取得した1以上の対訳フレーズから、第一言語の用語と当該用語に対応する第二言語の用語の組の候補である1以上の用語対訳候補を取得する用語対訳候補取得部と、
前記1以上の各用語対訳候補に対して、スコアを算出するスコア算出部と、
前記スコア算出部が算出した前記1以上の各用語対訳候補の各スコアを用いて、前記1以上の用語対訳候補のうちの一部を選択して蓄積する用語対訳蓄積部とを具備し、
をさらに具備し、
前記スコア算出部は、
前記対訳コーパスに格納されている1以上の対訳文から、前記2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語の両方が出現する対訳文の数である出現文数を取得する出現文数取得手段と、
前記対応情報取得部が取得した対応情報から、前記2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語とが対応する対訳文の数を取得する対訳文の数である対応文数を取得する対応文数取得手段と、
前記対応情報取得部が取得した対応情報が対応しないことを示す用語対訳候補が有する対応しない用語が出現する文の数である用語出現数を、前記対訳コーパスから取得する用語出現数取得手段と、
前記2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語の両方が出現するが、対応しない対訳文の数である未対応文数を、前記対訳コーパスから取得する未対応文数取得手段と、
前記出現文数と前記用語出現数が大きいほどスコアが小さくなるように、かつ前記対応文数と前記未対応文数が大きいほどスコアが大きくなるように、スコアを算出するスコア算出手段とを具備する用語対訳抽出装置。
【請求項4】
記憶媒体に、
第一言語のフレーズと当該フレーズを構成する各用語の品詞情報とを有する第一フレーズ情報と、前記第一言語のフレーズの第二言語の訳である第二言語のフレーズと当該フレーズを構成する各用語の品詞情報とを有する第二フレーズ情報とを対応付けて有する1以上の対訳フレーズと、
1以上の品詞情報を有するパターンである1以上の品詞情報パターンを格納しており、
対訳フレーズ取得部、用語対訳候補取得部、スコア算出部、および用語対訳蓄積部とにより実現される用語対訳抽出方法であって、
前記対訳フレーズ取得部が、前記記憶媒体から、前記1以上の品詞情報パターンに合致する1以上の対訳フレーズを取得する対訳フレーズ取得ステップと、
前記用語対訳候補取得部が、前記対訳フレーズ取得ステップで取得された1以上の対訳フレーズから、第一言語の用語と当該用語に対応する第二言語の用語の組の候補である1以上の用語対訳候補を取得する用語対訳候補取得ステップと、
前記スコア算出部が、2以上の異なる方法により、前記2以上の各用語対訳候補に対して、スコアを算出し、2以上のスコアを取得するスコア算出ステップと、
前記用語対訳蓄積部が、前記2以上のスコアを用いて、前記2以上の用語対訳候補のうちの一部を選択して蓄積する用語対訳蓄積ステップとを具備する用語対訳抽出方法。
【請求項5】
記憶媒体に、
第一言語のフレーズと当該フレーズを構成する各用語の品詞情報とを有する第一フレーズ情報と、前記第一言語のフレーズの第二言語の訳である第二言語のフレーズと当該フレーズを構成する各用語の品詞情報とを有する第二フレーズ情報とを対応付けて有する1以上の対訳フレーズと、
1以上の品詞情報を有するパターンである1以上の品詞情報パターンを格納しており、
対訳フレーズ取得部、用語対訳候補取得部、スコア算出部、および用語対訳蓄積部とにより実現される用語対訳生産方法であって、
前記対訳フレーズ取得部が、前記記憶媒体から、前記1以上の品詞情報パターンに合致する1以上の対訳フレーズを取得する対訳フレーズ取得ステップと、
前記用語対訳候補取得部が、前記対訳フレーズ取得ステップで取得された1以上の対訳フレーズから、第一言語の用語と当該用語に対応する第二言語の用語の組の候補である1以上の用語対訳候補を取得する用語対訳候補取得ステップと、
前記スコア算出部が、2以上の異なる方法により、前記2以上の各用語対訳候補に対して、スコアを算出し、2以上のスコアを取得するスコア算出ステップと、
前記用語対訳蓄積部が、前記2以上のスコアを用いて、前記2以上の用語対訳候補のうちの一部を選択して蓄積する用語対訳蓄積ステップとを具備する用語対訳辞書の生産方法。
【請求項6】
記憶媒体に、
第一言語の文と当該文の第二言語の訳文である第二言語の文とを対応付けて有する1以上の対訳文と、
第一言語のフレーズと当該フレーズを構成する各用語の品詞情報とを有する第一フレーズ情報と、前記第一言語のフレーズの第二言語の訳である第二言語のフレーズと当該フレーズを構成する各用語の品詞情報とを有する第二フレーズ情報とを対応付けて有する1以上の対訳フレーズと、
1以上の品詞情報を有するパターンである1以上の品詞情報パターンを格納しており、
対応情報取得部、対訳フレーズ取得部、用語対訳候補取得部、スコア算出部、および用語対訳蓄積部とにより実現される用語対訳生産方法であって、
前記対応情報取得部が、前記1以上の各対訳文が有する第一言語の文と第二言語の文とに対して、構造解析を行い、前記第一言語の文を構成する1以上の各用語と、前記第二言語の文を構成する1以上の各用語との対応に関する情報である対応情報を取得する対応情報取得ステップと、
前記対訳フレーズ取得部が、前記記憶媒体から、前記1以上の品詞情報パターンに合致する1以上の対訳フレーズを取得する対訳フレーズ取得ステップと、
前記用語対訳候補取得部が、前記対訳フレーズ取得ステップで取得された1以上の対訳フレーズから、第一言語の用語と当該用語に対応する第二言語の用語の組の候補である1以上の用語対訳候補を取得する用語対訳候補取得ステップと、
前記スコア算出部が、前記1以上の各用語対訳候補に対して、スコアを算出するスコア算出ステップと、
前記用語対訳蓄積部が、前記スコア算出ステップで算出された前記1以上の各用語対訳候補の各スコアを用いて、前記1以上の用語対訳候補のうちの一部を選択して蓄積する用語対訳蓄積ステップとを具備し、
をさらに具備し、
前記スコア算出ステップは、
前記記憶媒体に格納されている1以上の対訳文から、前記2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語の両方が出現する対訳文の数である出現文数を取得する出現文数取得ステップと、
前記対応情報取得ステップで取得された対応情報から、前記2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語とが対応する対訳文の数を取得する対訳文の数である対応文数を取得する対応文数取得ステップと、
前記対応情報取得ステップで取得された対応情報が対応しないことを示す用語対訳候補が有する対応しない用語が出現する文の数である用語出現数を、前記記憶媒体から取得する用語出現数取得ステップと、
前記2以上の各用語対訳候補が有する第一言語の用語と第二言語の用語の両方が出現するが、対応しない対訳文の数である未対応文数を、前記記憶媒体から取得する未対応文数取得ステップと、
前記出現文数と前記用語出現数が大きいほどスコアが小さくなるように、かつ前記対応文数と前記未対応文数が大きいほどスコアが大きくなるように、スコアを算出するスコア算出ステップとを具備する用語対訳辞書の生産方法。

【図1】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図2】
image rotate

【図3】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−177972(P2012−177972A)
【公開日】平成24年9月13日(2012.9.13)
【国際特許分類】
【出願番号】特願2011−39338(P2011−39338)
【出願日】平成23年2月25日(2011.2.25)
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】