説明

機械翻訳装置、機械翻訳方法、およびプログラム

【課題】高精度な翻訳文を得ることができなかった。
【解決手段】元フレーズとパラフレーズとパラフレーズ確率を有するパラフレーズ情報と、原言語フレーズと目的言語フレーズとフレーズ翻訳確率を有するフレーズ翻訳情報を格納しており、原文を受け付ける受付部と、原文をフレーズに分割する分割部と、1以上の各元フレーズと対になるパラフレーズを取得するパラフレーズ取得部と、1以上のフレーズと1以上のパラフレーズを用いてパラフレーズラティスを取得するパラフレーズラティス取得部と、フレーズの1以上の素性、原文と各パラフレーズ文の1以上の素性、目的言語文の1以上の素性のうちの1以上の素性を取得する素性取得部と、1以上の素性を用いて各文のスコアを算出するスコア算出部と、最大のスコアに対応する目的言語文を取得する翻訳部と、目的言語文を出力する出力部とを具備する機械翻訳装置である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、受け付けた原文を他言語に翻訳する機械翻訳装置等に関するものである。
【背景技術】
【0002】
統計翻訳(Statistical Machine Translation,SMT)のようなコーパスベース機械翻訳では、トレーニングデータにある表現と入力される原文の表現とのずれによって翻訳が正しく行えない、という課題がある。例えば、一般的なフレーズベースSMTでは、あらかじめ、トレーニングデータであるパラレルコーパスに対してアライメントを取り、そこからフレーズごとの翻訳候補を抽出し、フレーズテーブルに格納しておく。翻訳対象の原文が与えられると、フレーズテーブルから当該原文に含まれるフレーズを検索し、一致したフレーズの翻訳を組み合わせて翻訳文を生成する。そのため、原文中のフレーズがフレーズテーブルにない場合は正しく翻訳できない。
【0003】
こういった課題に対して、従来、パラフレーズによって表現のずれを吸収する手法が提案されている。例えば、トレーニングデータをパラフレーズによって増やすことで様々な表現のバリエーションを考慮した学習が行われ翻訳精度を向上する手法が提案されている(非特許文献1)。また、フレーズテーブルを直接パラフレーズして増やし、未知フレーズの翻訳を改善する手法も提案されている(非特許文献2)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Francis Bond, Eric Nichols, Darren Scott Appling, and Michael Paul. Improving statistical machine translation by paraphrasing the training data. In Proceedings of IWSLT 2008, pp.150-157, 2008.
【非特許文献2】Chris Callison-Burch, Philipp Koehn, and Miles Osborne. Improved statistical machine translation using paraphrases. In Proceedings of NAACL-2006, pp. 17-24, 2006.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、上記の従来のいずれの手法でも、文脈に関係なくパラフレーズが適用されることになり、不適切なパラフレーズによって翻訳が失敗する、という課題がある。例えば、「「骨が折れる」=「苦労する」」というパラフレーズがある場合、このパラフレーズ単体では間違っているわけではないが、「首の骨が折れる」に対してこのパラフレーズを適用すると「首の苦労する」となり、これを用いて翻訳しようとすると間違った翻訳文になってしまう。
【課題を解決するための手段】
【0006】
本第一の発明の機械翻訳装置は、第一のフレーズである元フレーズと、元フレーズが置き換えられる可能性のあるフレーズであるパラフレーズと、置き換えられる確率を示すパラフレーズ確率とを有するパラフレーズ情報を1以上格納しているパラフレーズ情報格納部と、原言語フレーズと、目的言語フレーズと、原言語フレーズが目的言語フレーズに翻訳される確率であるフレーズ翻訳確率とを有するフレーズ翻訳情報を2以上格納しているフレーズ翻訳情報格納部と、翻訳対象の文である原文を受け付ける受付部と、受付部が受け付けた原文をフレーズに分割し、1以上のフレーズを取得する分割部と、分割部が分割した1以上のフレーズである元フレーズと対になるパラフレーズを、パラフレーズ情報格納部から1以上のフレーズごとに取得するパラフレーズ取得部と、分割部が取得した1以上のフレーズ、およびパラフレーズ取得部が取得した1以上のパラフレーズを用いて、原文および原文の一部のフレーズをパラフレーズに置き換えた文である1以上のパラフレーズ文を構成するフレーズの集合を含み、かつフレーズの連結の情報を含むパラフレーズラティスを取得するパラフレーズラティス取得部と、原文および1以上の各パラフレーズ文に対して、パラフレーズラティスを構成する1以上のフレーズの1以上の素性、または原文および1以上の各パラフレーズ文の1以上の素性、または原文および1以上の各パラフレーズ文を翻訳して取得された目的言語文の1以上の素性、のうちの1以上の素性を取得する素性取得部と、原文および1以上のパラフレーズ文の各文に対して、素性取得部が取得した1以上の素性を用いて、各文のスコアを算出するスコア算出部と、スコア算出部が算出したスコアのうち、少なくとも最大のスコアに対応する文が有する1以上のフレーズに対応する1以上の目的言語フレーズを、フレーズ翻訳情報格納部から取得し、1以上の目的言語フレーズから目的言語文を取得する翻訳部と、翻訳部が取得した目的言語文を出力する出力部とを具備し、素性取得部は、原文および1以上の各パラフレーズ文に対して、各文が有するパラフレーズおよびパラフレーズの元になった元フレーズと対になる1以上のパラフレーズ確率を、パラフレーズ情報格納部から素性として取得するパラフレーズ確率取得手段と、原文および1以上のパラフレーズ文の各文を構成する1以上のフレーズを原言語フレーズとし、原言語フレーズと対になるフレーズ翻訳確率を、フレーズ翻訳情報格納部から素性として取得するフレーズ翻訳確率取得手段を具備する機械翻訳装置である。
【0007】
かかる構成により、高精度な翻訳文を得ることができる。
【0008】
また、本第二の発明の機械翻訳装置は、第一の発明に対して、原言語のフレーズとフレーズに対する原言語モデルに関する素性である原言語モデル素性とを有する原言語モデル素性情報を、2以上格納している原言語モデル素性情報格納部をさらに具備し、素性取得部は、原文および1以上のパラフレーズ文の各文が有する1以上のフレーズに対応する1以上の原言語モデル素性を取得する原言語モデル素性取得手段をさらに具備し、スコア算出部は、さらに1以上の原言語モデル素性をも用いて、各文のスコアを算出する機械翻訳装置である。
【0009】
かかる構成により、文脈に合ったパラフレーズだけを選択し、より高精度な翻訳文を得ることができる。
【0010】
また、本第三の発明の機械翻訳装置は、第二の発明に対して、1以上の各パラフレーズ文の原言語モデル素性は、パラフレーズ文と原文の言語モデル確率の比である言語モデルスコアである機械翻訳装置である。
【0011】
かかる構成により、文脈に合ったパラフレーズだけを選択し、より高精度な翻訳文を得ることができる。
【0012】
また、本第四の発明の機械翻訳装置は、第一から第三いずれかの発明に対して、翻訳部は、原文および1以上のパラフレーズ文の各文が有する1以上のフレーズに対応する1以上の目的言語フレーズを、フレーズ翻訳情報格納部から文ごとに取得し、原文および1以上のパラフレーズ文の各文に対応する2以上の目的言語文を取得し、目的言語文と目的言語文の目的言語モデル確率とを有する目的言語確率情報を、2以上格納している目的言語確率情報格納部をさらに具備し、素性取得部は、翻訳部が取得した、原文および1以上のパラフレーズ文の各文に対応する2以上の各目的言語文の目的言語モデル確率を、目的言語確率情報格納部から素性として取得する目的言語モデル確率取得手段をさらに具備し、スコア算出部は、原文および1以上のパラフレーズ文の各文に対して、各文の目的言語モデル確率をさらに素性として用いて、各文のスコアを算出し、出力部は、スコア算出部が算出したスコアのうち、最大のスコアに対応する文の目的言語文を出力する機械翻訳装置である。
【0013】
かかる構成により、高精度な翻訳文を得ることができる。
【0014】
また、本第五の発明の機械翻訳装置は、第一から第四いずれかの発明に対して、素性取得部は、1以上の各パラフレーズ文に対して、パラフレーズする前と後の文長の差に関する情報であるパラフレーズサイズを取得するパラフレーズサイズ取得手段をさらに具備し、スコア算出部は、1以上の各パラフレーズ文に対して、さらに文長の差をも用いて、各文のスコアを算出する機械翻訳装置である。
【0015】
かかる構成により、高精度な翻訳文を得ることができる。
【0016】
また、本第六の発明の機械翻訳装置は、第一から第五いずれかの発明に対して、スコア算出部は、原文および1以上のパラフレーズ文の各文に対して、各文または各文が有するフレーズの2以上の素性の積であるスコアを算出する機械翻訳装置である。
【0017】
かかる構成により、高精度な翻訳文を得ることができる。
【発明の効果】
【0018】
本発明による機械翻訳装置によれば、高精度な翻訳文を得ることができる。
【図面の簡単な説明】
【0019】
【図1】実施の形態1における機械翻訳装置のブロック図
【図2】同機械翻訳装置の動作について説明するフローチャート
【図3】同素性取得処理の動作について説明するフローチャート
【図4】同機械翻訳装置の動作の概念について説明する図
【図5】同パラフレーズ情報管理表を示す図
【図6】同フレーズテーブルを示す図
【図7】同目的言語確率情報管理表を示す図
【図8】同原言語モデル素性情報管理表を示す図
【図9】同パラフレーズラティスを示す図
【図10】同素性が付与されたパラフレーズラティスを示す図
【図11】同スコアの算出を説明する図
【図12】同実験結果を示す図
【図13】同コンピュータシステムの概観図
【図14】同コンピュータシステムのブロック図
【発明を実施するための形態】
【0020】
以下、機械翻訳装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
【0021】
本実施の形態において、パラフレーズラティスの作成、およびラティスデコーディングを行う機械翻訳装置について説明する。
【0022】
図1は、本実施の形態における機械翻訳装置1のブロック図である。機械翻訳装置1は、パラフレーズ情報格納部101、フレーズ翻訳情報格納部102、目的言語確率情報格納部103、原言語モデル素性情報格納部104、受付部105、分割部106、パラフレーズ取得部107、パラフレーズラティス取得部108、翻訳部109、素性取得部110、スコア算出部111、出力部112を備える。
【0023】
素性取得部110は、パラフレーズ確率取得手段1101、フレーズ翻訳確率取得手段1102、目的言語モデル確率取得手段1103、原言語モデル素性取得手段1104、パラフレーズサイズ取得手段1105を備える。
【0024】
パラフレーズ情報格納部101は、パラフレーズ情報を1以上格納している。パラフレーズ情報は、元フレーズとパラフレーズとパラフレーズ確率とを有する情報である。元フレーズとは、置き換えられる前のフレーズであり、第一のフレーズといも言うこととする。パラフレーズは、元フレーズが置き換えられる可能性のあるフレーズである。パラフレーズ確率は、元フレーズがパラフレーズに置き換えられる確率を示す情報である。
【0025】
フレーズ翻訳情報格納部102は、2以上のフレーズ翻訳情報を格納している。フレーズ翻訳情報は、原言語フレーズと、目的言語フレーズと、フレーズ翻訳確率とを有する情報である。原言語フレーズは、翻訳前の原言語の1以上のフレーズである。目的言語フレーズは、翻訳後の目的言語の1以上のフレーズである。原言語フレーズに対応する目的言語の翻訳結果が目的言語フレーズである。フレーズ翻訳確率とは、原言語フレーズが目的言語フレーズに翻訳される確率である。なお、原言語、目的言語について、英語、日本語、中国語、フランス語、ロシア語、韓国語等、言語は問わないことは言うまでもない。
【0026】
目的言語確率情報格納部103は、目的言語文と目的言語モデル確率とを有する目的言語確率情報を、2以上格納している。目的言語モデル確率とは、目的言語文の尤もらしさを示す情報である。目的言語モデル確率は、目的言語文が存在する確率であると、捉えても良い。なお、目的言語確率情報格納部103の目的言語モデル確率は、通常、翻訳処理における探索中に動的に算出される。また、目的言語モデル確率の算出方法は公知技術であるので、詳細な説明を省略する。
【0027】
原言語モデル素性情報格納部104は、2以上の原言語モデル素性情報を格納している。原言語モデル素性情報は、原言語の1以上のフレーズと当該1以上のフレーズに対する原言語モデル素性とを有する情報である。原言語モデル素性は、原言語モデルに関する素性であり、後述する言語モデルスコア(l)や正規化原言語モデルスコア(L)など、種々、考えられる。なお、原言語モデル素性情報格納部104の原言語モデル素性情報は、通常、翻訳処理における探索中に動的に算出される。
【0028】
受付部105は、翻訳対象の文である原文(適宜、翻訳原文とも言う。)を受け付ける。ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。原文の入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。受付部105は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0029】
分割部106は、受付部105が受け付けた原文をフレーズに分割し、1以上のフレーズを取得する。各国の言語の文をフレーズに分割する技術は、形態素解析等、公知技術であるので、詳細な説明は省略する。
【0030】
パラフレーズ取得部107は、パラフレーズ情報格納部101から、元フレーズと対になる1以上のパラフレーズを取得する。ここで、元フレーズは、分割部106が分割して取得した1以上のフレーズである。なお、通常、元フレーズは、分割部106が分割して取得した一つのフレーズである。
【0031】
パラフレーズラティス取得部108は、分割部106が取得した1以上のフレーズ、およびパラフレーズ取得部107が取得した1以上のパラフレーズを用いて、パラフレーズラティスを取得する。パラフレーズラティスとは、原文および1以上のパラフレーズ文を構成するフレーズの集合を含み、フレーズの連結の情報を含む情報である。また、パラフレーズ文とは、原文の一部のフレーズをパラフレーズに置き換えた文である。また、フレーズの連結の情報とは、文(原文および1以上のパラフレーズ文)を構成する順にフレーズをリンク付ける情報である。また、フレーズの連結の情報とは、フレーズのリンク情報でも良いし、フレーズの出現順に記録媒体に格納されていても良い。フレーズの連結の情報が陽に存在せず、記録媒体への格納順序が示している情報でも良い。つまり、フレーズの出現順の情報が得られれば良い趣旨である。
【0032】
翻訳部109は、原文または/および1以上のパラフレーズ文(これを総称して、適宜、「各文」という。)の目的言語文を取得する。つまり、翻訳部109は、1以上の目的言語文を取得する。翻訳部109は、各文が有する1以上のフレーズに対応する1以上の目的言語フレーズを、フレーズ翻訳情報格納部102から文ごとに取得し、各文に対応する2以上の目的言語文を取得する。翻訳部109が、各文から目的言語文を取得する処理は公知技術であるので詳細な説明を省略する。
【0033】
また、翻訳部109は、スコア算出部111が算出したスコアのうち、最大のスコアに対応する文の目的言語文のみを取得しても良い。翻訳部109は、最大のスコアに対応する文が有する1以上のフレーズに対応する1以上の目的言語フレーズを、フレーズ翻訳情報格納部102から取得し、当該取得した1以上の目的言語フレーズから目的言語文を取得しても良い。
【0034】
つまり、翻訳部109は、原文と1以上の各パラフレーズ文のすべての目的言語文を取得しても良いし、最大のスコアに対応する文の目的言語文のみを取得しても良い。
【0035】
素性取得部110は、原文および1以上の各パラフレーズ文に対して、パラフレーズラティスを構成する1以上のフレーズの1以上の素性、または原文および1以上の各パラフレーズ文の1以上の素性(適宜、原言語モデル素性と言う。)、または原文および1以上の各パラフレーズ文を翻訳して取得された目的言語文の1以上の素性(適宜、目的言語モデル素性と言う。)、のうちの1以上の素性を取得する。
【0036】
「原文および1以上の各パラフレーズ文に対して」とは、文ごとに1以上の素性を取得する趣旨である。
【0037】
ここで、素性とは、例えば、後述するパラフレーズ確率(p)、フレーズ翻訳確率、目的言語文の目的言語モデル確率、原言語モデル素性、パラフレーズサイズ(文長の差)などである。原言語モデル素性は、例えば、原言語モデルスコア(l)、正規化原言語モデルスコア(L)などがある。
【0038】
パラフレーズ確率(p)とは、パラフレーズ獲得時のパラフレーズ確率である。言語モデルスコア(l)とは、パラフレーズした翻訳原文(パラフレーズ文)と元の原文の原言語モデル確率の比である。正規化原言語モデルスコア(L)とは、文長(単語数)で正規化した原言語モデル確率の比である。また、パラフレーズサイズ(d)は、パラフレーズ前後での文長(単語数)の差である。なお、原言語モデル確率とは、原言語の言語モデル確率である。言語モデル確率とは、言語としての尤もらしさを示す情報である。
【0039】
そして、ある言語の2つのフレーズe、eが双方とも別の言語のフレーズcとアライメントされている、とする。
【0040】
かかる場合、パラフレーズ確率(p)は、例えば、数式1により算出される。また、言語モデルスコア(l)は、例えば、数式2により算出される。また、正規化原言語モデルスコア(L)は、例えば、数式3により算出される。さらに、パラフレーズサイズ(d)は、例えば、数式4により算出される。なお、hは属性である。つまり、hは、言語モデルスコア(l)の値である。また、hは、正規化原言語モデルスコア(L)の値である。さらに、hは、パラフレーズサイズ(d)の値である。
【数1】

【数2】

【0041】
数式2において、lm(paraphrase)はパラフレーズした文の原言語モデル確率である。また、lm(original)は原文の原言語モデル確率である。
【数3】

【0042】
数式3において、LM(paraphrase)は文長(単語数)で正規化したパラフレーズ文の原言語モデル確率である。また、LM(original)は文長(単語数)で正規化した原文の原言語モデル確率である。
【数4】

【0043】
数4において、length(paraphrase)はパラフレーズの長さである。また、length(original)は元フレーズの長さである。
【0044】
パラフレーズ確率取得手段1101は、1以上のパラフレーズ確率(素性の一種)をパラフレーズ情報格納部101から取得する。パラフレーズ確率取得手段1101は、原文および1以上の各パラフレーズ文に対して、各文が有するパラフレーズおよびパラフレーズの元になった元フレーズ(1以上のフレーズ)と対になる1以上のパラフレーズ確率を取得する。
【0045】
フレーズ翻訳確率取得手段1102は、1以上のフレーズ翻訳確率(素性の一種)をフレーズ翻訳情報格納部102から取得する。フレーズ翻訳確率取得手段1102は、原文および1以上のパラフレーズ文の各文を構成する1以上のフレーズを原言語フレーズとし、原言語フレーズと対になるフレーズ翻訳確率を、フレーズ翻訳情報格納部102から素性として取得する。
【0046】
目的言語モデル確率取得手段1103は、2以上の各目的言語文の目的言語モデル確率(素性の一種)を、目的言語確率情報格納部103から取得する。目的言語モデル確率取得手段1103は、翻訳部109が取得した目的言語文であり、原文および1以上のパラフレーズ文の各文に対応する目的言語文の目的言語モデル確率を取得する。
【0047】
原言語モデル素性取得手段1104は、原文および1以上のパラフレーズ文の各文が有する1以上のフレーズに対応する1以上の原言語モデル素性を取得する。
【0048】
パラフレーズサイズ取得手段1105は、1以上の各パラフレーズ文に対して、パラフレーズする前と後の文長の差に関する情報であるパラフレーズサイズを取得する。パラフレーズサイズ取得手段1105は、元フレーズおよび当該元フレーズに対応するパラフレーズの長さを取得し、2つのフレーズの差を得る。そして、例えば、パラフレーズサイズ取得手段1105は、「パラフレーズサイズ=exp(パラフレーズの長さ−元フレーズの長さ)」により、パラフレーズサイズを取得する。
【0049】
スコア算出部111は、原文および1以上のパラフレーズ文の各文に対して、素性取得部110が取得した1以上の素性を用いて、各文のスコアを算出する。
【0050】
スコア算出部111は、原文および1以上のパラフレーズ文の各文に対して、各文に対応する1以上の素性を用いて、各文のスコアを算出する。ここでの各文は、通常、原言語の文であるが、目的言語の文であると考えても良い。
【0051】
また、通常、スコア算出部111は、素性として、原文および1以上のパラフレーズ文が有する1以上の各フレーズのパラフレーズ確率、フレーズ翻訳確率、および各文の目的言語文の目的言語モデル確率を用いる。
【0052】
また、スコア算出部111は、さらに1以上の原言語モデル素性をも用いて、各文のスコアを算出することは好適である。
【0053】
また、スコア算出部111は、1以上の各パラフレーズ文に対して、さらに文長の差をも用いて、各文のスコアを算出することは好適である。
【0054】
また、スコア算出部111は、原文および1以上のパラフレーズ文の各文に対して、各文または各文が有するフレーズの2以上の素性の積であるスコアを算出することは好適である。つまり、スコア算出部111は、以下の数式5により、スコアを算出することは好適である。
【数5】

【0055】
なお、機械翻訳装置1は、数式6に示すように、原文fが与えられたときに目的言語文eに翻訳される翻訳確率P(e|f)が最大となるe^(^はeの上に付いている、とする)を探す処理を行うことになる。
【数6】

【0056】
出力部112は、スコア算出部111が算出したスコアのうち、最大のスコアに対応する文の目的言語文を出力する。出力部112は、翻訳部109が取得した目的言語文を出力する。ここで、「目的言語文を出力する」とは、通常、最もスコアの高い文に対応する目的言語文を出力することである。また、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
【0057】
パラフレーズ情報格納部101、フレーズ翻訳情報格納部102、目的言語確率情報格納部103、および原言語モデル素性情報格納部104は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0058】
パラフレーズ情報格納部101等にパラフレーズ情報等が記憶される過程は問わない。例えば、記録媒体を介してパラフレーズ情報等がパラフレーズ情報格納部101等で記憶されるようになってもよく、通信回線等を介して送信されたパラフレーズ情報等がパラフレーズ情報格納部101等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたパラフレーズ情報等がパラフレーズ情報格納部101等で記憶されるようになってもよい。
【0059】
分割部106、パラフレーズ取得部107、パラフレーズラティス取得部108、翻訳部109、素性取得部110、スコア算出部111、パラフレーズ確率取得手段1101、フレーズ翻訳確率取得手段1102、目的言語モデル確率取得手段1103、原言語モデル素性取得手段1104、およびパラフレーズサイズ取得手段1105は、通常、MPUやメモリ等から実現され得る。分割部106等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0060】
出力部112は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部112は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、機械翻訳装置1の動作について図2のフローチャートを用いて説明する。
【0061】
(ステップS201)受付部105は、翻訳対象の原文を受け付けたか否かを判断する。原文を受け付ければステップS202に行き、原文を受け付けなければステップS201に戻る。
【0062】
(ステップS202)分割部106は、ステップS201で受け付けられた原文をフレーズに分割し、1以上のフレーズを取得する。
【0063】
(ステップS203)パラフレーズ取得部107は、カウンタiに1を代入する。
【0064】
(ステップS204)パラフレーズ取得部107は、ステップS202で取得された1以上のフレーズの中に、i番目のフレーズが存在するか否かを判断する。i番目のフレーズが存在すればステップS205に行き、存在しなければステップS210に行く。
【0065】
(ステップS205)パラフレーズラティス取得部108は、原文の先頭からi番目のフレーズを取得し、(i−1)番目のフレーズにリンク付けて、i番目のフレーズを、バッファに格納する。なお、iが1の場合は、パラフレーズラティス取得部108は、1番目のフレーズをバッファに格納するだけである。
【0066】
(ステップS206)パラフレーズ取得部107は、パラフレーズ情報格納部101から、i番目のフレーズと対になる1以上のパラフレーズを検索する。
【0067】
(ステップS207)パラフレーズラティス取得部108は、ステップS206でパラフレーズが検索されたか否かを判断する。パラフレーズが検索されればステップS208に行き、検索されなければステップS209に行く。
【0068】
(ステップS208)パラフレーズラティス取得部108は、ステップS206で検索された1以上の各パラフレーズを、(i−1)番目のフレーズにリンク付けてバッファに格納する。なお、iが1の場合は、パラフレーズラティス取得部108は、1以上の各パラフレーズをバッファに格納するだけである。
【0069】
(ステップS209)パラフレーズ取得部107は、カウンタiを1、インクリメントし、ステップS204に戻る。
【0070】
(ステップS210)素性取得部110は、原文および1以上の各パラフレーズ文に対して、パラフレーズラティスを構成する1以上のフレーズの1以上の素性、または原文および1以上の各パラフレーズ文の1以上の素性、または原文および1以上の各パラフレーズ文を翻訳して取得された目的言語文の1以上の素性、のうちの1以上の素性を取得する。かかる処理を素性取得処理という。素性取得処理の具体例について、図3のフローチャートを用いて説明する。
【0071】
(ステップS211)スコア算出部111は、カウンタiに1を代入する。
【0072】
(ステップS212)スコア算出部111は、i番目の文(原文またはパラフレーズ文)が存在するか否かを判断する。i番目の文が存在すればステップS213に行き、存在しなければステップS215に行く。
【0073】
(ステップS213)スコア算出部111は、ステップS210で取得された1以上の素性を用いて、i番目の文のスコアを算出する。
【0074】
(ステップS214)スコア算出部111は、カウンタiを1、インクリメントし、ステップS212に戻る。
【0075】
(ステップS215)出力部112は、スコア算出部111が算出したスコアのうち、最大のスコアに対応する文の目的言語文を取得する。
【0076】
(ステップS216)出力部112は、ステップS215で取得した目的言語文を出力し、ステップS201に戻る。
【0077】
なお、図2のフローチャートにおいて、ステップS205からステップS209の処理により、パラフレーズラティスが構築される。
【0078】
また、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
【0079】
次に、ステップS210の素性取得処理について、図3のフローチャートを用いて説明する。
【0080】
(ステップS301)素性取得部110は、カウンタiに1を代入する。
【0081】
(ステップS302)素性取得部110は、i番目のフレーズが存在するか否かを判断する。i番目のフレーズが存在すればステップS303に行き、存在しなければステップS308に行く。なお、ここでのフレーズは、パラフレーズでも良い。
【0082】
(ステップS303)素性取得部110を構成するパラフレーズ確率取得手段1101は、i番目のフレーズをキーとしてパラフレーズ情報格納部101を検索し、パラフレーズ確率を取得する。なお、i番目のフレーズが原文のフレームであれば(パラフレーズでなければ)、パラフレーズ確率を「1」とする。また、パラフレーズ確率取得手段1101は、取得したパラフレーズ確率を、i番目のフレーズに対応付けて一時蓄積する。
【0083】
(ステップS304)フレーズ翻訳確率取得手段1102は、i番目のフレーズをキーとしてフレーズ翻訳情報格納部102を検索し、フレーズ翻訳確率を取得する。なお、i番目のフレーズが、フレーズ翻訳情報格納部102に存在しない場合、フレーズ翻訳確率取得手段1102は、フレーズ翻訳確率「0」を得る、とする。また、フレーズ翻訳確率取得手段1102は、i番目のフレーズに対応するフレーズ翻訳確率を、複数、取得することはあり得る。かかる場合、i番目のフレーズに対応する目的言語のフレーズが複数、存在する場合である。また、フレーズ翻訳確率取得手段1102は、取得したフレーズ翻訳確率を、i番目のフレーズに対応付けて一時蓄積する。また、フレーズ翻訳確率取得手段1102は、i番目のフレーズを先頭に含む連続した2以上のフレーズに対応するフレーズ翻訳確率を取得しても良い。通常、フレーズ翻訳確率取得手段1102は、i番目のフレーズを先頭に含む、最も長いフレーズに対応するフレーズ翻訳確率を取得する。なお、すでにフレーズ翻訳確率が取得された2以上のフレーズにi番目のフレーズが含まれる場合、本ステップで、フレーズ翻訳確率は取得されない。
【0084】
(ステップS305)原言語モデル素性取得手段1104は、i番目のフレーズをキーとして原言語モデル素性情報格納部104を検索し、原言語モデル素性を取得する。
【0085】
(ステップS306)パラフレーズサイズ取得手段1105は、i番目のフレーズのパラフレーズサイズを取得する。なお、i番目のフレーズが元フレーズである場合、パラフレーズサイズは、例えば、「exp(0)=1」となる。
【0086】
(ステップS307)カウンタiを1、インクリメントし、ステップS302に戻る。
【0087】
(ステップS308)翻訳部109は、カウンタiに1を代入する。
【0088】
(ステップS309)翻訳部109は、パラフレーズラティスが構成するi番目の文が存在するか否かを判断する。i番目の文が存在すればステップS310に行き、存在しなければ上位処理にリターンする。パラフレーズラティスが構成する文は、パラフレーズラティスの分岐の組み合わせの数だけ存在する。
【0089】
(ステップS310)翻訳部109は、i番目の文を取得する。この文は、1以上のフレーズの集合である。また、文は、原文またはパラフレーズ文である。なお、翻訳部109は、パラフレーズラティスを構成するフレーズを連結して文を構成する。
【0090】
(ステップS311)翻訳部109は、i番目の文を構成する各フレーズに対応する1以上の目的言語フレーズをフレーズ翻訳情報格納部102から読み出し、当該1以上の目的言語フレーズから目的言語文を構成する。
【0091】
(ステップS312)目的言語モデル確率取得手段1103は、ステップS311で取得した目的言語文の目的言語モデル確率を、目的言語確率情報格納部103から取得する。
【0092】
(ステップS313)翻訳部109は、カウンタiを1、インクリメントし、ステップS309に戻る。
【0093】
なお、図3のフローチャートにおいて、取得した素性は一例である、他の素性を取得しても良い。他の素性として、「パラフレーズ部分の品詞の一致度」「パラフレーズ前後の文脈の一致度」「P(e2|e1)/P(e1|e1)」などがある。「パラフレーズ部分の品詞の一致度」は、例えば、パラフレーズ部分の品詞が一致していれば1、それ以外は0となる。また、「パラフレーズ前後の文脈の一致度」は、例えば、前後N単語の単語ベクトルの距離である。また、「P(e2|e1)/P(e1|e1)」は、パラフレーズ確率をP(e1|e1)で割った値である。
また、機械翻訳装置1で利用する素性について、効果があると考えられる素性は、以下のように、2つに分類できる。第一に、文脈依存の素性である。第二に、文脈非依存の素性である。文脈依存の素性として、原言語モデル素性、パラフレーズ部分の品詞の一致度、パラフレーズ前後の文脈の一致度などがある。また、原言語モデル素性の例として、原言語モデルスコア(l)、正規化原言語モデルスコア(L)などがある。さらに、文脈非依存の素性として、パラフレーズ確率(p)、パラフレーズサイズ(d)、P(e2|e1)/P(e1|e1)などがある。
【0094】
次に、機械翻訳装置1の動作の概念について、図4を用いて説明する。機械翻訳装置1が行う翻訳の流れは図4のようになる。つまり、あらかじめ、トレーニング用とは別のパラレルコーパスからパラフレーズを自動的に獲得しておく。そして、翻訳対象の原文が与えられると、獲得したパラフレーズを用いて原文をパラフレーズし、ラティスの形式に変換する。このラティスのことをパラフレーズラティスと呼ぶ。最後に、このパラフレーズラティスに対してラティスデコーディングを適用し翻訳文を得る。
【0095】
なお、パラレルコーパスからパラフレーズを自動的に獲得する処理は、例えば、以下のように行う。まず、パラレルコーパスのアライメントをとり、ある言語の2つのフレーズe、eが双方とも別の言語のフレーズcとアライメントされているなら、2つのフレーズe、eがパラフレーズ候補であるとする手法であり、その手順は以下の(1)から(4)のようになる。
(1)フレーズテーブルの作成
【0096】
パラレルコーパスから通常のフレーズベースSMTと同様の手順でフレーズテーブルを作成する。
(2)sigtest−filterによるフィルタリング
【0097】
(1)で得られたフレーズテーブルには信頼度の低いフレーズペアも含まれているため、sigtest−filter(J Howard Johnson, Joel Martin, George Foster,and Roland Kuhn. Improving translation quality by discarding most of the phrasetable. In Pro-ceedings of EMNLP-CoNLL 2007, pp.967-975,2007.参照)を用いて信頼度の高いフレーズペアだけを残す。
(3)パラフレーズ確率の算出
【0098】
のパラフレーズ候補として、eがある場合,以下の数式7ようなパラフレーズ確率p(e|e)を算出する。
【数7】

【0099】
ここで,P(・|・)はフレーズ翻訳確率である。
(4)パラフレーズの獲得
【0100】
p(e|e)>p(e|e)となるフレーズeをeのパラフレーズとして抽出する。
【0101】
次に、本実施の形態における機械翻訳装置1の具体的な動作について説明する。
【0102】
今、パラフレーズ情報格納部101は、図5に示すパラフレーズ情報管理表を保持している。パラフレーズ情報管理表は、元フレーズ、パラフレーズ、パラフレーズ確率を有するレコードを、複数格納している。このパラフレーズ情報管理表は、フレーズ「anodyne」は、パラフレーズ「pain killer」または、「sedative」に言い換えられる可能性があることを示す。
【0103】
フレーズ翻訳情報格納部102は、図6に示すフレーズテーブル(フレーズ翻訳情報管理表と言っても良い。)を保持している。フレーズテーブルは、原言語フレーズ、目的言語フレーズ、およびフレーズ翻訳確率を有するレコードを、複数格納している。
【0104】
目的言語確率情報格納部103は、図7に示す目的言語確率情報管理表を保持している。目的言語確率情報管理表は、目的言語文と、目的言語モデル確率とを有するレコードを、複数格納している。なお、目的言語確率情報に含まれる目的言語モデル確率は、目的言語としての文の尤もらしさを示す情報であり、例えば、Nグラムモデル等を使って計算する。
【0105】
原言語モデル素性情報格納部104は、図8に示す原言語モデル素性情報管理表を保持している。原言語モデル素性情報管理表は、元フレーズと、原言語モデルスコアとを有するレコードを、複数格納している。
【0106】
かかる状況において、機械翻訳装置1に、原文「give me some anodyne , please .」を受け付けた、とする。
【0107】
次に、分割部106は、受け付けられた原文「give me some anodyne , please .」をフレーズに分割し、1以上のフレーズ「give」「me」「some」「anodyne」「,」「please」「.」を取得する。
【0108】
次に、パラフレーズ取得部107は、パラフレーズ情報管理表から、上記の1以上の各フレーズに対するパラフレーズを取得する。つまり、パラフレーズ取得部107は、元フレーズ「anodyne」に対するパラフレーズ、「pain killer」「sedative」を取得する。
【0109】
そして、パラフレーズラティス取得部108は、原文を構成する元フレーズを順に、リンク付けながら、図示しないバッファに一時蓄積し、かつ、パラフレーズ、「pain killer」「sedative」も元フレーズ「anodyne」の前のフレーズ「some」にリンク付けてバッファに一時蓄積する。
【0110】
そして、パラフレーズラティス取得部108は、図9に示すフレーズ間のリンク構造を有するパラフレーズラティスを得る。なお、このパラフレーズラティスから原文「give me some anodyne , please .」、2つのパラフレーズ文「give me some pain killer , please .」「give me some sedative , please .」を得ることができる。
【0111】
次に、パラフレーズ確率取得手段1101は、各フレーズに対して、パラフレーズ確率を取得する。つまり、パラフレーズ確率取得手段1101は、各フレーズをキーとしてパラフレーズ情報管理表の「パラフレーズ」を検索し、対応するパラフレーズ確率を得る。そして、フレーズがパラフレーズ情報管理表の「パラフレーズ」に存在しない場合、そのパラフレーズ確率は「1」とする。そして、パラフレーズ確率取得手段1101は、フレーズ「pain killer」のパラフレーズ確率「0.182」、フレーズ「sedative」のパラフレーズ確率「0.273」、それ以外のフレーズのパラフレーズ確率「1」を取得する。
【0112】
次に、フレーズ翻訳確率取得手段1102は、1以上のフレーズに対して、フレーズ翻訳確率を取得する。つまり、フレーズ翻訳確率取得手段1102は、1以上のフレーズをキーとしてフレーズテーブルを検索し、対応するフレーズ翻訳確率を得る。そして、フレーズがフレーズテーブルの「原言語フレーズ」に存在しない場合、フレーズ翻訳確率を「0」とする。そして、フレーズ翻訳確率取得手段1102は、「「give me some」「私に、」」に対してフレーズ翻訳確率「0.17」、「anodyne」に対してフレーズ翻訳確率「0」、「「pain killer」「鎮痛剤」」に対してフレーズ翻訳確率「0.52」、「「sedative」「鎮静剤」」に対してフレーズ翻訳確率「0.38」、「「, please .」「をください。」」に対してフレーズ翻訳確率「0.31」を得る。
【0113】
次に、原言語モデル素性取得手段1104は、1以上のフレーズをキーとして原言語モデル素性情報管理表を検索し、原言語モデルスコアを得る。つまり、原言語モデル素性取得手段1104は、フレーズ「pain killer」に対して原言語モデルスコア「0.191」を得て、フレーズ「sedative」に対して原言語モデルスコア「0.837」を得る。なお、原言語モデル素性取得手段1104は、原言語モデル素性情報管理表に存在しないフレーズの原言語モデルスコアは「1」として、取得する、とする。そして、原言語モデル素性取得手段1104は、「pain killer」「sedative」以外のフレーズに対して、言語モデルスコア「1」を取得した、とする。
【0114】
次に、パラフレーズサイズ取得手段1105は、フレーズ「pain killer」のパラフレーズサイズ「exp(1)=2.718」を取得する。また、パラフレーズサイズ取得手段1105は、フレーズ「sedative」のパラフレーズサイズ「exp(0)=1」を取得する。さらに、パラフレーズサイズ取得手段1105は、置き換えられていないフレーズ(元フレーム)に対して、パラフレーズサイズ「1」を得る。
【0115】
以上の処理により、各フレーズに取得された素性(上記の各値)が対応付けて格納され、図9のパラフレーズラティスの各フレーズに対して、図10に示すように、素性が付与されたこととなる。
【0116】
次に、翻訳部109は、1番目の文「give me some anodyne , please .」を取得する。そして、翻訳部109は、1番目の文を構成する1以上のフレーズに対応する1以上の目的言語フレーズをフレーズテーブルから読み出し、当該1以上の目的言語フレーズから目的言語文「私に、anodyneをください。」を構成する。なお、「anodyne」はフレーズテーブルに存在しないので、翻訳部109は、「anodyne」を目的言語文に採用する。
【0117】
次に、目的言語モデル確率取得手段1103は、1番目の目的言語文の目的言語モデル確率を、目的言語確率情報管理表から検索し、取得する。ここで、目的言語モデル確率取得手段1103は、1番目の目的言語文が検索できなかったので、目的言語モデル確率「0」を取得した、とする。
【0118】
次に、翻訳部109は、2番目の文「give me some pain killer , please .」を取得する。そして、翻訳部109は、2番目の文を構成する各フレーズに対応する1以上の目的言語フレーズをフレーズテーブルから読み出し、当該1以上の目的言語フレーズから目的言語文「私に、鎮痛剤をください。」を構成する。
【0119】
次に、目的言語モデル確率取得手段1103は、2番目の目的言語文の目的言語モデル確率「0.57」を、目的言語確率情報管理表から検索し、取得する。
【0120】
次に、翻訳部109は、3番目の文「give me some sedative , please .」を取得する。そして、翻訳部109は、3番目の文を構成する各フレーズに対応する1以上の目的言語フレーズをフレーズテーブルから読み出し、当該1以上の目的言語フレーズから目的言語文「私に、鎮静剤をください。」を構成する。
【0121】
次に、目的言語モデル確率取得手段1103は、3番目の目的言語文の目的言語モデル確率「0.23」を、目的言語確率情報管理表から検索し、取得する。
【0122】
次に、スコア算出部111は、1番目の文「give me some anodyne , please .」のスコアを算出し、「0」を得る。スコア算出部111は、数式5によりスコアを算出する。そして、「anodyne」に対するフレーズ翻訳確率が「0」であるから、算出されるスコアは「0」となる。
【0123】
次に、スコア算出部111は、2番目の文「give me some pain killer , please .」のスコア「P(e|f)」を、図11に示すように算出する。つまり、2番目の文のスコア「P(e|f)」は、「give me some」のフレーズ翻訳確率「0.17」、「pain killer」のフレーズ翻訳確率「0.52」、「, please .」のフレーズ翻訳確率「0.31」、目的言語モデル(目的言語モデル確率)「0.57」、「pain killer」のパラフレーズ確率「0.182」、「pain killer」の原言語モデルスコア「0.191」、「pain killer」のパラフレーズサイズ「2.718」の積である「0.001476」となる。
【0124】
また、スコア算出部111は、3番目の文「give me some sedative , please .」のスコア「P(e|f)」を、図11に示すように算出する。つまり、3番目の文のスコア「P(e|f)」は、「give me some」のフレーズ翻訳確率「0.17」、「sedative」のフレーズ翻訳確率「0.38」、「, please .」のフレーズ翻訳確率「0.31」、目的言語モデル(目的言語モデル確率)「0.23」、「sedative」のパラフレーズ確率「0.273」、「sedative」の原言語モデルスコア「0.837」、「sedative」のパラフレーズサイズ「1」の積である「0.001052」となる。
【0125】
次に、出力部112は、スコア算出部111が算出したスコアのうち、最大のスコア「0.001476」に対応する文「give me some pain killer , please .」の目的言語文「私に、鎮痛剤をください。」を取得する。
【0126】
次に、出力部112は、取得した目的言語文「私に、鎮痛剤をください。」を出力する。
(実験)
【0127】
次に、実験結果について説明する。機械翻訳装置1の手法(以下、本手法と適宜、言う。)の有効性を確認するために、英日、英中翻訳の実験をIWSLT2007のデータセットを用いて行った。このデータセットは旅行会話に関するパラレルコーパスで、英日、英中ともトレーニング用として約4万文、訓練用、評価用としてdev1〜dev3セットが各々約500文(対訳)となっている。dev1は,パラメータチューニング用、dev2は、本手法の条件設定の選択用、dev3は、評価用として用いた。パラフレーズの獲得は、英日翻訳の場合は英中のパラレルコーパスを用いて行い、約5.3万ペアのパラフレーズリストが得られた。同様に、英中翻訳の場合は、英日のパラレルコーパスから約4.7万ペアが得られた。
【0128】
ベースラインとしてMosesと、Callison−Burchらの手法(CCB)を用いた(Chris Callison-Burch, Philipp Koehn, and Miles Osborne. Improved statistical machine trans-lation using paraphrases. In Proceedings of NAACL-2006, pp. 17-24, 2006.参照)。Mosesは,パラフレーズを行わず通常のフレーズベースSMTを行った。CCBでは、フレーズテーブルを本手法と同じパラフレーズリストを用いて展開し、それによって新たなフレーズ翻訳が得られると、それをフレーズテーブルに追加して翻訳を行った。このとき、フレーズテーブルにパラフレーズ用の素性としてパラフレーズ確率(p)を追加し、MERTでパラメータチューニングを行った。
【0129】
また、本手法では,パラフレーズラティス作成時の制限や、ラティスデコーディング時に用いる素性によって条件を変えて実験を行い、dev2を用いて最適な条件を選択した。
(1)パラフレーズの制限について
【0130】
自動で獲得したパラフレーズリストには間違ったパラフレーズも多く含まれており,それらを全てパラフレーズラティスに加えてラティスデコーディングするのは計算量も増大するため、1文または1フレーズに対するパラフレーズの数を制限して実験を行った。パラフレーズ数は、1フレーズあたりのパラフレーズ数を3個まで、1文あたりのパラフレーズ数を文長(単語数)の2倍の数までに制限した。また、適用するパラフレーズを選ぶ基準としては、上述のp,l,Lの素性を用いる3通りの方法を試した。
(2)素性の選択について
【0131】
パラフレーズラティス作成時の基準がp,l,Lの3通りあるのに加えて、ラティスデコーディングで用いる素性の組み合わせとして,(p),(p,l),(p,L),(p,l,d)の4通りあるため全部で4×3=12通りの組み合わせがある。そこで、各組み合わせに対してdev1でパラメータチューニングを行い、dev2を用いて最も精度が良くなる組み合わせを選んだ。
(3)結果
【0132】
評価はBLEU(Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. BLEU: a method for Automatic Evaluation of Machine Translation. In Proceedings of ACL-2002, pp.311-318参照。)によって行い、その結果を図12に示す。図12によれば、英日翻訳ではMosesに対して1.36%、CCBに対して1.10%、英中翻訳ではMosesに対して1.95%、CCBに対して0.92%のBLEU値の向上が得られた。つまり、精度は、「Moses<CCB<本手法」となった。
【0133】
なお、本実験で選択された素性は、英日翻訳ではパラフレーズラティス作成時の基準はp、ラティスデコーディングの素性は(p,L)であった。また、英中翻訳ではパラフレーズラティス作成時の基準はL、ラティスデコーディングの素性は(p,l)が選ばれた。どちらも原言語の言語モデルが含まれた素性が選択されており、ラティスデコーディングの際に言語モデルを考慮することが有効であると言える。
【0134】
以上、本実施の形態によれば、高精度な翻訳文を得ることができる。特に、ラティスデコーディングに用いる素性に原言語に関する言語モデルを利用することで文脈に合ったパラフレーズだけを選択し、より高精度な翻訳文を得ることができる。
【0135】
なお、本実施の形態によれば、スコアの取得に利用する素性は、種々、考えられる。
【0136】
また、本実施の形態によれば、スコアが大きいほど、適切な翻訳文であるとしたが、スコアの算出式が異なれば、スコアが小さいほど、適切な翻訳文である場合もある。従って、スコアが最大の目的言語文とは、最も適切な翻訳文(目的言語文)であることを言う。
【0137】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における機械翻訳装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記憶媒体に、第一のフレーズである元フレーズと、当該元フレーズが置き換えられる可能性のあるフレーズであるパラフレーズと、置き換えられる確率を示すパラフレーズ確率とを有するパラフレーズ情報を1以上格納しており、原言語フレーズと、目的言語フレーズと、前記原言語フレーズが前記目的言語フレーズに翻訳される確率であるフレーズ翻訳確率とを有するフレーズ翻訳情報を2以上格納しており、コンピュータを、翻訳対象の文である原文を受け付ける受付部と、前記受付部が受け付けた原文をフレーズに分割し、1以上のフレーズを取得する分割部と、前記分割部が分割した1以上のフレーズである元フレーズと対になるパラフレーズを、前記記憶媒体から前記1以上のフレーズごとに取得するパラフレーズ取得部と、前記分割部が取得した1以上のフレーズ、および前記パラフレーズ取得部が取得した1以上のパラフレーズを用いて、前記原文および前記原文の一部のフレーズをパラフレーズに置き換えた文である1以上のパラフレーズ文を構成するフレーズの集合を含み、かつフレーズの連結の情報を含むパラフレーズラティスを取得するパラフレーズラティス取得部と、前記原文および前記1以上の各パラフレーズ文に対して、前記パラフレーズラティスを構成する1以上のフレーズの1以上の素性、または前記原文および前記1以上の各パラフレーズ文の1以上の素性、または前記原文および前記1以上の各パラフレーズ文を翻訳して取得された目的言語文の1以上の素性、のうちの1以上の素性を取得する素性取得部と、前記原文および前記1以上のパラフレーズ文の各文に対して、前記素性取得部が取得した1以上の素性を用いて、各文のスコアを算出するスコア算出部と、前記スコア算出部が算出したスコアのうち、少なくとも最大のスコアに対応する文が有する1以上のフレーズに対応する1以上の目的言語フレーズを、前記記憶媒体から取得し、当該1以上の目的言語フレーズから目的言語文を取得する翻訳部と、前記翻訳部が取得した目的言語文を出力する出力部とを具備し、前記素性取得部は、前記原文および前記1以上の各パラフレーズ文に対して、前記各文が有するパラフレーズおよび当該パラフレーズの元になった元フレーズと対になる1以上のパラフレーズ確率を、前記記憶媒体から素性として取得するパラフレーズ確率取得手段と、前記原文および前記1以上のパラフレーズ文の各文を構成する1以上のフレーズを原言語フレーズとし、当該原言語フレーズと対になるフレーズ翻訳確率を、前記記憶媒体から素性として取得するフレーズ翻訳確率取得手段を具備するものとして機能させるプログラムである。
【0138】
また、記憶媒体に、原言語のフレーズと当該フレーズに対する原言語モデルに関する素性である原言語モデル素性とを有する原言語モデル素性情報を、2以上格納しており、上記プログラムにおいて、前記素性取得部は、前記原文および前記1以上のパラフレーズ文の各文が有する1以上のフレーズに対応する1以上の原言語モデル素性を取得する原言語モデル素性取得手段をさらに具備し、前記スコア算出部は、さらに1以上の原言語モデル素性をも用いて、各文のスコアを算出するものとして機能させるプログラムであることは好適である。
【0139】
また、上記プログラムにおいて、前記1以上の各パラフレーズ文の前記原言語モデル素性は、当該パラフレーズ文と前記原文の言語モデル確率の比である言語モデルスコアであるものとして機能させるプログラムであることは好適である。
【0140】
また、記憶媒体に、目的言語文と当該目的言語文の目的言語モデル確率とを有する目的言語確率情報を、2以上、さらに格納しており、上記プログラムにおいて、前記翻訳部は、前記原文および前記1以上のパラフレーズ文の各文が有する1以上のフレーズに対応する1以上の目的言語フレーズを、前記記憶媒体から文ごとに取得し、前記原文および前記1以上のパラフレーズ文の各文に対応する2以上の目的言語文を取得し、前記素性取得部は、前記翻訳部が取得した、前記原文および前記1以上のパラフレーズ文の各文に対応する2以上の各目的言語文の目的言語モデル確率を、前記記憶媒体から素性として取得する目的言語モデル確率取得手段をさらに具備し、前記スコア算出部は、前記原文および前記1以上のパラフレーズ文の各文に対して、当該各文が有する1以上のフレーズのパラフレーズ確率、フレーズ翻訳確率、および前記各文の目的言語モデル確率を素性として用いて、各文のスコアを算出し、前記出力部は、前記スコア算出部が算出したスコアのうち、最大のスコアに対応する文の目的言語文を出力するものとして機能させるプログラムであることは好適である。
【0141】
また、上記プログラムにおいて、前記素性取得部は、前記1以上の各パラフレーズ文に対して、パラフレーズする前と後の文長の差に関する情報であるパラフレーズサイズを取得するパラフレーズサイズ取得手段をさらに具備し、前記スコア算出部は、前記1以上の各パラフレーズ文に対して、さらに文長の差をも用いて、各文のスコアを算出するものとして機能させるプログラムであることは好適である。
【0142】
また、上記プログラムにおいて、前記スコア算出部は、前記原文および前記1以上のパラフレーズ文の各文に対して、各文または各文が有するフレーズの2以上の素性の積であるスコアを算出するものとして機能させるプログラムであることは好適である。
【0143】
また、図13は、本明細書で述べたプログラムを実行して、上述した実施の形態の機械翻訳装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図13は、このコンピュータシステム340の概観図であり、図14は、コンピュータシステム340の内部構成を示す図である。
【0144】
図13において、コンピュータシステム340は、FDドライブ3411、CD−ROMドライブ3412を含むコンピュータ341と、キーボード342と、マウス343と、モニタ344とを含む。
【0145】
図14において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、MPU3413と、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM3415とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0146】
コンピュータシステム340に、上述した実施の形態の機械翻訳装置等の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
【0147】
プログラムは、コンピュータ341に、上述した実施の形態の機械翻訳装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
【0148】
なお、上記プログラムにおいて、ハードウェアによって行われる処理は含まれない。
【0149】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0150】
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0151】
以上のように、本発明にかかる機械翻訳装置は、高精度な翻訳文を得ることができる。という効果を有し、機械翻訳装置等として有用である。
【符号の説明】
【0152】
1 機械翻訳装置
101 パラフレーズ情報格納部
102 フレーズ翻訳情報格納部
103 目的言語確率情報格納部
104 原言語モデル素性情報格納部
105 受付部
106 分割部
107 パラフレーズ取得部
108 パラフレーズラティス取得部
109 翻訳部
110 素性取得部
111 スコア算出部
112 出力部
1101 パラフレーズ確率取得手段
1102 フレーズ翻訳確率取得手段
1103 目的言語モデル確率取得手段
1104 原言語モデル素性取得手段
1105 パラフレーズサイズ取得手段

【特許請求の範囲】
【請求項1】
第一のフレーズである元フレーズと、当該元フレーズが置き換えられる可能性のあるフレーズであるパラフレーズと、置き換えられる確率を示すパラフレーズ確率とを有するパラフレーズ情報を1以上格納しているパラフレーズ情報格納部と、
原言語フレーズと、目的言語フレーズと、前記原言語フレーズが前記目的言語フレーズに翻訳される確率であるフレーズ翻訳確率とを有するフレーズ翻訳情報を2以上格納しているフレーズ翻訳情報格納部と、
翻訳対象の文である原文を受け付ける受付部と、
前記受付部が受け付けた原文をフレーズに分割し、1以上のフレーズを取得する分割部と、
前記分割部が分割した1以上のフレーズである元フレーズと対になるパラフレーズを、前記パラフレーズ情報格納部から前記1以上のフレーズごとに取得するパラフレーズ取得部と、
前記分割部が取得した1以上のフレーズ、および前記パラフレーズ取得部が取得した1以上のパラフレーズを用いて、前記原文および前記原文の一部のフレーズをパラフレーズに置き換えた文である1以上のパラフレーズ文を構成するフレーズの集合を含み、かつフレーズの連結の情報を含むパラフレーズラティスを取得するパラフレーズラティス取得部と、
前記原文および前記1以上の各パラフレーズ文に対して、前記パラフレーズラティスを構成する1以上のフレーズの1以上の素性、または前記原文および前記1以上の各パラフレーズ文の1以上の素性、または前記原文および前記1以上の各パラフレーズ文を翻訳して取得された目的言語文の1以上の素性、のうちの1以上の素性を取得する素性取得部と、
前記原文および前記1以上のパラフレーズ文の各文に対して、前記素性取得部が取得した1以上の素性を用いて、各文のスコアを算出するスコア算出部と、
前記スコア算出部が算出したスコアのうち、少なくとも最大のスコアに対応する文が有する1以上のフレーズに対応する1以上の目的言語フレーズを、前記フレーズ翻訳情報格納部から取得し、当該1以上の目的言語フレーズから目的言語文を取得する翻訳部と、
前記翻訳部が取得した目的言語文を出力する出力部とを具備し、
前記素性取得部は、
前記原文および前記1以上の各パラフレーズ文に対して、前記各文が有するパラフレーズおよび当該パラフレーズの元になった元フレーズと対になる1以上のパラフレーズ確率を、前記パラフレーズ情報格納部から素性として取得するパラフレーズ確率取得手段と、
前記原文および前記1以上のパラフレーズ文の各文を構成する1以上のフレーズを原言語フレーズとし、当該原言語フレーズと対になるフレーズ翻訳確率を、前記フレーズ翻訳情報格納部から素性として取得するフレーズ翻訳確率取得手段を具備する機械翻訳装置。
【請求項2】
原言語のフレーズと当該フレーズに対する原言語モデルに関する素性である原言語モデル素性とを有する原言語モデル素性情報を、2以上格納している原言語モデル素性情報格納部をさらに具備し、
前記素性取得部は、
前記原文および前記1以上のパラフレーズ文の各文が有する1以上のフレーズに対応する1以上の原言語モデル素性を取得する原言語モデル素性取得手段をさらに具備し、
前記スコア算出部は、
さらに1以上の原言語モデル素性をも用いて、各文のスコアを算出する請求項1記載の機械翻訳装置。
【請求項3】
前記1以上の各パラフレーズ文の前記原言語モデル素性は、
当該パラフレーズ文と前記原文の言語モデル確率の比である言語モデルスコアである請求項2記載の機械翻訳装置。
【請求項4】
前記翻訳部は、
前記原文および前記1以上のパラフレーズ文の各文が有する1以上のフレーズに対応する1以上の目的言語フレーズを、前記フレーズ翻訳情報格納部から文ごとに取得し、前記原文および前記1以上のパラフレーズ文の各文に対応する2以上の目的言語文を取得し、
目的言語文と当該目的言語文の目的言語モデル確率とを有する目的言語確率情報を、2以上格納している目的言語確率情報格納部をさらに具備し、
前記素性取得部は、
前記翻訳部が取得した、前記原文および前記1以上のパラフレーズ文の各文に対応する2以上の各目的言語文の目的言語モデル確率を、前記目的言語確率情報格納部から素性として取得する目的言語モデル確率取得手段をさらに具備し、
前記スコア算出部は、
前記原文および前記1以上のパラフレーズ文の各文に対して、前記各文の目的言語モデル確率をさらに素性として用いて、各文のスコアを算出し、
前記出力部は、
前記スコア算出部が算出したスコアのうち、最大のスコアに対応する文の目的言語文を出力する請求項1から請求項3いずれか記載の機械翻訳装置。
【請求項5】
前記素性取得部は、
前記1以上の各パラフレーズ文に対して、パラフレーズする前と後の文長の差に関する情報であるパラフレーズサイズを取得するパラフレーズサイズ取得手段をさらに具備し、
前記スコア算出部は、
前記1以上の各パラフレーズ文に対して、さらに文長の差をも用いて、各文のスコアを算出する請求項1から請求項4いずれか記載の機械翻訳装置。
【請求項6】
記憶媒体に、
第一のフレーズである元フレーズと、当該元フレーズが置き換えられる可能性のあるフレーズであるパラフレーズと、置き換えられる確率を示すパラフレーズ確率とを有するパラフレーズ情報を1以上格納しており、
原言語フレーズと、目的言語フレーズと、前記原言語フレーズが前記目的言語フレーズに翻訳される確率であるフレーズ翻訳確率とを有するフレーズ翻訳情報を2以上格納しており、
受付部、分割部、パラフレーズ取得部、パラフレーズラティス取得部、素性取得部、スコア算出部、翻訳部、および出力部により実現される機械翻訳方法であって、
前記受付部により、翻訳対象の文である原文を受け付ける受付ステップと、
前記分割部により、前記受付ステップで受け付けられた原文をフレーズに分割し、1以上のフレーズを取得する分割ステップと、
前記パラフレーズ取得部により、前記分割ステップで分割された1以上のフレーズである元フレーズと対になるパラフレーズを、前記記憶媒体から前記1以上のフレーズごとに取得するパラフレーズ取得ステップと、
前記パラフレーズラティス取得部により、前記分割ステップで取得された1以上のフレーズ、および前記パラフレーズ取得ステップで取得された1以上のパラフレーズを用いて、前記原文および前記原文の一部のフレーズをパラフレーズに置き換えた文である1以上のパラフレーズ文を構成するフレーズの集合を含み、かつフレーズの連結の情報を含むパラフレーズラティスを取得するパラフレーズラティス取得ステップと、
前記素性取得部により、前記原文および前記1以上の各パラフレーズ文に対して、前記パラフレーズラティスを構成する1以上のフレーズの1以上の素性、または前記原文および前記1以上の各パラフレーズ文の1以上の素性、または前記原文および前記1以上の各パラフレーズ文を翻訳して取得された目的言語文の1以上の素性、のうちの1以上の素性を取得する素性取得ステップと、
前記スコア算出部により、前記原文および前記1以上のパラフレーズ文の各文に対して、前記素性取得ステップで取得された1以上の素性を用いて、各文のスコアを算出するスコア算出ステップと、
前記翻訳部により、前記スコア算出ステップで算出されたスコアのうち、少なくとも最大のスコアに対応する文が有する1以上のフレーズに対応する1以上の目的言語フレーズを、前記記憶媒体から取得し、当該1以上の目的言語フレーズから目的言語文を取得する翻訳ステップと、
前記出力部により、前記翻訳ステップで取得された目的言語文を出力する出力ステップとを具備し、
前記素性取得ステップは、
前記原文および前記1以上の各パラフレーズ文に対して、前記各文が有するパラフレーズおよび当該パラフレーズの元になった元フレーズと対になる1以上のパラフレーズ確率を、前記記憶媒体から素性として取得するパラフレーズ確率取得サブステップと、
前記原文および前記1以上のパラフレーズ文の各文を構成する1以上のフレーズを原言語フレーズとし、当該原言語フレーズと対になるフレーズ翻訳確率を、前記記憶媒体から素性として取得するフレーズ翻訳確率取得サブステップを具備する機械翻訳方法。
【請求項7】
記憶媒体に、
第一のフレーズである元フレーズと、当該元フレーズが置き換えられる可能性のあるフレーズであるパラフレーズと、置き換えられる確率を示すパラフレーズ確率とを有するパラフレーズ情報を1以上格納しており、
原言語フレーズと、目的言語フレーズと、前記原言語フレーズが前記目的言語フレーズに翻訳される確率であるフレーズ翻訳確率とを有するフレーズ翻訳情報を2以上格納しており、
コンピュータを、
翻訳対象の文である原文を受け付ける受付部と、
前記受付部が受け付けた原文をフレーズに分割し、1以上のフレーズを取得する分割部と、
前記分割部が分割した1以上のフレーズである元フレーズと対になるパラフレーズを、前記記憶媒体から前記1以上のフレーズごとに取得するパラフレーズ取得部と、
前記分割部が取得した1以上のフレーズ、および前記パラフレーズ取得部が取得した1以上のパラフレーズを用いて、前記原文および前記原文の一部のフレーズをパラフレーズに置き換えた文である1以上のパラフレーズ文を構成するフレーズの集合を含み、かつフレーズの連結の情報を含むパラフレーズラティスを取得するパラフレーズラティス取得部と、
前記原文および前記1以上の各パラフレーズ文に対して、前記パラフレーズラティスを構成する1以上のフレーズの1以上の素性、または前記原文および前記1以上の各パラフレーズ文の1以上の素性、または前記原文および前記1以上の各パラフレーズ文を翻訳して取得された目的言語文の1以上の素性、のうちの1以上の素性を取得する素性取得部と、
前記原文および前記1以上のパラフレーズ文の各文に対して、前記素性取得部が取得した1以上の素性を用いて、各文のスコアを算出するスコア算出部と、
前記スコア算出部が算出したスコアのうち、少なくとも最大のスコアに対応する文が有する1以上のフレーズに対応する1以上の目的言語フレーズを、前記記憶媒体から取得し、当該1以上の目的言語フレーズから目的言語文を取得する翻訳部と、
前記翻訳部が取得した目的言語文を出力する出力部とを具備し、
前記素性取得部は、
前記原文および前記1以上の各パラフレーズ文に対して、前記各文が有するパラフレーズおよび当該パラフレーズの元になった元フレーズと対になる1以上のパラフレーズ確率を、前記記憶媒体から素性として取得するパラフレーズ確率取得手段と、
前記原文および前記1以上のパラフレーズ文の各文を構成する1以上のフレーズを原言語フレーズとし、当該原言語フレーズと対になるフレーズ翻訳確率を、前記記憶媒体から素性として取得するフレーズ翻訳確率取得手段を具備するものとして機能させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2011−180823(P2011−180823A)
【公開日】平成23年9月15日(2011.9.15)
【国際特許分類】
【出願番号】特願2010−44213(P2010−44213)
【出願日】平成22年3月1日(2010.3.1)
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】