説明

情報処理装置、方法及びプログラム

【課題】より多様な対訳辞書を基礎として新たな対訳辞書を適切な精度で自動生成する。
【解決手段】新たな対訳辞書を作成したい第一と第二の両言語について同一又は類似の素材テキストを用意し、それぞれを第三の言語に翻訳した翻訳文の間で同一類似の語を抽出し、抽出した語に対応する第一と第二の両言語の語同士を対応付けて対訳辞書とする。これにより、適切な精度で第一→第三及び第二→第三の対訳辞書があれば、第三→第二の対訳辞書が無いか又は精度が劣る場合でも、第三の言語に翻訳した語同士の類似度に基づいて、第一→第二の対訳辞書が適切な精度で自動作成できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械翻訳に関する。
【背景技術】
【0002】
従来、インターネットのウェブサイトなどにおいて、入力された原文を他の言語に変換して表示する、いわゆる機械翻訳のサービスが提供されている。この種の機械翻訳の精度を向上する工夫として、原文に基づく翻訳文の候補をウェブ検索エンジンに入力して検索結果のヒット数が多いものを、よく使う表現として優先的に採用する提案が知られている(例えば、特許文献1参照)。
【0003】
ところで、従来、機械翻訳には、ある言語の語に、他の言語におけるその訳語を対応付けたデータである対訳コーパス(「対訳辞書」などとも俗称されるので、以下「対訳辞書」とも呼ぶ)が必要である。なお、対訳辞書は、上記のように訳語を対応付けたデータである狭義の対訳辞書に限らず、これに加え対訳ルールや用例、確率モデルなども含んだシステムとして機能するもの(データ、データ構造、装置、システム、プログラムなど)を広く意味する。そして、そのような対訳辞書については、人手で作成していたため労力などの負担が多大であり、その自動化が潜在的に望まれていた。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−87157号
【非特許文献】
【0005】
【非特許文献1】Kishore Papineni, “BLUE: a Method for Automatic Evaluation of Machine Translation,” ACL pp.311-318 (2002)
【発明の概要】
【発明が解決しようとする課題】
【0006】
この場合、既存の対訳辞書を用いて、新たな言語の組合せでの対訳辞書を作成することも考えられる。例えば、日本語(日)、英語(英)、中国語(中)のうち、日→英、英→中という二種の対訳辞書があれば、英語を中継ぎとして両者を組み合わせ、日→中という対訳辞書を作成することができる。
【0007】
但し、対訳辞書には方向があるため、日→中という方向の対訳辞書を新たに作成する基礎としては、日→英、英→中という方向の対訳辞書が必要となる。したがって、対応付けの前半となる日→英の対訳辞書はあるが、後半となる英→中という順方向の対訳辞書が無いか又は精度が不十分な場合、中→英という逆方向の対訳辞書では適切な精度であっても利用できず、対訳辞書の組合せによる新たな対訳辞書を適切な精度で自動生成できないという課題があった。
【0008】
上記の課題に対し、本発明の目的は、より多様な対訳辞書を基礎として新たな対訳辞書を適切な精度で自動生成することである。
【課題を解決するための手段】
【0009】
上記の目的をふまえ、本発明の一態様(1)は、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成する情報処理装置において、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段と、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得する素材取得手段と、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳し、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳する翻訳手段と、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出する類似語抽出手段と、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出する対訳語抽出手段と、抽出された前記対訳語の組を前記新たな対訳辞書に登録する辞書登録手段と、を有することを特徴とする。
【0010】
本発明の他の態様(8)は、上記態様を方法のカテゴリで捉えたもので、コンピュータを用いて、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成する情報処理方法において、コンピュータが、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段を実現しており、コンピュータが、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得する素材取得処理と、コンピュータが、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳し、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳する翻訳処理と、コンピュータが、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出する類似語抽出処理と、コンピュータが、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出する対訳語抽出処理と、コンピュータが、抽出された前記対訳語の組を前記新たな対訳辞書に登録する辞書登録処理と、を含むことを特徴とする。
【0011】
本発明の他の態様(9)は、上記態様をコンピュータ・プログラムのカテゴリで捉えたもので、コンピュータを制御することにより、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成させる情報処理プログラムであって、そのプログラムは、コンピュータに、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段を実現させ、コンピュータに、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得させ、コンピュータに、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳させるとともに、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳させ、コンピュータに、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出させ、コンピュータに、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出させ、コンピュータに、抽出された前記対訳語の組を前記新たな対訳辞書に登録させることを特徴とする。
【0012】
このように、新たな対訳辞書を作成したい第一と第二の両言語について同一又は類似の素材テキストを用意し、それぞれを第三の言語に翻訳した翻訳文の間で同一類似の語を抽出し、抽出した語に対応する第一と第二の両言語の語同士を対応付けて対訳辞書とする。これにより、適切な精度で第一→第三及び第二→第三の対訳辞書があれば、第三→第二の対訳辞書が無いか又は精度が劣る場合でも、第三の言語に翻訳した語同士の類似度に基づいて、第一→第二の対訳辞書が適切な精度で自動作成できる。
【0013】
本発明の他の態様(2)は、上記いずれかの態様において、前記素材取得手段は、所定のウェブ検索システムから一のキーワードに基づいて、前記第一の言語のウェブページを複数含む第一のウェブ検索結果を取得し、所定のウェブ検索システムから前記キーワードに基づいて、前記第二の言語のウェブページを複数含む第二のウェブ検索結果を取得し、前記第一の言語のウェブページと前記第二の言語のウェブページのうち、互いに所定の共通する特徴を有する第一の言語のウェブページ及び第二の言語のウェブページを、それぞれ前記第一の素材テキスト及び前記第二の素材テキストとして取得することを特徴とする。
【0014】
このように、ウェブ検索システムで同じキーワードに基づいて検索しヒットした第一の言語のウェブページ群と第二の言語のウェブページ群のなかから、共通性を基に選択した各ページを、翻訳対象となる第一の素材テキストと第二の素材テキストとして取得することにより、それぞれの文書や訳文で類似語やそれに対応する語が相互に似た用法や文脈で登場する確率が高くなるので、それに基づく対訳辞書の精度が向上する。
【0015】
本発明の他の態様(3)は、上記いずれかの態様において、前記所定の共通する特徴は、前記第一の言語のウェブページ及び前記第二の言語のウェブページが相互に同一又は類似の画像を含んでいることであることを特徴とする。
【0016】
このように、画像の共通性に基づき第一の素材テキストと第二の素材テキストの組を取得することにより、画像は話題を端的に特定する場合が多いことから、共通の話題に関する文書の組に基づく的確な対訳辞書の作成を容易に実現することができる。
【0017】
本発明の他の態様(4)は、上記いずれかの態様において、前記所定の共通する特徴は、前記第一のウェブ検索結果又は前記第二のウェブ検索結果におけるクリック率の相対順位の近さであることを特徴とする。
【0018】
このように、第一の言語又は第二の言語のウェブ検索結果をアクセス元の端末に表示した場合におけるクリック率の相対順位が共通する第一の素材テキストと第二の素材テキストの組を取得することにより、人気度や注目度などの位置付けが似た文書の組に基づいて、的確な対訳辞書を容易に作成することが可能となる。
【0019】
本発明の他の態様(5)は、上記いずれかの態様において、前記素材取得手段は、一の前記第一の素材テキストに対して複数の前記第二の素材テキストを取得し、前記翻訳手段は、抽出された前記複数の前記第二の素材テキストをそれぞれ前記第二の訳文に翻訳し、前記類似語抽出手段は、前記第一の訳文と、翻訳された複数の前記第二の訳文と、の間で所定の類似性がある語をそれぞれ類似語として抽出することを特徴とする。
【0020】
このように、一つの原語文書に対して複数の第二の素材テキスト(例えば、ある日本語のページに対し、類似性の高さを表わす類似度1位から10位までの中国語ページを抽出するなど)を取得して対訳辞書の作成に用いることにより、一つの第一の言語の語に対し、第二の言語の多様な語を対応付けたり、逆に多くの第二の素材テキストで用いられた語を対応付けるなど、対訳辞書の多様性や普遍性が改善できる。
【0021】
本発明の他の態様(6)は、上記いずれかの態様において、前記素材取得手段は、複数の前記第一の素材テキストを取得するとともに、取得した複数の前記第一の素材テキストごとに、対応する前記第二の素材テキストを一又は二以上取得し、取得された前記第一の素材テキストと対応する前記第二の素材テキストの組合せごとに、前記翻訳手段が前記翻訳を行い、前記類似語抽出手段が前記類似語の抽出を行い、前記対訳語抽出手段が前記対訳語の組について抽出を行い、前記辞書登録手段が前記新たな対訳辞書への登録を行うことを特徴とする。
【0022】
このように、第一の素材テキストを複数取得すると共に、個々の第一の素材テキストごとに一つ又は複数の第二の素材テキストを取得し、第一の素材テキストと第二の素材テキストの組合せごとに翻訳、類似語の抽出、対訳辞書への登録を行うことにより、第一の言語と第二の言語の間における語のより多様な組合せを登録でき、より実用性の高い対訳辞書が得られる。
【0023】
本発明の他の態様(7)は、上記いずれかの態様において、前記辞書登録手段は、前記第一の言語の一の語に係る前記対訳語の組であって前記第二の言語の異なる語に係るものが前記対訳語抽出手段により複数抽出された場合、その抽出の回数が多い前記対訳語の組を優先して前記対訳辞書に加えることを特徴とする。
【0024】
このように、第一の素材テキストと第二の素材テキストの一つの組合せ又は複数の組合せから、第一の言語の同じ語に対し、第二の言語での表現が何通りも抽出され、対訳語の組の候補が複数ある場合、抽出すなわち登場の回数が多い対訳語の組を優先して対訳辞書に登録することにより、頻繁に用いられる語が優先的に対訳辞書に登録されるので、より多く使われる普遍的な言語表現に基づき、汎用性と精度に優れた対訳辞書を得ることができる。
【0025】
なお、上記の各態様とは異なるカテゴリ(装置に対し方法、方法に対しプログラムなど)や、以下に説明するさらに具体的な各態様も本発明に含まれる。異なるカテゴリについては、「手段」を「処理」又は「ステップ」のように適宜読み替えるものとする。また、処理やステップの実行順序は上記のものに限定されず、適宜変更したりまとめて処理するなど、変更可能である。
【発明の効果】
【0026】
本発明によれば、より多様な対訳辞書を基礎として新たな対訳辞書を適切な精度で自動生成することが可能となる。
【図面の簡単な説明】
【0027】
【図1】本発明の実施形態の構成を示す機能ブロック図。
【図2】本発明の実施形態で用いる情報(データ)を例示する図。
【図3】本発明の実施形態における処理手順を示すフローチャート。
【図4】本発明の実施形態の作用を表す概念図。
【発明を実施するための形態】
【0028】
次に、本発明を実施するための形態(「実施形態」と呼ぶ)について、図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。
【0029】
〔1.構成〕
本実施形態は、図1に示す対訳辞書生成装置1(以下「本装置1」又は「本装置」と略称する)に関するもので、本装置1は、第一の言語(ここでは日本語とし、以下「原語」とも呼ぶ)を第二の言語(ここでは中国語とし、以下「対象言語」とも呼ぶ)に翻訳するための対訳辞書(以下「新たな対訳辞書」と呼ぶ)を生成する情報処理装置である。本装置1は、一般的なコンピュータの構成として少なくとも、CPUなどの演算制御部6と、主メモリや補助記憶装置等の記憶装置7と、通信ネットワークN(インターネット、携帯電話網、LANなど)との通信手段8(LANアダプタや通信ゲートウェイ装置など)と、を有する。
【0030】
そして、本装置1では、記憶装置7に予め記憶(インストール)した図示しない所定のコンピュータ・プログラムが演算制御部6を制御することで、図1に示す各手段などの要素(10,20など)を実現する。これら各要素のうち、情報の記憶手段は、記憶装置7において各種のデータベース(「DB」とも表す)やファイル、配列等の変数、各種スタックやレジスタ、システム設定値など任意の形式で実現できる。
【0031】
このような記憶手段のうち、対訳辞書記憶手段15は、原語である日本語を第三の言語(ここでは英語とし、以下「仮言語」とも呼ぶ)に翻訳するための第一の対訳辞書JEと、対象言語である中国語を仮言語である英語に翻訳するための第二の対訳辞書CEと、新たな対訳辞書JC(例えば図2(1))と、をデータとして記憶する記憶手段である。
【0032】
これらの対訳辞書のうち、第一の対訳辞書JE及び第二の対訳辞書CEは予め記憶されているが、従来と同様でよいので詳細は省略する。また、新たな対訳辞書JCは後述の処理によって生成され、図示しない自動翻訳システムなどが利用する。また、記憶手段以外の各手段は、以下のような情報処理の機能・作用を実現・実行する処理手段である。
【0033】
〔2.作用及び効果〕
上記のように構成した本装置1が対訳辞書を生成する処理手順を図3のフローチャートに示す。また、この処理手順に対応する処理の例を図4の概念図に示す。
〔2−1.素材テキストの取得〕
図3の処理手順では、まず、素材取得手段10が、原語である日本語による第一の素材テキストJ(以下「原語文書」又は「原語文書J」と呼ぶ)と、この原語文書Jと同一又は関連する内容であって対象言語である中国語による第二の素材テキストC(以下「対象文書」又は「対象文書C」と呼ぶ)と、を取得する(ステップS1)。
【0034】
〔2−2.ウェブ検索による取得〕
ここで、原語文書Jと対象文書Cは、予め用意された素材テキストでもよいが、ウェブ検索システムから取得することが望ましい。この場合、素材取得手段10は、日本語に対応している所定のウェブ検索システムWから一のキーワードKWに基づいて、図4にも示すように、原語のウェブページ(以下「原語ページ」又は「日本語ページ」とも呼ぶ)を複数含む第一のウェブ検索結果P1を取得し(ステップS11)、また、所定のウェブ検索システムW(前記ウェブ検索システムと同一でも異なっても良いが、中国語に対応しているもの)からキーワードKWに基づいて、対象言語のウェブページ(以下「対象言語ページ」と呼ぶ)を複数含む第二のウェブ検索結果P2を取得する(ステップS12)。
【0035】
そのうえで、素材取得手段10は、第一のウェブ検索結果P1に含まれる原語ページと、第二のウェブ検索結果P2に含まれる対象言語ページのうち、互いに所定の共通する特徴を有する原語ページ及び対象言語ページ(実際には、ウェブページに含まれるテキスト)を、それぞれ原語文書J及び対象文書Cとして取得する(ステップS13)。
【0036】
このように、ウェブ検索システムで同じキーワードに基づいて検索しヒットした原語ページ群と対象言語ページ群のなかから、共通性を基に選択した各ページを、翻訳対象となる原語文書と対象文書として取得することにより、それぞれの文書や訳文で類似語やそれに対応する語が相互に似た用法や文脈で登場する確率が高くなるので、それに基づく対訳辞書の精度が向上する。
【0037】
〔2−3.共通する特徴の例〕
上記のようにウェブ検索により原語文書Jと対象文書Cを取得する基準となる前記所定の共通する特徴の一例は、原語ページ及び対象言語ページが相互に同一又は類似の画像を含んでいることである。画像間における同一類似の判断については、画像の部分ごとの特徴量を表す特徴ベクトルの類似性などを用いてそれら同一や類似を判断する従来技術を適宜選択して判断すればよい。そして、例えば、それぞれの検索結果中で上位(例えば20位まで)の原語ページと対象言語ページのうち、同一の画像を含むものがあればそれらを原語文書Jと対象文書Cとして取得し、同一の画像が無ければ次に類似度の高い画像を含むもの同士を原語文書Jと対象文書Cとして取得するなどが考えられる。
【0038】
このように、画像の共通性に基づき原語文書と対象文書の組を取得することにより、画像は話題を端的に特定する場合が多いことから、共通の話題に関する文書の組に基づく的確な対訳辞書の作成を容易に実現することができる。
【0039】
また、所定の共通する特徴の他の一例は、第一のウェブ検索結果又は第二のウェブ検索結果におけるクリック率の相対順位の近さであり、より具体的には、第一のウェブ検索結果P1中における原語ページのクリック率の相対順位と、第二のウェブ検索結果P2中における対象言語ページのクリック率の相対順位とが、近いことである。相対順位は、例えば、クリック率が首位であることに限らず、例えば、所定の順位範囲(例えば2位から5位に含まれている)などでもよい。
【0040】
このようなクリック率は、例えば、ウェブ検索システムWで図2(2)に例示するようなウェブ検索ログを蓄積し、キーワード(検索キーワード)KWに基づく検索結果P1やP2のページからいずれかのウェブページへのリンクがクリックされるたびに更新してゆくクリック数やCTRなどのクリック情報に基づいて、取得したり計算することが考えられる。
【0041】
このように、原語又は対象言語のウェブ検索結果をアクセス元の端末に表示した場合におけるクリック率の相対順位が共通する原語文書と対象文書の組を取得することにより、人気度や注目度などの位置付けが似た文書の組に基づいて、的確な対訳辞書を容易に作成することが可能となる。
【0042】
〔2−4.文書の翻訳と類似語の抽出〕
続いて、翻訳手段20が、以上のように取得された原語文書Jを第一の対訳辞書JEを用いて仮言語である英語による第一の訳文E1に翻訳し、また、取得された対象文書Cを第二の対訳辞書CEを用いて仮言語である英語による第二の訳文E2に翻訳する(ステップS2)。そして、類似語抽出手段30が、翻訳された第一の訳文E1と第二の訳文E2との間で所定の類似性がある語を類似語として抽出する(ステップS3)。
【0043】
例えば、図4の例では、「4WD」という同じキーワードKWに基づき、日本語ウェブサイトに関する第一の検索結果P1と、中国語ウェブサイトに関する第二の検索結果P2とが得られ、そこから取得した原語文書Jと対象文書Cの各訳文E1とE2から、類似語として、互いに同一の語「car」が抽出された場合を考える。
【0044】
〔2−5.対訳語の抽出と登録〕
続いて、対訳語抽出手段40が、抽出された類似語(ここでは「car」)に原語文書Jで対応する日本語の語(例えば「自動車」)と、抽出された類似語(「car」)に対象文書Cで対応する中国語の語(例えば「汽車」)と、を対訳語の組として抽出する(ステップS4)。なお、中国語の例については文字の制限により、ここでは「汽車」のように繁体字で示すが、図4の例で簡体字で示すものと対応する。このように抽出された対訳語の組(「自動車」→「汽車」)を辞書登録手段50が、新たな対訳辞書JCに登録する(ステップS5)。
【0045】
〔2−6.基本的な効果〕
以上のように、新たな対訳辞書を作成したい第一と第二の両言語(ここでは日本語と中国と)について同一又は類似の素材テキストを用意し、それぞれを第三の言語(ここでは英語)に翻訳した翻訳文の間で同一類似の語を抽出し、抽出した語に対応する日本語と中国語の語同士を対応付けて対訳辞書とする。これにより、適切な精度で日→英及び中→英の対訳辞書があれば、英→中の対訳辞書が無いか又は精度が劣る場合でも、英語に翻訳した語同士の類似度に基づいて、日→中の対訳辞書が適切な精度で自動作成できる。
【0046】
〔2−7.複数の対象文書を用いる例〕
また、原語文書Jに対して複数の対象文書Cを用いて対訳語を抽出してもよい。この場合、素材取得手段10は、一の原語文書Jに対して複数の対象文書Cを取得し、翻訳手段20は、抽出された複数の対象文書Cをそれぞれ第二の訳文E2に翻訳し、類似語抽出手段30は、第一の訳文E1と、翻訳された複数の第二の訳文E2と、の間で所定の類似性がある語をそれぞれ類似語として抽出する。
【0047】
このように、一つの原語文書Jに対して複数の対象文書C(例えば、ある日本語のページに対し、類似性の高さを表わす類似度1位から10位までの中国語ページを抽出するなど)を取得して対訳辞書の作成に用いることにより、一つの原語の語に対し、対象言語の多様な語を対応付けたり(例えば、「車」→「汽車」と、「車」→「車子」)、逆に多くの対象文書で用いられた語を対応付けるなど、対訳辞書の多様性や普遍性が改善できる。
【0048】
〔2−8.原語文書を複数用いる例〕
上に複数の対象文書Cを用いる例を示したが、原語文書Jを複数用いてもよい。この場合、素材取得手段10は、複数の原語文書Jを取得するとともに、取得した複数の原語文書Jごとに、対応する対象文書Cを一又は二以上取得し、このように取得された原語文書Jと対応する対象文書Cの組合せごとに、翻訳手段20が翻訳を行い、類似語抽出手段30が類似語の抽出を行い、対訳語抽出手段40が対訳語の組について抽出を行い、辞書登録手段50が新たな対訳辞書への登録を行う。
【0049】
このように、原語文書Jを複数取得すると共に、個々の原語文書Jごとに一つ又は複数の対象文書Cを取得し、原語文書Jと対象文書Cの組合せごとに翻訳、類似語の抽出、対訳辞書への登録を行うことにより、原語と対象言語の間における語のより多様な組合せを登録でき、より実用性の高い対訳辞書が得られる。
【0050】
〔2−9.抽出数に基づく登録〕
また、原語の一語に対し対象言語の語の候補が複数ある場合は、抽出数が多いものを優先することが望ましい。この場合、辞書登録手段50は、原語の一の語に係る対訳語の組であって対象言語の異なる語に係るものが対訳語抽出手段40により複数抽出された場合(例えば、「車」→「汽車」と、「車」→「車子」)、その抽出の回数が多い対訳語の組を優先して新たな対訳辞書に加える。
【0051】
このように、原語文書Jと対象文書Cの一つの組合せ又は複数の組合せから、原語の同じ語に対し、対象言語での表現が何通りも抽出され、対訳語の組の候補が複数ある場合、抽出すなわち登場の回数が多い対訳語の組を優先して対訳辞書に登録することにより、頻繁に用いられる語が優先的に対訳辞書に登録されるので、より多く使われる普遍的な言語表現に基づき、汎用性と精度に優れた対訳辞書を得ることができる。
【0052】
〔2−10.翻訳精度の判定について〕
なお、本発明は、対訳辞書として日→英の他に、中→英しかないか、又は中→英と英→中があるが英→中より中→英の方が高精度であるような場合を対象としている。このような翻訳精度については、英→中と中→英それぞれの対訳辞書を用いる翻訳システムにより、例えばあるページ、ある単語の列を翻訳してみて、正解率を比べることで測ることができる。
【0053】
このような翻訳結果の精度を示す指標として、BLUE(非特許文献1),NIST,WER(Word Error Rate)などを用いることが考えられる。これらは翻訳結果と模範解答を比較することで数値化するもので、例えば、対訳辞書として日→英の他に、中→英と英→中がある場合、中→英より英→中の方が高精度であれば日→英と英→中を組み合わせて日→中の新たな対訳辞書を作成し、英→中より中→英の方が高精度であれば、以上説明してきたように日→英に中→英を組み合わせて日→中の新たな対訳辞書を作成することが考えられる。
【0054】
〔3.他の実施形態〕
なお、上記各実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、本発明は、日本語と中国語、日本語と他の言語(韓国語、フランス語他)の対訳辞書に限らず、他の言語同士の対訳辞書にも適用可能である。また、本出願における対訳に関する「語」は、単語や単文節に限らず、複数の語からなる定型句など、任意の単位としてよい。
【0055】
また、本発明に関する手段などの各要素は、コンピュータの演算制御部に限らず物理的な電子回路など他の情報処理機構で実現してもよい。また、各構成図、データの図、フローチャートの図などは例示に過ぎず、各要素の有無、その配置や処理実行などの順序、具体的内容などは適宜変更可能である。例えば、本装置1は、ウェブ検索システムWと一体に構成してもよいし、また逆に、サーバなどの装置を複数用いて実現してもよい。個々の記憶手段を別個独立のサーバ装置やシステムで実現する構成も一般的である。また、機能によっては、外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティング(いわゆるクラウドなど)で呼び出して実現するなど、構成は柔軟に変更できる。
【符号の説明】
【0056】
1 対訳辞書生成装置(本装置)
W ウェブ検索システム
6 演算制御部
7 記憶装置
8 通信手段
10 素材取得手段
15 対訳辞書記憶手段
20 翻訳手段
30 類似語抽出手段
40 対訳語抽出手段
50 辞書登録手段
KW キーワード
J 原語文書
C 対象文書
E1,E2 訳文
JE 第一の対訳辞書
CE 第二の対訳辞書
JC 新たな対訳辞書
N 通信ネットワーク

【特許請求の範囲】
【請求項1】
第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成する情報処理装置において、
前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段と、
前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得する素材取得手段と、
取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳し、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳する翻訳手段と、
翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出する類似語抽出手段と、
抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出する対訳語抽出手段と、
抽出された前記対訳語の組を前記新たな対訳辞書に登録する辞書登録手段と、
を有することを特徴とする情報処理装置。
【請求項2】
前記素材取得手段は、
所定のウェブ検索システムから一のキーワードに基づいて、前記第一の言語のウェブページを複数含む第一のウェブ検索結果を取得し、
所定のウェブ検索システムから前記キーワードに基づいて、前記第二の言語のウェブページを複数含む第二のウェブ検索結果を取得し、
前記第一の言語のウェブページと前記第二の言語のウェブページのうち、互いに所定の共通する特徴を有する第一の言語のウェブページ及び第二の言語のウェブページを、それぞれ前記第一の素材テキスト及び前記第二の素材テキストとして取得する
ことを特徴とする請求項1記載の情報処理装置。
【請求項3】
前記所定の共通する特徴は、前記第一の言語のウェブページ及び前記第二の言語のウェブページが相互に同一又は類似の画像を含んでいることである
ことを特徴とする請求項2記載の情報処理装置。
【請求項4】
前記所定の共通する特徴は、前記第一のウェブ検索結果又は前記第二のウェブ検索結果におけるクリック率の相対順位の近さである
ことを特徴とする請求項2又は3記載の情報処理装置。
【請求項5】
前記素材取得手段は、一の前記第一の素材テキストに対して複数の前記第二の素材テキストを取得し、
前記翻訳手段は、抽出された前記複数の前記第二の素材テキストをそれぞれ前記第二の訳文に翻訳し、
前記類似語抽出手段は、前記第一の訳文と、翻訳された複数の前記第二の訳文と、の間で所定の類似性がある語をそれぞれ類似語として抽出する
ことを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。
【請求項6】
前記素材取得手段は、複数の前記第一の素材テキストを取得するとともに、取得した複数の前記第一の素材テキストごとに、対応する前記第二の素材テキストを一又は二以上取得し、
取得された前記第一の素材テキストと対応する前記第二の素材テキストの組合せごとに、前記翻訳手段が前記翻訳を行い、前記類似語抽出手段が前記類似語の抽出を行い、前記対訳語抽出手段が前記対訳語の組について抽出を行い、前記辞書登録手段が前記新たな対訳辞書への登録を行う
ことを特徴とする請求項1から5のいずれか一項に記載の情報処理装置。
【請求項7】
前記辞書登録手段は、
前記第一の言語の一の語に係る前記対訳語の組であって前記第二の言語の異なる語に係るものが前記対訳語抽出手段により複数抽出された場合、その抽出の回数が多い前記対訳語の組を優先して前記対訳辞書に加える
ことを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。
【請求項8】
コンピュータを用いて、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成する情報処理方法において、
コンピュータが、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段を実現し、
コンピュータが、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得する素材取得処理と、
コンピュータが、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳し、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳する翻訳処理と、
コンピュータが、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出する類似語抽出処理と、
コンピュータが、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出する対訳語抽出処理と、
コンピュータが、抽出された前記対訳語の組を前記新たな対訳辞書に登録する辞書登録処理と、
を含むことを特徴とする情報処理方法。
【請求項9】
コンピュータを制御することにより、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成させる情報処理プログラムであって、そのプログラムは、
コンピュータに、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段を実現させ、
コンピュータに、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得させ、
コンピュータに、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳させるとともに、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳させ、
コンピュータに、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出させ、
コンピュータに、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出させ、
コンピュータに、抽出された前記対訳語の組を前記新たな対訳辞書に登録させる
ことを特徴とする情報処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2012−133689(P2012−133689A)
【公開日】平成24年7月12日(2012.7.12)
【国際特許分類】
【出願番号】特願2010−286867(P2010−286867)
【出願日】平成22年12月24日(2010.12.24)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】