情報処理装置、方法及びプログラム

【課題】より多様な対訳辞書を基礎として新たな対訳辞書を適切な精度で自動生成する。
【解決手段】新たな対訳辞書を作成したい第一と第二の両言語について同一又は類似の素材テキストを用意し、それぞれを第三の言語に翻訳した翻訳文の間で同一類似の語を抽出し、抽出した語に対応する第一と第二の両言語の語同士を対応付けて対訳辞書とする。これにより、適切な精度で第一→第三及び第二→第三の対訳辞書があれば、第三→第二の対訳辞書が無いか又は精度が劣る場合でも、第三の言語に翻訳した語同士の類似度に基づいて、第一→第二の対訳辞書が適切な精度で自動作成できる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、機械翻訳に関する。
【背景技術】
【０００２】
従来、インターネットのウェブサイトなどにおいて、入力された原文を他の言語に変換して表示する、いわゆる機械翻訳のサービスが提供されている。この種の機械翻訳の精度を向上する工夫として、原文に基づく翻訳文の候補をウェブ検索エンジンに入力して検索結果のヒット数が多いものを、よく使う表現として優先的に採用する提案が知られている（例えば、特許文献１参照）。
【０００３】
ところで、従来、機械翻訳には、ある言語の語に、他の言語におけるその訳語を対応付けたデータである対訳コーパス（「対訳辞書」などとも俗称されるので、以下「対訳辞書」とも呼ぶ）が必要である。なお、対訳辞書は、上記のように訳語を対応付けたデータである狭義の対訳辞書に限らず、これに加え対訳ルールや用例、確率モデルなども含んだシステムとして機能するもの（データ、データ構造、装置、システム、プログラムなど）を広く意味する。そして、そのような対訳辞書については、人手で作成していたため労力などの負担が多大であり、その自動化が潜在的に望まれていた。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００７−８７１５７号
【非特許文献】
【０００５】
【非特許文献１】Kishore Papineni, “ＢＬＵＥ: a Method for Automatic Evaluation of Machine Translation,” ACL pp.311-318 (2002)
【発明の概要】
【発明が解決しようとする課題】
【０００６】
この場合、既存の対訳辞書を用いて、新たな言語の組合せでの対訳辞書を作成することも考えられる。例えば、日本語（日）、英語（英）、中国語（中）のうち、日→英、英→中という二種の対訳辞書があれば、英語を中継ぎとして両者を組み合わせ、日→中という対訳辞書を作成することができる。
【０００７】
但し、対訳辞書には方向があるため、日→中という方向の対訳辞書を新たに作成する基礎としては、日→英、英→中という方向の対訳辞書が必要となる。したがって、対応付けの前半となる日→英の対訳辞書はあるが、後半となる英→中という順方向の対訳辞書が無いか又は精度が不十分な場合、中→英という逆方向の対訳辞書では適切な精度であっても利用できず、対訳辞書の組合せによる新たな対訳辞書を適切な精度で自動生成できないという課題があった。
【０００８】
上記の課題に対し、本発明の目的は、より多様な対訳辞書を基礎として新たな対訳辞書を適切な精度で自動生成することである。
【課題を解決するための手段】
【０００９】
上記の目的をふまえ、本発明の一態様（１）は、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成する情報処理装置において、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段と、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得する素材取得手段と、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳し、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳する翻訳手段と、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出する類似語抽出手段と、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出する対訳語抽出手段と、抽出された前記対訳語の組を前記新たな対訳辞書に登録する辞書登録手段と、を有することを特徴とする。
【００１０】
本発明の他の態様（８）は、上記態様を方法のカテゴリで捉えたもので、コンピュータを用いて、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成する情報処理方法において、コンピュータが、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段を実現しており、コンピュータが、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得する素材取得処理と、コンピュータが、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳し、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳する翻訳処理と、コンピュータが、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出する類似語抽出処理と、コンピュータが、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出する対訳語抽出処理と、コンピュータが、抽出された前記対訳語の組を前記新たな対訳辞書に登録する辞書登録処理と、を含むことを特徴とする。
【００１１】
本発明の他の態様（９）は、上記態様をコンピュータ・プログラムのカテゴリで捉えたもので、コンピュータを制御することにより、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成させる情報処理プログラムであって、そのプログラムは、コンピュータに、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段を実現させ、コンピュータに、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得させ、コンピュータに、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳させるとともに、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳させ、コンピュータに、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出させ、コンピュータに、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出させ、コンピュータに、抽出された前記対訳語の組を前記新たな対訳辞書に登録させることを特徴とする。
【００１２】
このように、新たな対訳辞書を作成したい第一と第二の両言語について同一又は類似の素材テキストを用意し、それぞれを第三の言語に翻訳した翻訳文の間で同一類似の語を抽出し、抽出した語に対応する第一と第二の両言語の語同士を対応付けて対訳辞書とする。これにより、適切な精度で第一→第三及び第二→第三の対訳辞書があれば、第三→第二の対訳辞書が無いか又は精度が劣る場合でも、第三の言語に翻訳した語同士の類似度に基づいて、第一→第二の対訳辞書が適切な精度で自動作成できる。
【００１３】
本発明の他の態様（２）は、上記いずれかの態様において、前記素材取得手段は、所定のウェブ検索システムから一のキーワードに基づいて、前記第一の言語のウェブページを複数含む第一のウェブ検索結果を取得し、所定のウェブ検索システムから前記キーワードに基づいて、前記第二の言語のウェブページを複数含む第二のウェブ検索結果を取得し、前記第一の言語のウェブページと前記第二の言語のウェブページのうち、互いに所定の共通する特徴を有する第一の言語のウェブページ及び第二の言語のウェブページを、それぞれ前記第一の素材テキスト及び前記第二の素材テキストとして取得することを特徴とする。
【００１４】
このように、ウェブ検索システムで同じキーワードに基づいて検索しヒットした第一の言語のウェブページ群と第二の言語のウェブページ群のなかから、共通性を基に選択した各ページを、翻訳対象となる第一の素材テキストと第二の素材テキストとして取得することにより、それぞれの文書や訳文で類似語やそれに対応する語が相互に似た用法や文脈で登場する確率が高くなるので、それに基づく対訳辞書の精度が向上する。
【００１５】
本発明の他の態様（３）は、上記いずれかの態様において、前記所定の共通する特徴は、前記第一の言語のウェブページ及び前記第二の言語のウェブページが相互に同一又は類似の画像を含んでいることであることを特徴とする。
【００１６】
このように、画像の共通性に基づき第一の素材テキストと第二の素材テキストの組を取得することにより、画像は話題を端的に特定する場合が多いことから、共通の話題に関する文書の組に基づく的確な対訳辞書の作成を容易に実現することができる。
【００１７】
本発明の他の態様（４）は、上記いずれかの態様において、前記所定の共通する特徴は、前記第一のウェブ検索結果又は前記第二のウェブ検索結果におけるクリック率の相対順位の近さであることを特徴とする。
【００１８】
このように、第一の言語又は第二の言語のウェブ検索結果をアクセス元の端末に表示した場合におけるクリック率の相対順位が共通する第一の素材テキストと第二の素材テキストの組を取得することにより、人気度や注目度などの位置付けが似た文書の組に基づいて、的確な対訳辞書を容易に作成することが可能となる。
【００１９】
本発明の他の態様（５）は、上記いずれかの態様において、前記素材取得手段は、一の前記第一の素材テキストに対して複数の前記第二の素材テキストを取得し、前記翻訳手段は、抽出された前記複数の前記第二の素材テキストをそれぞれ前記第二の訳文に翻訳し、前記類似語抽出手段は、前記第一の訳文と、翻訳された複数の前記第二の訳文と、の間で所定の類似性がある語をそれぞれ類似語として抽出することを特徴とする。
【００２０】
このように、一つの原語文書に対して複数の第二の素材テキスト（例えば、ある日本語のページに対し、類似性の高さを表わす類似度１位から１０位までの中国語ページを抽出するなど）を取得して対訳辞書の作成に用いることにより、一つの第一の言語の語に対し、第二の言語の多様な語を対応付けたり、逆に多くの第二の素材テキストで用いられた語を対応付けるなど、対訳辞書の多様性や普遍性が改善できる。
【００２１】
本発明の他の態様（６）は、上記いずれかの態様において、前記素材取得手段は、複数の前記第一の素材テキストを取得するとともに、取得した複数の前記第一の素材テキストごとに、対応する前記第二の素材テキストを一又は二以上取得し、取得された前記第一の素材テキストと対応する前記第二の素材テキストの組合せごとに、前記翻訳手段が前記翻訳を行い、前記類似語抽出手段が前記類似語の抽出を行い、前記対訳語抽出手段が前記対訳語の組について抽出を行い、前記辞書登録手段が前記新たな対訳辞書への登録を行うことを特徴とする。
【００２２】
このように、第一の素材テキストを複数取得すると共に、個々の第一の素材テキストごとに一つ又は複数の第二の素材テキストを取得し、第一の素材テキストと第二の素材テキストの組合せごとに翻訳、類似語の抽出、対訳辞書への登録を行うことにより、第一の言語と第二の言語の間における語のより多様な組合せを登録でき、より実用性の高い対訳辞書が得られる。
【００２３】
本発明の他の態様（７）は、上記いずれかの態様において、前記辞書登録手段は、前記第一の言語の一の語に係る前記対訳語の組であって前記第二の言語の異なる語に係るものが前記対訳語抽出手段により複数抽出された場合、その抽出の回数が多い前記対訳語の組を優先して前記対訳辞書に加えることを特徴とする。
【００２４】
このように、第一の素材テキストと第二の素材テキストの一つの組合せ又は複数の組合せから、第一の言語の同じ語に対し、第二の言語での表現が何通りも抽出され、対訳語の組の候補が複数ある場合、抽出すなわち登場の回数が多い対訳語の組を優先して対訳辞書に登録することにより、頻繁に用いられる語が優先的に対訳辞書に登録されるので、より多く使われる普遍的な言語表現に基づき、汎用性と精度に優れた対訳辞書を得ることができる。
【００２５】
なお、上記の各態様とは異なるカテゴリ（装置に対し方法、方法に対しプログラムなど）や、以下に説明するさらに具体的な各態様も本発明に含まれる。異なるカテゴリについては、「手段」を「処理」又は「ステップ」のように適宜読み替えるものとする。また、処理やステップの実行順序は上記のものに限定されず、適宜変更したりまとめて処理するなど、変更可能である。
【発明の効果】
【００２６】
本発明によれば、より多様な対訳辞書を基礎として新たな対訳辞書を適切な精度で自動生成することが可能となる。
【図面の簡単な説明】
【００２７】
【図１】本発明の実施形態の構成を示す機能ブロック図。
【図２】本発明の実施形態で用いる情報（データ）を例示する図。
【図３】本発明の実施形態における処理手順を示すフローチャート。
【図４】本発明の実施形態の作用を表す概念図。
【発明を実施するための形態】
【００２８】
次に、本発明を実施するための形態（「実施形態」と呼ぶ）について、図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。
【００２９】
〔１．構成〕
本実施形態は、図１に示す対訳辞書生成装置１（以下「本装置１」又は「本装置」と略称する）に関するもので、本装置1は、第一の言語（ここでは日本語とし、以下「原語」とも呼ぶ）を第二の言語（ここでは中国語とし、以下「対象言語」とも呼ぶ）に翻訳するための対訳辞書（以下「新たな対訳辞書」と呼ぶ）を生成する情報処理装置である。本装置１は、一般的なコンピュータの構成として少なくとも、ＣＰＵなどの演算制御部６と、主メモリや補助記憶装置等の記憶装置７と、通信ネットワークＮ（インターネット、携帯電話網、ＬＡＮなど）との通信手段８（ＬＡＮアダプタや通信ゲートウェイ装置など）と、を有する。
【００３０】
そして、本装置１では、記憶装置７に予め記憶（インストール）した図示しない所定のコンピュータ・プログラムが演算制御部６を制御することで、図１に示す各手段などの要素（１０，２０など）を実現する。これら各要素のうち、情報の記憶手段は、記憶装置７において各種のデータベース（「ＤＢ」とも表す）やファイル、配列等の変数、各種スタックやレジスタ、システム設定値など任意の形式で実現できる。
【００３１】
このような記憶手段のうち、対訳辞書記憶手段１５は、原語である日本語を第三の言語（ここでは英語とし、以下「仮言語」とも呼ぶ）に翻訳するための第一の対訳辞書ＪＥと、対象言語である中国語を仮言語である英語に翻訳するための第二の対訳辞書ＣＥと、新たな対訳辞書ＪＣ（例えば図２（１））と、をデータとして記憶する記憶手段である。
【００３２】
これらの対訳辞書のうち、第一の対訳辞書ＪＥ及び第二の対訳辞書ＣＥは予め記憶されているが、従来と同様でよいので詳細は省略する。また、新たな対訳辞書ＪＣは後述の処理によって生成され、図示しない自動翻訳システムなどが利用する。また、記憶手段以外の各手段は、以下のような情報処理の機能・作用を実現・実行する処理手段である。
【００３３】
〔２．作用及び効果〕
上記のように構成した本装置１が対訳辞書を生成する処理手順を図３のフローチャートに示す。また、この処理手順に対応する処理の例を図４の概念図に示す。
〔２−１．素材テキストの取得〕
図３の処理手順では、まず、素材取得手段１０が、原語である日本語による第一の素材テキストＪ（以下「原語文書」又は「原語文書Ｊ」と呼ぶ）と、この原語文書Ｊと同一又は関連する内容であって対象言語である中国語による第二の素材テキストＣ（以下「対象文書」又は「対象文書Ｃ」と呼ぶ）と、を取得する（ステップＳ１）。
【００３４】
〔２−２．ウェブ検索による取得〕
ここで、原語文書Ｊと対象文書Ｃは、予め用意された素材テキストでもよいが、ウェブ検索システムから取得することが望ましい。この場合、素材取得手段１０は、日本語に対応している所定のウェブ検索システムＷから一のキーワードＫＷに基づいて、図４にも示すように、原語のウェブページ（以下「原語ページ」又は「日本語ページ」とも呼ぶ）を複数含む第一のウェブ検索結果Ｐ１を取得し（ステップＳ１１）、また、所定のウェブ検索システムＷ（前記ウェブ検索システムと同一でも異なっても良いが、中国語に対応しているもの）からキーワードＫＷに基づいて、対象言語のウェブページ（以下「対象言語ページ」と呼ぶ）を複数含む第二のウェブ検索結果Ｐ２を取得する（ステップＳ１２）。
【００３５】
そのうえで、素材取得手段１０は、第一のウェブ検索結果Ｐ１に含まれる原語ページと、第二のウェブ検索結果Ｐ２に含まれる対象言語ページのうち、互いに所定の共通する特徴を有する原語ページ及び対象言語ページ（実際には、ウェブページに含まれるテキスト）を、それぞれ原語文書Ｊ及び対象文書Ｃとして取得する（ステップＳ１３）。
【００３６】
このように、ウェブ検索システムで同じキーワードに基づいて検索しヒットした原語ページ群と対象言語ページ群のなかから、共通性を基に選択した各ページを、翻訳対象となる原語文書と対象文書として取得することにより、それぞれの文書や訳文で類似語やそれに対応する語が相互に似た用法や文脈で登場する確率が高くなるので、それに基づく対訳辞書の精度が向上する。
【００３７】
〔２−３．共通する特徴の例〕
上記のようにウェブ検索により原語文書Ｊと対象文書Ｃを取得する基準となる前記所定の共通する特徴の一例は、原語ページ及び対象言語ページが相互に同一又は類似の画像を含んでいることである。画像間における同一類似の判断については、画像の部分ごとの特徴量を表す特徴ベクトルの類似性などを用いてそれら同一や類似を判断する従来技術を適宜選択して判断すればよい。そして、例えば、それぞれの検索結果中で上位（例えば２０位まで）の原語ページと対象言語ページのうち、同一の画像を含むものがあればそれらを原語文書Ｊと対象文書Ｃとして取得し、同一の画像が無ければ次に類似度の高い画像を含むもの同士を原語文書Ｊと対象文書Ｃとして取得するなどが考えられる。
【００３８】
このように、画像の共通性に基づき原語文書と対象文書の組を取得することにより、画像は話題を端的に特定する場合が多いことから、共通の話題に関する文書の組に基づく的確な対訳辞書の作成を容易に実現することができる。
【００３９】
また、所定の共通する特徴の他の一例は、第一のウェブ検索結果又は第二のウェブ検索結果におけるクリック率の相対順位の近さであり、より具体的には、第一のウェブ検索結果Ｐ１中における原語ページのクリック率の相対順位と、第二のウェブ検索結果Ｐ２中における対象言語ページのクリック率の相対順位とが、近いことである。相対順位は、例えば、クリック率が首位であることに限らず、例えば、所定の順位範囲（例えば２位から５位に含まれている）などでもよい。
【００４０】
このようなクリック率は、例えば、ウェブ検索システムＷで図２（２）に例示するようなウェブ検索ログを蓄積し、キーワード（検索キーワード）ＫＷに基づく検索結果Ｐ１やＰ２のページからいずれかのウェブページへのリンクがクリックされるたびに更新してゆくクリック数やＣＴＲなどのクリック情報に基づいて、取得したり計算することが考えられる。
【００４１】
このように、原語又は対象言語のウェブ検索結果をアクセス元の端末に表示した場合におけるクリック率の相対順位が共通する原語文書と対象文書の組を取得することにより、人気度や注目度などの位置付けが似た文書の組に基づいて、的確な対訳辞書を容易に作成することが可能となる。
【００４２】
〔２−４．文書の翻訳と類似語の抽出〕
続いて、翻訳手段２０が、以上のように取得された原語文書Ｊを第一の対訳辞書ＪＥを用いて仮言語である英語による第一の訳文Ｅ１に翻訳し、また、取得された対象文書Ｃを第二の対訳辞書ＣＥを用いて仮言語である英語による第二の訳文Ｅ２に翻訳する（ステップＳ２）。そして、類似語抽出手段３０が、翻訳された第一の訳文Ｅ１と第二の訳文Ｅ２との間で所定の類似性がある語を類似語として抽出する（ステップＳ３）。
【００４３】
例えば、図４の例では、「４ＷＤ」という同じキーワードＫＷに基づき、日本語ウェブサイトに関する第一の検索結果Ｐ１と、中国語ウェブサイトに関する第二の検索結果Ｐ２とが得られ、そこから取得した原語文書Ｊと対象文書Ｃの各訳文Ｅ１とＥ２から、類似語として、互いに同一の語「ｃａｒ」が抽出された場合を考える。
【００４４】
〔２−５．対訳語の抽出と登録〕
続いて、対訳語抽出手段４０が、抽出された類似語（ここでは「ｃａｒ」）に原語文書Ｊで対応する日本語の語（例えば「自動車」）と、抽出された類似語（「ｃａｒ」）に対象文書Ｃで対応する中国語の語（例えば「汽車」）と、を対訳語の組として抽出する（ステップＳ４）。なお、中国語の例については文字の制限により、ここでは「汽車」のように繁体字で示すが、図４の例で簡体字で示すものと対応する。このように抽出された対訳語の組（「自動車」→「汽車」）を辞書登録手段５０が、新たな対訳辞書ＪＣに登録する（ステップＳ５）。
【００４５】
〔２−６．基本的な効果〕
以上のように、新たな対訳辞書を作成したい第一と第二の両言語（ここでは日本語と中国と）について同一又は類似の素材テキストを用意し、それぞれを第三の言語（ここでは英語）に翻訳した翻訳文の間で同一類似の語を抽出し、抽出した語に対応する日本語と中国語の語同士を対応付けて対訳辞書とする。これにより、適切な精度で日→英及び中→英の対訳辞書があれば、英→中の対訳辞書が無いか又は精度が劣る場合でも、英語に翻訳した語同士の類似度に基づいて、日→中の対訳辞書が適切な精度で自動作成できる。
【００４６】
〔２−７．複数の対象文書を用いる例〕
また、原語文書Ｊに対して複数の対象文書Ｃを用いて対訳語を抽出してもよい。この場合、素材取得手段１０は、一の原語文書Ｊに対して複数の対象文書Ｃを取得し、翻訳手段２０は、抽出された複数の対象文書Ｃをそれぞれ第二の訳文Ｅ２に翻訳し、類似語抽出手段３０は、第一の訳文Ｅ１と、翻訳された複数の第二の訳文Ｅ２と、の間で所定の類似性がある語をそれぞれ類似語として抽出する。
【００４７】
このように、一つの原語文書Ｊに対して複数の対象文書Ｃ（例えば、ある日本語のページに対し、類似性の高さを表わす類似度１位から１０位までの中国語ページを抽出するなど）を取得して対訳辞書の作成に用いることにより、一つの原語の語に対し、対象言語の多様な語を対応付けたり（例えば、「車」→「汽車」と、「車」→「車子」）、逆に多くの対象文書で用いられた語を対応付けるなど、対訳辞書の多様性や普遍性が改善できる。
【００４８】
〔２−８．原語文書を複数用いる例〕
上に複数の対象文書Ｃを用いる例を示したが、原語文書Ｊを複数用いてもよい。この場合、素材取得手段１０は、複数の原語文書Ｊを取得するとともに、取得した複数の原語文書Ｊごとに、対応する対象文書Ｃを一又は二以上取得し、このように取得された原語文書Ｊと対応する対象文書Ｃの組合せごとに、翻訳手段２０が翻訳を行い、類似語抽出手段３０が類似語の抽出を行い、対訳語抽出手段４０が対訳語の組について抽出を行い、辞書登録手段５０が新たな対訳辞書への登録を行う。
【００４９】
このように、原語文書Ｊを複数取得すると共に、個々の原語文書Ｊごとに一つ又は複数の対象文書Ｃを取得し、原語文書Ｊと対象文書Ｃの組合せごとに翻訳、類似語の抽出、対訳辞書への登録を行うことにより、原語と対象言語の間における語のより多様な組合せを登録でき、より実用性の高い対訳辞書が得られる。
【００５０】
〔２−９．抽出数に基づく登録〕
また、原語の一語に対し対象言語の語の候補が複数ある場合は、抽出数が多いものを優先することが望ましい。この場合、辞書登録手段５０は、原語の一の語に係る対訳語の組であって対象言語の異なる語に係るものが対訳語抽出手段４０により複数抽出された場合（例えば、「車」→「汽車」と、「車」→「車子」）、その抽出の回数が多い対訳語の組を優先して新たな対訳辞書に加える。
【００５１】
このように、原語文書Ｊと対象文書Ｃの一つの組合せ又は複数の組合せから、原語の同じ語に対し、対象言語での表現が何通りも抽出され、対訳語の組の候補が複数ある場合、抽出すなわち登場の回数が多い対訳語の組を優先して対訳辞書に登録することにより、頻繁に用いられる語が優先的に対訳辞書に登録されるので、より多く使われる普遍的な言語表現に基づき、汎用性と精度に優れた対訳辞書を得ることができる。
【００５２】
〔２−１０．翻訳精度の判定について〕
なお、本発明は、対訳辞書として日→英の他に、中→英しかないか、又は中→英と英→中があるが英→中より中→英の方が高精度であるような場合を対象としている。このような翻訳精度については、英→中と中→英それぞれの対訳辞書を用いる翻訳システムにより、例えばあるページ、ある単語の列を翻訳してみて、正解率を比べることで測ることができる。
【００５３】
このような翻訳結果の精度を示す指標として、ＢＬＵＥ（非特許文献１），ＮＩＳＴ，ＷＥＲ（Word Error Rate）などを用いることが考えられる。これらは翻訳結果と模範解答を比較することで数値化するもので、例えば、対訳辞書として日→英の他に、中→英と英→中がある場合、中→英より英→中の方が高精度であれば日→英と英→中を組み合わせて日→中の新たな対訳辞書を作成し、英→中より中→英の方が高精度であれば、以上説明してきたように日→英に中→英を組み合わせて日→中の新たな対訳辞書を作成することが考えられる。
【００５４】
〔３．他の実施形態〕
なお、上記各実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、本発明は、日本語と中国語、日本語と他の言語（韓国語、フランス語他）の対訳辞書に限らず、他の言語同士の対訳辞書にも適用可能である。また、本出願における対訳に関する「語」は、単語や単文節に限らず、複数の語からなる定型句など、任意の単位としてよい。
【００５５】
また、本発明に関する手段などの各要素は、コンピュータの演算制御部に限らず物理的な電子回路など他の情報処理機構で実現してもよい。また、各構成図、データの図、フローチャートの図などは例示に過ぎず、各要素の有無、その配置や処理実行などの順序、具体的内容などは適宜変更可能である。例えば、本装置１は、ウェブ検索システムＷと一体に構成してもよいし、また逆に、サーバなどの装置を複数用いて実現してもよい。個々の記憶手段を別個独立のサーバ装置やシステムで実現する構成も一般的である。また、機能によっては、外部のプラットフォーム等をＡＰＩ（アプリケーション・プログラム・インタフェース）やネットワークコンピューティング（いわゆるクラウドなど）で呼び出して実現するなど、構成は柔軟に変更できる。
【符号の説明】
【００５６】
１対訳辞書生成装置（本装置）
Ｗウェブ検索システム
６演算制御部
７記憶装置
８通信手段
１０素材取得手段
１５対訳辞書記憶手段
２０翻訳手段
３０類似語抽出手段
４０対訳語抽出手段
５０辞書登録手段
ＫＷキーワード
Ｊ原語文書
Ｃ対象文書
Ｅ１，Ｅ２訳文
ＪＥ第一の対訳辞書
ＣＥ第二の対訳辞書
ＪＣ新たな対訳辞書
Ｎ通信ネットワーク

【特許請求の範囲】
【請求項１】
第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成する情報処理装置において、
前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段と、
前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得する素材取得手段と、
取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳し、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳する翻訳手段と、
翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出する類似語抽出手段と、
抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出する対訳語抽出手段と、
抽出された前記対訳語の組を前記新たな対訳辞書に登録する辞書登録手段と、
を有することを特徴とする情報処理装置。
【請求項２】
前記素材取得手段は、
所定のウェブ検索システムから一のキーワードに基づいて、前記第一の言語のウェブページを複数含む第一のウェブ検索結果を取得し、
所定のウェブ検索システムから前記キーワードに基づいて、前記第二の言語のウェブページを複数含む第二のウェブ検索結果を取得し、
前記第一の言語のウェブページと前記第二の言語のウェブページのうち、互いに所定の共通する特徴を有する第一の言語のウェブページ及び第二の言語のウェブページを、それぞれ前記第一の素材テキスト及び前記第二の素材テキストとして取得する
ことを特徴とする請求項１記載の情報処理装置。
【請求項３】
前記所定の共通する特徴は、前記第一の言語のウェブページ及び前記第二の言語のウェブページが相互に同一又は類似の画像を含んでいることである
ことを特徴とする請求項２記載の情報処理装置。
【請求項４】
前記所定の共通する特徴は、前記第一のウェブ検索結果又は前記第二のウェブ検索結果におけるクリック率の相対順位の近さである
ことを特徴とする請求項２又は３記載の情報処理装置。
【請求項５】
前記素材取得手段は、一の前記第一の素材テキストに対して複数の前記第二の素材テキストを取得し、
前記翻訳手段は、抽出された前記複数の前記第二の素材テキストをそれぞれ前記第二の訳文に翻訳し、
前記類似語抽出手段は、前記第一の訳文と、翻訳された複数の前記第二の訳文と、の間で所定の類似性がある語をそれぞれ類似語として抽出する
ことを特徴とする請求項１から４のいずれか一項に記載の情報処理装置。
【請求項６】
前記素材取得手段は、複数の前記第一の素材テキストを取得するとともに、取得した複数の前記第一の素材テキストごとに、対応する前記第二の素材テキストを一又は二以上取得し、
取得された前記第一の素材テキストと対応する前記第二の素材テキストの組合せごとに、前記翻訳手段が前記翻訳を行い、前記類似語抽出手段が前記類似語の抽出を行い、前記対訳語抽出手段が前記対訳語の組について抽出を行い、前記辞書登録手段が前記新たな対訳辞書への登録を行う
ことを特徴とする請求項１から５のいずれか一項に記載の情報処理装置。
【請求項７】
前記辞書登録手段は、
前記第一の言語の一の語に係る前記対訳語の組であって前記第二の言語の異なる語に係るものが前記対訳語抽出手段により複数抽出された場合、その抽出の回数が多い前記対訳語の組を優先して前記対訳辞書に加える
ことを特徴とする請求項１から６のいずれか一項に記載の情報処理装置。
【請求項８】
コンピュータを用いて、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成する情報処理方法において、
コンピュータが、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段を実現し、
コンピュータが、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得する素材取得処理と、
コンピュータが、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳し、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳する翻訳処理と、
コンピュータが、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出する類似語抽出処理と、
コンピュータが、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出する対訳語抽出処理と、
コンピュータが、抽出された前記対訳語の組を前記新たな対訳辞書に登録する辞書登録処理と、
を含むことを特徴とする情報処理方法。
【請求項９】
コンピュータを制御することにより、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成させる情報処理プログラムであって、そのプログラムは、
コンピュータに、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段を実現させ、
コンピュータに、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得させ、
コンピュータに、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳させるとともに、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳させ、
コンピュータに、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出させ、
コンピュータに、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出させ、
コンピュータに、抽出された前記対訳語の組を前記新たな対訳辞書に登録させる
ことを特徴とする情報処理プログラム。

【図１】