説明

対訳辞書生成装置、方法及びプログラム

【課題】対訳辞書の自動生成を実現する。
【解決手段】ある言語のページ内の画像と類似する画像を含む他の言語のページを類似画像検索で抽出し、双方のページがヒットする検索キーワードをウェブ検索等のログから取得することにより、相互に似た画像を指す異なる言語の単語やフレーズが対応付けできるので、対訳辞書の自動生成が可能となる。一つの基準ページに対して所定数の前記類似画像ページ(例えば、日本語ページの画像を基に類似度1位から10位までの中国語ページを抽出するなど)を抽出して検索キーワードを取得することにより、抽出結果のばらつきを抑制して普遍性ある単語同士を対応付けできるので、高精度な対訳辞書を生成可能となる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械翻訳に関する。
【背景技術】
【0002】
従来、インターネットのウェブサイトなどにおいて、入力された原文を他の言語に変換して表示する、いわゆる機械翻訳のサービスが提供されている。この種の機械翻訳の精度を向上する工夫として、原文に基づく翻訳文の候補をウェブ検索エンジンに入力して検索結果のヒット数が多いものを、よく使う表現として優先的に採用する提案が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−87157号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、従来、機械翻訳には、ある言語とその言語の訳語を対応付けて記録した対訳辞書が必要であるところ、そのような対訳辞書については、人手で作成していたため労力などの負担が多大であり、その自動化が潜在的に望まれていた。
【0005】
上記の課題に対し、本発明の目的は、対訳辞書の自動生成である。
【課題を解決するための手段】
【0006】
上記の目的をふまえ、本発明の一態様(1)である対訳辞書生成装置は、第一の言語によるウェブページである基準ページに含まれる画像を基準画像として、前記第一の言語とは異なる第二の言語によるウェブページであって前記基準画像に類似した類似画像を含む類似画像ページを抽出する類似画像ページ抽出手段と、ウェブ検索ログを記憶している検索ログ記憶手段と、前記検索ログ記憶手段に記憶されている前記ウェブ検索ログに基づいて、前記基準ページがヒットする第一の検索キーワードと、前記類似画像ページがヒットする第二の検索キーワードと、を取得する検索キーワード取得手段と、取得された前記第一の検索キーワードと、前記第二の検索キーワードと、を前記第一の言語と前記第二の言語の対訳辞書に登録する対訳辞書登録手段と、を有することを特徴とする。
【0007】
本発明の他の態様(6)である対訳辞書生成方法は、上記態様を方法のカテゴリで捉えたもので、コンピュータが、第一の言語によるウェブページである基準ページに含まれる画像を基準画像として、前記第一の言語とは異なる第二の言語によるウェブページであって前記基準画像に類似した類似画像を含む類似画像ページを抽出する類似画像ページ抽出処理と、コンピュータが、所定の検索ログ記憶手段に記憶されているウェブ検索ログに基づいて、前記基準ページがヒットする第一の検索キーワードと、前記類似画像ページがヒットする第二の検索キーワードと、を取得する検索キーワード取得処理と、コンピュータが、取得された前記第一の検索キーワードと、前記第二の検索キーワードと、を前記第一の言語と前記第二の言語の対訳辞書に登録する対訳辞書登録処理と、を含むことを特徴とする。
【0008】
本発明の他の態様(7)は、上記態様をコンピュータ・プログラムのカテゴリで捉えたもので、コンピュータを制御することにより対訳辞書を生成する対訳辞書生成プログラムであって、コンピュータに、第一の言語によるウェブページである基準ページに含まれる画像を基準画像として、前記第一の言語とは異なる第二の言語によるウェブページであって前記基準画像に類似した類似画像を含む類似画像ページを抽出させ、コンピュータに、所定の検索ログ記憶手段に記憶されているウェブ検索ログに基づいて、前記基準ページがヒットする第一の検索キーワードと、前記類似画像ページがヒットする第二の検索キーワードと、を取得させ、コンピュータに、取得された前記第一の検索キーワードと、前記第二の検索キーワードと、を前記第一の言語と前記第二の言語の対訳辞書に登録させることを特徴とする。
【0009】
このように、ある言語のページ内の画像と類似する画像を含む他の言語のページを類似画像検索で抽出し、双方のページがヒットする検索キーワードをウェブ検索等のログから取得することにより、相互に似た画像を指す異なる言語の単語やフレーズが対応付けできるので、対訳辞書の自動生成が可能となる。なお、本発明における「対訳辞書」とは、対訳コーパスも含む概念である。
【0010】
本発明の他の態様(2)は、上記いずれかの態様において、前記類似画像ページ抽出手段は、前記基準ページに対して複数の前記類似画像ページを抽出し、前記検索キーワード取得手段は、抽出された前記複数の前記類似画像ページに基づいて前記第二の検索キーワードを取得することを特徴とする。
【0011】
このように、一つの基準ページに対して所定数の前記類似画像ページを抽出して検索キーワードを取得することにより、抽出結果のばらつきを抑制して普遍性ある単語同士を対応付けできるので、高精度な対訳辞書を生成可能となる。
【0012】
本発明の他の態様(3)は、上記いずれかの態様において、与えられた複数の前記基準ページのそれぞれについて、前記類似画像ページ抽出手段による前記類似画像ページの抽出と、前記検索キーワード取得手段による前記検索キーワードの取得と、を行うことを特徴とする。
【0013】
このように、基準ページを複数用意してそれぞれについて類似画像ページの抽出と検索キーワードの抽出を繰り返すことにより、特定の対象に関する対訳の候補や複数の言い回しなどを検索キーワードの組として得られるので、単一の基準ページによる場合の画像や言語表現の偏りを抑制して、より普遍性な表現や多様な表現を含む高精度な対訳辞書が生成可能となる。
【0014】
本発明の他の態様(4)は、上記いずれかの態様において、前記検索キーワード取得手段による取得に係る前記第一の検索キーワードと前記第二の検索キーワードとの組の候補が複数ある場合、各キーワードによるウェブ検索でのヒット件数を取得しそのヒット件数が多い組を優先して前記対訳辞書に加える手段を備えたことを特徴とする。
【0015】
このように、第一の検索キーワードと第二の検索キーワードとの組の候補が複数ある場合、各キーワードによるウェブ検索でのヒット件数が多い組を優先して前記対訳辞書に加えることにより、より多く使われる普遍的な言語表現に基づき、高精度な対訳辞書が生成可能となる。
【0016】
本発明の他の態様(5)は、上記いずれかの態様において、前記ウェブ検索ログは、検索結果に含まれたウェブページがクリックされた量に関する情報を含み、前記類似画像ページ抽出手段は、前記類似画像ページの抽出にあたり、前記基準画像と類似画像の類似度とともに、その類似画像を含むウェブページに関する前記クリックされた量に関する情報を用いることを特徴とする。
【0017】
このように、類似画像ページの抽出にあたり、類似画像ページの候補ごとに、ウェブ検索結果でクリックされる量に関するCTR(クリック率)などの情報を考慮することにより、その言語圏でよく閲覧されるページを基礎として高精度な対訳辞書が生成できる。
【0018】
なお、上記の各態様とは異なるカテゴリ(装置に対し方法、方法に対しプログラムなど)や、以下に説明するさらに具体的な各態様も本発明に含まれる。異なるカテゴリについては、「手段」を「処理」又は「ステップ」のように適宜読み替えるものとする。また、処理やステップの実行順序は上記のものに限定されず、適宜変更したりまとめて処理するなど、変更可能である。
【発明の効果】
【0019】
本発明によれば、対訳辞書を自動生成することが可能となる。
【図面の簡単な説明】
【0020】
【図1】本発明の実施形態の構成を示す機能ブロック図。
【図2】本発明の実施形態で用いる情報(データ)を例示する図。
【図3】本発明の実施形態における処理手順を示すフローチャート。
【図4】本発明の実施形態の作用を表す概念図。
【発明を実施するための形態】
【0021】
次に、本発明を実施するための形態(「実施形態」と呼ぶ)について、図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。
【0022】
〔1.構成〕
本実施形態は、図1に示す対訳辞書生成装置1(以下「本装置1」又は「本装置」と略称する)に関するものである。また、類似画像検索サーバ2とウェブ検索サーバ3は、本装置1が通信ネットワークN(インターネット、携帯電話網、LANなど)でアクセスすることで、それらの機能を利用するものである。本装置1は、一般的なコンピュータの構成として少なくとも、CPUなどの演算制御部6と、外部記憶装置(HDD等)や主メモリ等の記憶装置7と、通信ネットワークNとの通信手段8(LANアダプタや通信ゲートウェイ装置など)と、を有する。
【0023】
そして、本装置1では、記憶装置7に予め記憶(インストール)した図示しない所定のコンピュータ・プログラムが演算制御部6を制御することで、図1に示す各手段などの要素(10,20など)を実現する。これら各要素のうち、情報の記憶手段は、記憶装置7において各種のデータベース(「DB」とも表す)やファイル、配列等の変数、各種スタックやレジスタ、システム設定値など任意の形式で実現できる。このような記憶手段のうち、対訳辞書記憶手段35は、本装置1が生成する対訳辞書(例えば図2(2))をデータとして記憶する手段であり、生成された対訳辞書は図示しない自動翻訳システムなどが利用する。
【0024】
他に、本装置1から参照して利用する情報源として、所定のウェブ検索サーバ3におけるウェブ検索ログ(例えば図2(1))を記憶している検索ログ記憶手段25がある。なお、ウェブ検索サーバ3は、実際には第一の言語(以下「基準言語」と呼ぶこととし、ここでは例えば日本語とする)用と、基準言語とは異なる第二の言語(以下「対象言語」と呼ぶこととし、ここでは例えば中国語とする)用の2つが別々に存在することが一般的と考えられ、それぞれのウェブ検索ログは、それぞれの言語で検索された履歴(検索クエリや結果など)を内容とする。
【0025】
一方、そのようなウェブ検索サーバ3や類似画像検索サーバ2を本装置1と一体に構成することを排除するものではなく、このような構成では検索ログ記憶手段25は本装置1内にあることとなる。また、記憶手段以外の各手段は、以下のような情報処理の機能・作用を実現・実行する処理手段である。
【0026】
〔2.作用及び効果〕
上記のように構成した本装置1が対訳辞書を生成する処理手順を図3のフローチャートに示す。また、この処理手順に対応する処理の例を図4の概念図に示す。図3の処理手順では、まず、本装置1の基準画像ページ取得手段10が、日本語によるウェブページである基準ページ(例えば図4の基準ページP1)の指定を、図示しない端末からのURL入力など任意の形で、本装置1の運営者などから受け付ける(ステップS1)。基準ページの具体例としては、日本のショッピングサイト内のページなどが考えられる。
【0027】
〔2−1.類似画像ページの抽出〕
すると、類似画像ページ抽出手段15が、上記の基準ページに含まれる画像を基準画像として、中国語によるウェブページであって基準画像に類似した類似画像を含む類似画像ページ(例えば図4の類似画像ページP2)を抽出する(ステップS2)。この際、取得した基準ページのURLに対し、類似画像ページのURLを対応付けることが考えられる。
【0028】
類似画像ページは、例えば中国のショッピングサイト内のページなどが考えられ、各ウェブページに含まれる画像と基準画像との類似性に基づいて抽出するが、画像の類似性の判断については、画像の部分ごとの特徴量を表す特徴ベクトルの類似性などを用いる従来技術を適宜選択して用いる。また、類似画像ページの抽出については、抽出の機能を本装置1自体が備えてもよいし、類似画像検索サーバ2など外部装置の機能をAPIなどで呼び出して利用してもよい。
【0029】
また、類似画像ページ抽出手段15は、基準ページに対して複数の類似画像ページを抽出してもよい。このように、一つの基準ページに対して所定数の類似画像ページを抽出して検索キーワードを取得することにより、抽出結果のばらつきを抑制して普遍性ある単語同士を対応付けできるので、高精度な対訳辞書を生成可能となる。
【0030】
また、類似画像ページを抽出する基準として、ページがクリックされた量を加味するようにしてもよい。この場合、検索ログ記憶手段25に記憶されているウェブ検索ログは、図2(1)に例示するように、検索結果に含まれたウェブページがクリックされた量に関する情報(以下「クリック情報」と呼び、クリック数や、クリック率すなわちCTRなどである)を含み、類似画像ページ抽出手段15は、類似画像ページの抽出にあたり、基準画像と類似画像の類似度とともに、その類似画像を含むウェブページに関するクリック情報を用いる。
【0031】
その一例として、クリック情報の数値の多寡や順位と、類似度と、をそれぞれ所定の重みで合算してスコア化しその順序の優れた一つ又は所定数のウェブページを類似画像ページとして抽出することが考えられる。このように、類似画像ページの抽出にあたり、類似画像ページの候補ごとに、ウェブ検索結果でクリックされる量に関するCTR(クリック率)などの情報を考慮することにより、その言語圏でよく閲覧されるページを基礎として高精度な対訳辞書が生成できる。
【0032】
〔2−2.検索キーワードの取得〕
続いて、検索キーワード取得手段20が、検索ログ記憶手段25に記憶されているウェブ検索ログに基づいて、基準ページがヒットする第一の検索キーワード(以下「基準語」と呼ぶ)と、類似画像ページがヒットする第二の検索キーワード(以下「対象語」と呼ぶ)と、を取得する(ステップS3)。例えば、図4の例では、基準語KW1である「自転車」と、対象語KW2である「自行車」(ここでは特許出願で使用可能な文字種の制限上、繁体字で表すが、実際には各図に示すように簡体字などを処理や登録の対象としたり、他の任意の言語に本発明を適用することができる)が取得されている。
【0033】
各検索キーワード(基準語や対象語)は複数の文節や語からなるフレーズでもよい。また、基準ページに対して類似画像ページ抽出手段15が複数の類似画像ページを抽出していた場合、検索キーワード取得手段20は、抽出された複数の類似画像ページに基づいて基準語及び対象語を取得する。
【0034】
〔2−3.対訳辞書への登録〕
その後、対訳辞書登録手段30が、取得された基準語と対象語と、を第一の言語と第二の言語の対訳辞書に登録する(ステップS4)。図4の例では、日本語である基準語「自転車」に対し、中国語である対象語「自行車」を対応付けて対訳辞書Dに登録している。
【0035】
この際、対訳辞書登録手段30は、検索キーワード取得手段20による取得に係る基準語と対象語との組の候補が複数ある場合、同じ組が多く存在するものを優先すれば普遍的な対訳が登録できるし、また、ウェブ検索サーバ3などを用いて各キーワードによるウェブ検索でのヒット件数を取得し、そのヒット件数が多い組を優先して対訳辞書に加えることも特に望ましい。このように、第一の検索キーワード(基準語)と第二の検索キーワード(対象語)との組の候補が複数ある場合、各キーワードによるウェブ検索でのヒット件数が多い組を優先して前記対訳辞書に加えることにより、より多く使われる普遍的な言語表現に基づき、高精度な対訳辞書が生成可能となる。
【0036】
〔2−4.複数の基準ページの処理〕
なお、類似した画像を持つ複数の基準ページについてURLの指定などを一度に受け付けてもよく(ステップS1)、この場合、与えられた複数の基準ページのそれぞれについて、類似画像ページ抽出手段15は類似画像ページの抽出(ステップS2)を行い、検索キーワード取得手段20は各検索キーワードの取得を行う(ステップS3)。また、この場合、対訳辞書登録手段30による対訳辞書への登録(ステップS4)は、検索キーワードが取得されるたびに行ってもよいし、全ての基準ページについて類似画像ページの抽出と検索キーワードの取得を行った後、まとめて行ってもよい。
【0037】
このように、基準ページを複数用意してそれぞれについて類似画像ページの抽出と検索キーワードの抽出を繰り返すことにより、特定の対象に関する対訳の候補や複数の言い回しなどを検索キーワードの組として得られるので、単一の基準ページによる場合の画像や言語表現の偏りを抑制して、より普遍性な表現や多様な表現を含む高精度な対訳辞書が生成可能となる。
【0038】
〔3.主な効果のまとめ〕
以上のように、本実施形態では、ある言語のページ内の画像と類似する画像を含む他の言語のページを類似画像検索で抽出し、双方のページがヒットする検索キーワードをウェブ検索等のログから取得することにより、相互に似た画像を指す異なる言語の単語やフレーズが対応付けできるので(例えば図4)、対訳辞書の自動生成が可能となる。
【0039】
〔4.他の実施形態〕
なお、上記各実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、本発明は、日本語と中国語、日本語と他の言語(韓国語、フランス語他)の対訳辞書に限らず、他の言語同士の対訳辞書にも適用可能である。
【0040】
また、本発明に関する手段などの各要素は、コンピュータの演算制御部に限らず物理的な電子回路など他の情報処理機構で実現してもよい。また、各構成図、データの図、フローチャートの図などは例示に過ぎず、各要素の有無、その配置や処理実行などの順序、具体的内容などは適宜変更可能である。例えば、本発明の装置は、サーバなどの装置を複数用いて実現してもよく、個々の記憶手段を別個独立のサーバ装置やシステムで実現する構成も一般的である。また、機能によっては、外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティング(いわゆるクラウドなど)で呼び出して実現するなど、構成は柔軟に変更できる。
【符号の説明】
【0041】
1 対訳辞書生成装置(本装置)
2 類似画像検索サーバ
3 ウェブ検索サーバ
6 演算制御部
7 記憶装置
8 通信手段
10 基準画像ページ取得手段
15 類似画像ページ抽出手段
20 検索キーワード取得手段
25 検索ログ記憶手段
30 対訳辞書登録手段
35 対訳辞書記憶手段
KW1 基準語
KW2 対象語
N 通信ネットワーク
P1 基準ページ
P2 類似画像ページ

【特許請求の範囲】
【請求項1】
第一の言語によるウェブページである基準ページに含まれる画像を基準画像として、前記第一の言語とは異なる第二の言語によるウェブページであって前記基準画像に類似した類似画像を含む類似画像ページを抽出する類似画像ページ抽出手段と、
ウェブ検索ログを記憶している検索ログ記憶手段と、
前記検索ログ記憶手段に記憶されている前記ウェブ検索ログに基づいて、前記基準ページがヒットする第一の検索キーワードと、前記類似画像ページがヒットする第二の検索キーワードと、を取得する検索キーワード取得手段と、
取得された前記第一の検索キーワードと、前記第二の検索キーワードと、を前記第一の言語と前記第二の言語の対訳辞書に登録する対訳辞書登録手段と、
を有することを特徴とする対訳辞書生成装置。
【請求項2】
前記類似画像ページ抽出手段は、前記基準ページに対して複数の前記類似画像ページを抽出し、
前記検索キーワード取得手段は、抽出された前記複数の前記類似画像ページに基づいて前記第二の検索キーワードを取得する
ことを特徴とする請求項1記載の対訳辞書生成装置。
【請求項3】
与えられた複数の前記基準ページのそれぞれについて、
前記類似画像ページ抽出手段による前記類似画像ページの抽出と、
前記検索キーワード取得手段による前記検索キーワードの取得と、
を行うことを特徴とする請求項1又は2記載の対訳辞書生成装置。
【請求項4】
前記検索キーワード取得手段による取得に係る前記第一の検索キーワードと前記第二の検索キーワードとの組の候補が複数ある場合、各キーワードによるウェブ検索でのヒット件数を取得しそのヒット件数が多い組を優先して前記対訳辞書に加える手段を備えたことを特徴とする請求項1から3のいずれか一項に記載の対訳辞書生成装置。
【請求項5】
前記ウェブ検索ログは、検索結果に含まれたウェブページがクリックされた量に関する情報を含み、
前記類似画像ページ抽出手段は、前記類似画像ページの抽出にあたり、前記基準画像と類似画像の類似度とともに、その類似画像を含むウェブページに関する前記クリックされた量に関する情報を用いることを特徴とする請求項1から4のいずれか一項に記載の対訳辞書生成装置。
【請求項6】
コンピュータが、第一の言語によるウェブページである基準ページに含まれる画像を基準画像として、前記第一の言語とは異なる第二の言語によるウェブページであって前記基準画像に類似した類似画像を含む類似画像ページを抽出する類似画像ページ抽出処理と、
コンピュータが、所定の検索ログ記憶手段に記憶されているウェブ検索ログに基づいて、前記基準ページがヒットする第一の検索キーワードと、前記類似画像ページがヒットする第二の検索キーワードと、を取得する検索キーワード取得処理と、
コンピュータが、取得された前記第一の検索キーワードと、前記第二の検索キーワードと、を前記第一の言語と前記第二の言語の対訳辞書に登録する対訳辞書登録処理と、
を含むことを特徴とする対訳辞書生成方法。
【請求項7】
コンピュータを制御することにより対訳辞書を生成する対訳辞書生成プログラムであって、
コンピュータに、第一の言語によるウェブページである基準ページに含まれる画像を基準画像として、前記第一の言語とは異なる第二の言語によるウェブページであって前記基準画像に類似した類似画像を含む類似画像ページを抽出させ、
コンピュータに、所定の検索ログ記憶手段に記憶されているウェブ検索ログに基づいて、前記基準ページがヒットする第一の検索キーワードと、前記類似画像ページがヒットする第二の検索キーワードと、を取得させ、
コンピュータに、取得された前記第一の検索キーワードと、前記第二の検索キーワードと、を前記第一の言語と前記第二の言語の対訳辞書に登録させる
ことを特徴とする対訳辞書生成方法プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2012−43233(P2012−43233A)
【公開日】平成24年3月1日(2012.3.1)
【国際特許分類】
【出願番号】特願2010−184510(P2010−184510)
【出願日】平成22年8月20日(2010.8.20)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】