説明

翻訳装置、翻訳システム、翻訳方法および翻訳プログラム

【課題】翻訳精度を向上する翻訳装置、翻訳システム、翻訳方法および翻訳プログラムを提供する。
【解決手段】翻訳装置100は、複数の翻訳結果に含まれる単語または単語列の対応関係を、当該単語または単語列を訳語とする原文中の単語または単語列とから決定する対応照合部102と、対応関係にある複数の単語または単語列を比較する比較部104と、比較した結果を統合する結果統合部106と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、翻訳装置、翻訳システム、翻訳方法、および翻訳プログラムに関し、特に、複数の翻訳結果を扱う翻訳装置、翻訳システム、翻訳方法、および翻訳プログラムに関する。
【背景技術】
【0002】
近年、第一の言語で記述されたテキストなどの文字情報を、異なる第二の言語に変換する機械翻訳の技術の実用化が盛んである。機械翻訳技術を利用した機械翻訳システムでは、特定の限定された用途では高い精度が出ることもあり、実用レベルになっていると言えるが、対象となるドメインや文章のスタイルに得手、不得手があることが多く、たとえば、書き言葉を対象としたWeb翻訳システムでは、話し言葉のように異なるスタイルの文章を翻訳しようとすると、大きく精度を落とすことがある。そこで、複数の翻訳結果を利用することで、翻訳の精度を上げようという試みがなされている。
【0003】
特許文献1に記載された方法は、複数の翻訳結果のそれぞれに信頼度を付与し、最も信頼度の高い結果を選択することで、翻訳の精度を上げるものである。
また、複数の翻訳結果を有向グラフ化して同じ単語を表すノードを結合し、最適経路を探索することで、結果として翻訳の精度を上げる方法が、非特許文献1に記載されている。関連して、検索クエリを複数の方法で翻訳した複数の翻訳結果を語ベクトルで表現し、ベクトル間の比較を行って、ある基準に合致した単語のみを検索クエリとすることで、検索クエリを精度良く翻訳する方法が、特許文献2に記載されている。
【0004】
また、特許文献3に記載された機械翻訳システムは、複数の翻訳サブブロックを有し、ウェブ翻訳サービスとして公開される。原文を複数の部分に分解し、単文毎に最適な英語訳を選択するものである。
【0005】
さらに、特許文献4に記載されている方法は、原文を複数の語句に分解し、分解された語句毎に全ての対訳を対訳辞書からそれぞれ取得し、各語句の対訳の組合せパターンを生成し、ウェブ検索により対訳の組合せパターンの存在の有無を判定し、ヒット件数の比率に基づいて対訳候補を決定することで、任意の語句配列について文章としての自然度を適正に判定することができる。
また、特許文献5に記載されている機械翻訳システムは、訳語候補が複数個存在する場合は、関係テーブルから取り出した内容とのマッチングを行い訳語候補を検出し、訳語候補の類似度を算出し蓄積する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2004−102942号公報
【特許文献2】特開2006−344011号公報
【特許文献3】特開2004−318344号公報
【特許文献4】特開2007−122509号公報
【特許文献5】特開平06−168266号公報
【非特許文献】
【0007】
【非特許文献1】荘司 慶行、外3名、「統合型メタ翻訳の提案」、[online]、2008年、第19回データ工学ワークショップ(DEWS(Data Engineering Workshop)2008)、[平成22年7月20日検索]、インターネット〈URL:http://www.ieice.org/~de/DEWS/DEWS2008/proceedings/files/i2/i2-24.pdf〉
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述した各文献に記載された技術においては、複数の翻訳結果を比較し統合する場合に、比較対象を適切に選択することができない場合があるという問題点があった。その理由は、翻訳装置が、複数の翻訳結果と翻訳前の第一の言語の単語または単語列との関係を考慮していないからである。
たとえば、特許文献1に記載の技術では、最も信頼度の高い単一の翻訳結果を選択するのみであるため、複数の翻訳結果のよいところを組み合わせる、すなわち統合することを考慮していない。
【0009】
また、非特許文献1および特許文献2に記載の技術では、複数の翻訳結果を比較する際に翻訳結果である第二の言語の情報のみを用いており、たとえば、翻訳前の第一の言語では同一の単語だったものが、翻訳結果の第二の言語では別の単語に訳された場合に、それらを同じ比較対象とすることが、必ずしも考慮されていない。このため、本来比較したい2つの単語を比較対象とできなかったり、第一の言語では異なる単語の訳語が偶然同じ単語になった場合にそれらを比較してしまったりといった問題が起こりうる。翻訳結果の比較の際には、ある単語または単語列の訳語同士を正しく選択し、比較できることが望ましいことは言うまでもない。
【0010】
本発明の目的は、上述した課題である翻訳精度の向上を解決する翻訳装置、翻訳システム、翻訳方法および翻訳プログラムを提供することにある。
【課題を解決するための手段】
【0011】
本発明の翻訳装置は、
複数の翻訳結果に含まれる単語または単語列の対応関係を、当該単語または単語列を訳語とする原文中の単語または単語列とから決定する対応照合手段と、
決定された前記対応関係にある複数の前記単語または前記単語列を比較する比較手段と、
比較した結果を統合する結果統合手段と、を備える。
【0012】
本発明の翻訳システムは、
複数の翻訳装置による複数の翻訳結果と、その原文を受け付ける受付手段と、
受け付けた複数の前記翻訳結果に含まれる単語または単語列の対応関係を、当該単語または単語列を訳語とする前記原文中の単語または単語列とから決定する対応照合手段と、
決定された前記対応関係にある複数の前記単語または前記単語列を比較する比較手段と、
比較した結果を統合する結果統合手段と、
統合された結果を出力する手段と、を備える。
【0013】
本発明のコーパス生成装置は、
大量のテキストコーパスと、請求項1乃至6いずれかに記載の翻訳装置で翻訳された、前記テキストコーパスの翻訳結果を入力する入力手段と、
入力された前記テキストコーパスおよび前記翻訳結果からパラレルコーパスを生成する生成手段と、を備える。
【0014】
本発明の翻訳方法は、
複数の翻訳結果に含まれる単語または単語列の対応関係を、当該単語または単語列を訳語とする原文中の単語または単語列とから決定し、
決定された前記対応関係にある複数の前記単語または前記単語列を比較し、
比較した結果を統合する翻訳方法である。
【0015】
本発明のコンピュータプログラムは、
翻訳装置を実現させるためのコンピュータに、
複数の翻訳結果に含まれる単語または単語列の対応関係を、当該単語または単語列を訳語とする原文中の単語または単語列とから決定する手順、
決定された前記対応関係にある複数の前記単語または前記単語列を比較する手順、
比較した結果を統合する結果統合手順、を実行させるためのプログラムである。
【0016】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
【0017】
また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
【0018】
また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障しない範囲で変更することができる。
【0019】
さらに、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。
【発明の効果】
【0020】
本発明によれば、翻訳精度を向上する翻訳装置、翻訳システム、翻訳方法および翻訳プログラムが提供される。
【図面の簡単な説明】
【0021】
【図1】本発明の実施の形態に係る翻訳装置の構成を示す機能ブロック図である。
【図2】本発明の実施の形態に係る翻訳装置における翻訳処理の手順を示すフローチャートである。
【図3】本発明の実施例に係る翻訳システムの全体構成を示すブロック図である。
【図4】本発明の実施例に係る翻訳システムにおける翻訳処理の手順を示すフローチャートである。
【図5】本発明の実施例に係る翻訳システムの動作例を説明するための図である。
【図6】本発明の実施例に係る翻訳システムの動作例を説明するための図である。
【図7】本発明の実施の形態に係る翻訳装置の構成を示すブロック図である。
【図8】本発明の実施の形態に係る翻訳装置における翻訳処理の手順を示すフローチャートである。
【図9】本発明の実施例に係るWeb翻訳システムの全体構成を示すブロック図である。
【図10】本発明の実施例に係るWeb翻訳システムにおける翻訳処理の手順を示すフローチャートである。
【図11】本発明の実施の形態に係る翻訳装置の別の構成を示すブロック図である。
【発明を実施するための形態】
【0022】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【0023】
(第1の実施の形態)
図1は、本発明の実施の形態に係る翻訳装置100の構成を示す機能ブロック図である。
本実施形態の翻訳装置100は、複数の翻訳結果を入力し、入力した複数の翻訳結果を統合して一つの翻訳結果を出力するものである。本発明において、各実施形態および実施例で以下に説明する翻訳装置は、機械翻訳技術を用いた翻訳ソフト、Web翻訳サービス、自動通訳システムといった用途に適用できる。複数の翻訳結果は、たとえば、翻訳前の第一の言語で記述された文、すなわち原文を元に、異なる翻訳システム等で第二の言語へ機械翻訳された複数の翻訳結果、すなわち複数の訳文である。
【0024】
本発明の実施の形態に係る翻訳装置100は、複数の翻訳結果に含まれる単語または単語列の対応関係を、当該単語または単語列を訳語とする原文中の単語または単語列とから決定する対応照合部102と、対応関係にある複数の単語または単語列を比較する比較部104と、比較した結果を統合する結果統合部106と、を備える。
【0025】
本実施形態において、翻訳装置100は、汎用的なコンピュータシステムであり、図示しない構成として、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、および不揮発性記憶装置を備える。翻訳装置100は、CPUがRAM、ROM、またはハードディスクスなどの不揮発性記憶装置に格納されたOS(Operation System)、翻訳プログラムを読み出して実行することにより、翻訳処理を行う各ユニットの各機能を実現することができる。
【0026】
さらに、翻訳装置100は、図示しない通信装置を備えてもよく、キーボードやマウス等の入力装置(不図示)やディスプレイやプリンタ等の出力装置(不図示)と接続されるコンピュータにより実現することができる。なお、翻訳装置100は1台のコンピュータシステムである必要はなく、複数台のコンピュータシステム等で構成されていてもよい。
【0027】
すなわち、翻訳装置100の各構成要素は、上述した任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。また、以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
【0028】
詳細には、対応照合部102は、テキスト入力部10から、翻訳前の第一の言語で記述された文すなわち原文と、当該文の第二の言語への複数の翻訳結果すなわち訳文とを入力し、前記複数の翻訳結果に含まれる単語または単語列の対応関係を照合する。具体的には、対応照合部102は、各翻訳結果の単語または単語列に対し、当該単語または単語列を訳語とする原文中の単語または単語列を選択し、原文中の単語または単語列が同一である翻訳結果の単語または単語列同士を対応関係にあるとする。ある翻訳結果中の単語に対し、当該単語を訳語とする原文中の単語を選択する技術については、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。
【0029】
なお、テキスト入力部10は、第一の言語で記述された原文のテキストと、当該原文の第二の言語への複数の翻訳結果すなわち訳文のテキストを受け付け、翻訳装置100の対応照合部102にそれぞれ入力する。本実施形態において、テキスト入力部10が翻訳装置100に入力する原文のテキストおよび複数の翻訳結果のテキストは、既に準備されているものとして説明するが、これに限定されない。後述する実施形態および実施例の説明において、詳細に説明する。
【0030】
比較部104は、対応照合部102にて対応関係にあるとされた単語または単語列同士を比較して、最適な単語または単語列を選択する。具体的には、比較部104は、たとえば、対応関係にあるとされた単語同士の多数決をとることで、最も多く出現する単語を選択する。
【0031】
結果統合部106は、前記比較部104にて選択された結果である単語または単語列を統合して翻訳結果として出力する。具体的には、結果統合部106は、たとえば、基準となる一つの翻訳結果の語順に基づき、前記比較部104にて選択された単語または単語列を並べる。翻訳結果は、たとえば、テキストファイルや所定形式のファイルとして出力される。
【0032】
なお、出力部20は、たとえば、翻訳装置100の結果統合部106が出力した翻訳結果を受け付けて、その翻訳結果を画面表示するディスプレイ装置などとすることができる。または、出力部20は、翻訳結果ファイルを記憶する記憶装置、他のコンピュータにネットワークを介して送信して提供する通信装置、翻訳結果を音声出力するための音声合成装置を組み込んだスピーカなどの音声出力装置、またはこれらの組合せであってもよい。
【0033】
なお、本実施の形態では、比較部104にて多数決をとることとしたが、この方法に限らない。たとえば、あらかじめ定められたキーワードリストに含まれる単語を優先する、あるいはリストに含まれる単語を棄却するような方式であってもよい。また、結果統合部106にて基準となる一つの翻訳結果に基づいて単語を並べるとしたが、この方法に限らない。たとえば、語順を決定するために第二の言語における語順の確からしさを与える言語モデルを利用し、言語的確からしさが高い語順を選択するのでもよい。言語モデルを利用して言語的確からしさを与える方法や、語順を決定する方法については、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。
【0034】
本実施の形態の翻訳装置100において、上述したように、コンピュータプログラムをCPUが実行することにより、以下のコンピュータプログラムの手順に対応する各種の処理が行われ、前述のような翻訳装置100の各種ユニットが各種機能として実現される。
【0035】
本実施形態のコンピュータプログラムは、翻訳装置100を実現させるためのコンピュータに、複数の翻訳結果に含まれる単語または単語列の対応関係を、当該単語または単語列を訳語とする原文中の単語または単語列とから決定する手順、決定された前記対応関係にある複数の単語または単語列を比較する手順、比較した結果を統合する結果統合手順、を実行させるように記述されている。
【0036】
本実施形態のコンピュータプログラムは、コンピュータで読み取り可能な記録媒体に記録されてもよい。記録媒体は特に限定されず、様々な形態のものが考えられる。また、プログラムは、記録媒体からコンピュータのメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。
【0037】
上述のような構成において、本実施の形態の翻訳装置100による翻訳方法を以下に説明する。図2は、本実施形態の翻訳装置100における翻訳処理の手順を示すフローチャートである。以下、図1および図2を用いて説明する。
【0038】
本実施形態の翻訳方法は、複数の翻訳結果に含まれる単語または単語列の対応関係を、当該単語または単語列を訳語とする原文中の単語または単語列とから決定し(図2のステップS103)、決定された前記対応関係にある複数の前記単語または前記単語列を比較し(図2のステップS105)、比較した結果を統合する(図2のステップS107)。
【0039】
詳細には、まず、図2に示すように、翻訳装置100(図1)が、テキスト入力部10(図1)からテキストを入力する(ステップS101)。具体的には、第一の言語で記述された文すなわち原文と、当該文の第二の言語への複数の翻訳結果すなわち訳文とがテキスト入力部10から対応照合部102(図1)に入力される。
【0040】
次に、翻訳装置100が、入力された複数の翻訳結果に含まれる単語または単語列の対応関係を照合する(ステップS103)。具体的には、翻訳装置100の対応照合部102において、各翻訳結果の単語または単語列に対し、当該単語または単語列を訳語とする原文中の単語または単語列を選択し、原文中の単語または単語列が同一である翻訳結果の単語または単語列同士を対応関係にあるとして、比較部104(図1)に通知する。
【0041】
次に、翻訳装置100が、照合により対応関係にあるとされた単語または単語列同士を比較する(ステップS105)。具体的には、翻訳装置100の比較部104において、対応照合部102から翻訳結果の単語または単語列の対応関係を通知された場合に、たとえば、単語同士の多数決をとって最も多く出現する単語を選択し、結果統合部106(図1)に通知する。
【0042】
次に、翻訳装置100が、結果を統合する(ステップS107)。具体的には、翻訳装置100の結果統合部106において、比較部104から通知された単語または単語列に対し、たとえば、基準となる一つの翻訳結果の語順に基づいて並べる。
【0043】
次に、翻訳装置100が、結果を出力する(ステップS109)。具体的には、翻訳装置100の結果統合部106で並べられた単語または単語列を、一つの翻訳結果として出力部20(図1)に出力、すなわち、たとえば、ディスプレイに表示する。
【0044】
以上説明したように、本発明の実施の形態の翻訳装置100によれば、複数の翻訳結果を比較して統合する場合に、当該複数の翻訳結果の比較対象を適切に選択し、比較した結果を組み合わせて一つの翻訳結果として統合することで、結果として翻訳精度を上げることが可能となる。
【0045】
(第2の実施の形態)
次に、本発明の第2の実施の形態を説明する。
図7は、本実施形態の翻訳装置300の構成を示す機能ブロック図である。
本実施形態の翻訳装置300は、上記実施形態とは、比較部104に替わる比較部304において各単語に優先順位がつけられた順位辞書を備えることにより、翻訳結果の精度をより高める点で相違する。
【0046】
本実施形態の翻訳装置300は、複数の翻訳結果を入力し、入力した複数の翻訳結果を統合して一つの翻訳結果を出力するものである。
【0047】
本発明の実施の形態に係る翻訳装置300は、上記実施形態の翻訳装置100の構成に加え、さらに、各単語に優先順位が定められた辞書(順位辞書記憶部(図中、「順位辞書」と示す)308)をさらに備え、比較部304において、複数の単語または単語列を比較する際に、当該辞書の優先順位が低い順に大きい重みをかける。
【0048】
本実施形態の翻訳装置300は、汎用的なコンピュータシステムであり、図示しない構成として、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、および不揮発性記憶装置を備える。翻訳装置300は、CPUがRAM、ROM、またはハードディスクスなどの不揮発性記憶装置に格納されたOS(Operation System)、翻訳プログラムを読み出して実行することにより、翻訳処理を行う各ユニットの各機能を実現することができる。
【0049】
さらに、翻訳装置300は、図示しない通信装置を備えてもよく、キーボードやマウス等の入力装置(不図示)やディスプレイやプリンタ等の出力装置(不図示)と接続されるコンピュータにより実現することができる。なお、翻訳装置100は1台のコンピュータシステムである必要はなく、複数台のコンピュータシステム等で構成されていてもよい。
【0050】
すなわち、翻訳装置300の各構成要素は、上述した任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。また、以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
【0051】
図7に示すように、本発明の翻訳装置300は、上記実施形態の翻訳装置100の対応照合部102と、結果統合部106と、に加え、さらに、比較部304と、順位辞書記憶部308と、を備える。
【0052】
比較部304は、対応照合部102にて対応関係にあるとされた単語または単語列同士を比較して、最適な単語または単語列を選択する。具体的には、比較部304は、たとえば、対応関係にあるとされた単語同士の多数決をとることで、最も多く出現する単語を選択する。その際、順位辞書記憶部308の順位辞書を用い、単純な多数決ではなく順位辞書にて定められた優先順位が低い順に大きい重みをかけることで、元々優先順位の低い単語がわざわざ翻訳結果として使われている場合には、その分優先して採用することにより、翻訳結果の精度がより高まることが期待できる。
【0053】
なお、順位辞書における単語の優先順位は、たとえば、対訳辞書における一般的な順位でもよいし、あるテキストコーパスにおける出現頻度に基づいた統計的な順位すなわち出現しやすさを用いてもよい。また、順位辞書は一つの辞書である必要はなく、たとえば、専門分野が異なる複数の辞書の組み合わせとして用意してもよい。
また、順位辞書は、必ずしも翻訳装置300が有する記憶装置に記憶されていなくてもよく、ネットワークなどを介して接続された記憶装置に記憶されたものであってもよい。
【0054】
上述のような構成において、本実施の形態の翻訳装置300による翻訳方法を以下に説明する。図8は、本実施形態の翻訳装置300における翻訳処理の手順を示すフローチャートである。以下、図7および図8を用いて説明する。
まず、翻訳装置300が、テキスト入力部10(図7)からテキストを入力する(ステップS101)。具体的には、第一の言語で記述された文すなわち原文と、当該文の第二の言語への複数の翻訳結果すなわち訳文とがテキスト入力部10から対応照合部102(図7)に入力される。
【0055】
次に、翻訳装置300が、入力された複数の翻訳結果に含まれる単語または単語列の対応関係を照合する(ステップS103)。具体的には、翻訳装置300の対応照合部102において、各翻訳結果の単語または単語列に対し、当該単語または単語列を訳語とする原文中の単語または単語列を選択し、原文中の単語または単語列が同一である翻訳結果の単語または単語列同士を対応関係にあるとして、比較部304(図7)に通知する。
【0056】
次に、翻訳装置300が、照合により対応関係にあるとされた単語または単語列同士を比較する(ステップS305)。具体的には、翻訳装置300の比較部304において、対応照合部102から翻訳結果の単語または単語列の対応関係を通知された場合に、たとえば、単語同士の多数決をとって最も多く出現する単語を選択し、結果統合部106(図7)に通知する。その際、順位辞書記憶部308(図7)に記憶されている順位辞書を用い、単純な多数決ではなく順位辞書にて定められた優先順位が低い順に大きい重みをかける。
【0057】
次に、翻訳装置300が、結果を統合する(ステップS107)。具体的には、翻訳装置300の結果統合部106において、比較部304から通知された単語または単語列に対し、たとえば、基準となる一つの翻訳結果の語順に基づいて並べる。
【0058】
次に、翻訳装置300が、結果を出力する(ステップS109)。具体的には、翻訳装置300の結果統合部106で並べられた単語または単語列を、一つの翻訳結果として出力部20(図7)に出力、すなわち、たとえば、ディスプレイに表示する。
【0059】
以上説明したように、本発明の第2の実施の形態に係る翻訳装置300によれば、順位辞書を用いて各単語の優先順位が低い順に大きい重みをかけることで、元々優先順位の低い単語がわざわざ翻訳結果として使われている場合には、その分優先して採用することができることとなり、翻訳結果の精度をより高めることが可能となる。
【0060】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
【0061】
たとえば、上記実施形態では、翻訳結果を出力することを目的とした翻訳装置を例として挙げたが、これを応用し、大量のテキストコーパスを入力して大量の翻訳結果を得ることで、パラレルコーパスを生成するコーパス生成装置またはシステムとしても実現が可能である。
【実施例】
【0062】
(実施例1)
図1の本実施の形態に係る翻訳装置100の実施例1として、以下に翻訳システムの例を説明する。図3は、実施例1に係る翻訳システム200の全体構成を示したブロック図である。
図3に示す翻訳システム200は、入力部210と、複数の翻訳部220a、翻訳部220b、および翻訳部220cと、図1の上記実施形態の翻訳装置100と、出力部230と、を備える。翻訳システム200は、たとえば、一つの翻訳エンジンとして動作し、精度の高い翻訳結果を提供する。
【0063】
翻訳システム200は、汎用的なコンピュータシステムであり、図示しない構成として、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、および不揮発性記憶装置を備える。翻訳システム200は、CPUがRAM、ROM、またはハードディスクスなどの不揮発性記憶装置に格納されたOS(Operation System)、翻訳プログラムを読み出して実行することにより、翻訳処理を行う各ユニットの各機能を実現することができる。
【0064】
さらに、翻訳システム200は、図示しない通信装置を備えてもよく、キーボードやマウス等の入力装置(不図示)やディスプレイやプリンタ等の出力装置(不図示)と接続されるコンピュータにより実現することができる。なお、翻訳システム200は1台のコンピュータシステムである必要はなく、複数台のコンピュータシステム等で構成されていてもよい。
【0065】
すなわち、翻訳システム200の各構成要素は、上述した任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。また、以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
【0066】
詳細には、入力部210は、入力となる第一の言語のテキストを受け付け、複数の翻訳部220a、翻訳部220b、および翻訳部220cにそれぞれ入力する。
入力部210は、様々な入力手段により得られた原文のテキストを受け付けることができる。たとえば、翻訳装置100のキーボードなどの入力装置により入力されたテキスト、翻訳装置100に、直接接続される、またはネットワーク(不図示)を介して接続される記憶装置(不図示)に保存されているテキストファイルを読み取り得られたテキスト、OCR(Optical Character Reader)で読み取られたテキスト、ディスプレイに表示されている文字列をコピー&ペーストして受け付けたりして得られたテキストなどを受け付けることができる。
【0067】
翻訳部220a、翻訳部220b、および翻訳部220cは、入力部210からのテキスト入力をそれぞれ受け付け、それぞれ独自の翻訳処理を行う。たとえば、市販されているような複数の翻訳エンジンをそれぞれ組み込むことができる。なお、ここでは翻訳部は3つあるとしたが、その数に限定されるものではない。
【0068】
本実施例の翻訳装置は、図1の翻訳装置100に対応するものである。そのため、以下では、図1との違いを中心に説明し、図1と対応し同様の機能を有する構成については、説明を省略する。対応照合部102は、入力部210からの原文と、翻訳部220a、翻訳部220b、および翻訳部220cの出力である翻訳結果とを受け付ける。
【0069】
出力部230は、結果統合部106から得られる翻訳結果テキストを出力する。たとえば、テキストを画面表示するディスプレイでもよいし、翻訳結果を音声出力するための音声合成装置を組み込んだスピーカでもよい。
【0070】
このように構成された本実施例の動作について、以下に説明する。
図4は、本発明の実施例1に係る翻訳システム200における翻訳処理の手順を示すフローチャートである。以下、図3乃至図6を用いて説明する。
まず、翻訳システム200(図3)は、第一の言語のテキストを入力する(ステップS201)。具体的には、翻訳システム200は、入力部210(図3)によって入力となる第一の言語のテキストを受け付け、図3の複数の翻訳部220a、翻訳部220b、および翻訳部220cにそれぞれ入力する。
【0071】
次に、翻訳システム200は、入力されたテキストを翻訳する(ステップS203)。具体的には、翻訳システム200は、入力部210から入力されたテキストを複数の翻訳部220a、翻訳部220b、および翻訳部220cにてそれぞれ翻訳する。
【0072】
次に、翻訳システム200は、複数の翻訳結果を照合する(ステップS205)。具体的には、翻訳システム200は、対応照合部102(図3)にて複数の翻訳部220a、翻訳部220b、および翻訳部220cにて得られた各翻訳結果の単語または単語列に対し、当該単語または単語列を訳語とする入力テキスト中の単語または単語列を選択し、入力テキスト中の単語または単語列が同一である翻訳結果の単語または単語列同士を対応関係にあるとする。
【0073】
たとえば、図5の例を参照すると、入力言語252として日本語で「ケータイにかけて」という入力があった場合に、翻訳部220a、翻訳部220b、および翻訳部220cにて出力言語254として得られた日英翻訳結果がそれぞれ図5(a)、図5(b)、および図5(c)にて表されている。すなわち、たとえば、翻訳部220bの翻訳結果は「Apply to a mobile phone.」であり、各単語または単語列を訳語とする入力テキスト中の単語または単語列として、「a mobile phone」は「ケータイ」、「to」は「に」、「apply」は「かけて」が対応することがわかる。複数の翻訳結果間で、入力テキスト中の単語または単語列が同一であるもの同士を対応関係にあるとするので、ここでは「a cellular phone」と「a mobile phone」が、「apply」と「run」と「空(訳語なし)」とが対応関係にあるとされる。
【0074】
次に、翻訳システム200は、照合により対応関係にあるとされた単語または単語列同士を比較する(ステップS207)。具体的には、翻訳システム200は、比較部104(図3)にて前記対応関係にあるとされた単語または単語列同士の多数決をとって最も多く出現する単語を選択する。たとえば、図5および図6の例を参照すると、図5にて対応関係が定められた訳語同士の多数決をとることで、「to」と「a mobile phone」とが得られる。「apply」と「run」と「空(訳語なし)」については、いずれも出現回数が1であることから、信頼性が低いとしてたとえばここでは翻訳結果として選択しない。
【0075】
次に、翻訳システム200は、結果を統合する(ステップS209)。具体的には、翻訳システム200は、結果統合部106(図3)にて多数決の結果選択された単語または単語列を、たとえば基準となる翻訳部220aの語順に基づいて並べる。
【0076】
たとえば、図6の例を参照すると、入力テキスト262から得られた複数の翻訳結果264a、翻訳結果264b、および翻訳結果264cからの多数決の結果266として「to」と「a mobile phone」とが得られたとして、それらを基準となる翻訳部220aの翻訳結果264a、すなわち、ここでは「翻訳結果1」の語順に基づいて並べ、図6の「統合結果」に示すように「To a mobile phone.」という一つの翻訳結果を得る。
【0077】
なお、図11に示すように翻訳装置500として、結果選択部508をさらに備えてもよい。結果選択部508は、結果統合部106で統合された結果に対して最も距離の近い入力の翻訳結果を選択する。ここでの距離とは、単語単位のハミング距離などを用いればよい。
【0078】
図4に戻り、次に、翻訳システム200は、結果を出力する(ステップS211)。具体的には、翻訳システム200は、統合の結果得られた一つの翻訳結果を、出力部230(図3)にて、たとえば、ディスプレイに表示する。
【0079】
以上説明したように、本発明の実施例1によれば、複数の翻訳部を用いて、一つの翻訳エンジンとして動作させ、複数の翻訳結果を統合することで、精度の高い翻訳結果を提供する。特に、元々得意分野の異なる複数の翻訳エンジンを組み合わせて利用する場合など、対象となるドメインや文章のスタイルの違いにより各翻訳エンジンには得手、不得手があることが多いが、そういった違いにも頑健な翻訳が実現できる可能性が高まる。
【0080】
(実施例2)
図7の本発明の実施の形態に係る翻訳装置の実施例2として、以下にWeb翻訳システムの例を説明する。図9は、実施例2に係るWeb翻訳システム400の全体の構成を示したブロック図である。図9におけるWeb翻訳システム400は、入力部410と、送信部420と、受信部430と、図7の上記実施形態の翻訳装置300と、出力部450とを備える。Web翻訳システム400は、たとえば、複数の翻訳結果を統合して精度の高い翻訳を実現することができる。
【0081】
Web翻訳システム400は、汎用的なコンピュータシステムであり、図示しない構成として、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、および不揮発性記憶装置を備える。Web翻訳システム400は、CPUがRAM、ROM、またはハードディスクスなどの不揮発性記憶装置に格納されたOS(Operation System)、Web翻訳プログラムを読み出して実行することにより、Web翻訳処理を行う各ユニットの各機能を実現することができる。
【0082】
さらに、Web翻訳システム400は、図示しない通信装置を備えてもよく、キーボードやマウス等の入力装置(不図示)やディスプレイやプリンタ等の出力装置(不図示)と接続されるコンピュータにより実現することができる。なお、Web翻訳システム400は1台のコンピュータシステムである必要はなく、複数台のコンピュータシステムで構成されていてもよい。
【0083】
すなわち、Web翻訳システム400の各構成要素は、上述した任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。また、以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
【0084】
詳細には、入力部410は、入力となる第一の言語のテキストを受け付け、送信部420と対応照合部102にそれぞれ入力する。たとえば、テキスト入力デバイスとしてのキーボードでもよい。入力部410は、上記実施例の入力部210と同様な構成としてもよい。
【0085】
送信部420は、入力されたテキストをネットワーク3上に存在する複数のWeb翻訳システム(不図示)にクエリとして送信する。ここで、ネットワーク3はインターネットでもよいし、企業内ネットワークなどのローカルなネットワークでもよい。
【0086】
受信部430は、前記複数のWeb翻訳システム(不図示)の結果として得られる複数の翻訳結果を、ネットワーク3を介して受信する。
本実施例の翻訳装置は、図7の翻訳装置300に対応するものである。そのため、以下では、図7との違いを中心に説明し、図7と対応し同様の機能を有する構成については、説明を省略する。対応照合部102は、入力部410からの原文と、受信部430からの複数の翻訳結果とを受け付ける。
【0087】
出力部450は、結果統合部106から得られる翻訳結果テキストを出力する。たとえば、テキストを画面表示するディスプレイでもよいし、翻訳結果を音声出力するための音声合成装置を組み込んだスピーカでもよい。
【0088】
このように構成された本実施例の動作について、以下に説明する。
図10は、本発明の実施例2に係るWeb翻訳システム400における翻訳処理の手順を示すフローチャートである。以下、図9および図10を用いて説明する。
まず、Web翻訳システム400(図9)は、第一の言語のテキストを入力する(ステップS401)。具体的には、Web翻訳システム400は、入力部410(図9)によって入力となる第一の言語のテキストを受け付け、送信部420(図9)および翻訳装置300の対応照合部102(図9)にそれぞれ入力する。
【0089】
次に、Web翻訳システム400は、入力されたテキストを送信する(ステップS403)。具体的には、Web翻訳システム400は、送信部420によって入力されたテキストをネットワーク3(図9)上に存在する複数のWeb翻訳システムにクエリとして送信する。
【0090】
次に、Web翻訳システム400は、翻訳結果を受信する(ステップS405)。具体的には、Web翻訳システム400は、受信部430(図9)によって前記複数のWeb翻訳システムの結果として得られる複数の翻訳結果をネットワーク3を介して受信する。
【0091】
次に、Web翻訳システム400は、複数の翻訳結果を照合する(ステップS407)。具体的には、Web翻訳システム400は、翻訳装置300の対応照合部102にて複数の翻訳結果の単語または単語列に対し、当該単語または単語列を訳語とする入力テキスト中の単語または単語列を選択し、入力テキスト中の単語または単語列が同一である翻訳結果の単語または単語列同士を対応関係にあるとする。
【0092】
次に、Web翻訳システム400は、照合により対応関係にあるとされた単語または単語列同士を比較する(ステップS409)。具体的には、Web翻訳システム400は、翻訳装置300の比較部304(図9)にて前記対応関係にあるとされた単語または単語列同士の多数決をとって最も多く出現する単語を選択する。その際、順位辞書記憶部308(図9)に記憶される順位辞書を用い、順位辞書にて定められた優先順位が低い順に大きい重みをかける。これにより、単純な多数決ではなく、順位辞書にて定められた優先順位が低い順に大きい重みを付け、その結果を用いて単語を選択することができる。
【0093】
次に、Web翻訳システム400は、結果を統合する(ステップS411)。具体的には、Web翻訳システム400は、翻訳装置300の結果統合部106(図9)にて多数決の結果選択された単語または単語列を、たとえば、基準となる一つの翻訳結果の語順に基づいて並べる。
【0094】
次に、Web翻訳システム400は、結果を出力する(ステップS413)。具体的には、Web翻訳システム400は、統合の結果得られた一つの翻訳結果を、出力部450(図9)にて、たとえば、ディスプレイに表示する。
【0095】
以上説明したように、本発明の実施例2によれば、ネットワーク上に存在する複数の翻訳システムを利用することで、複数の翻訳エンジンを用意することなく、複数の翻訳結果を得ることができる。また、順位辞書を用いることで、元々優先順位の低い単語がわざわざ翻訳結果として使われている場合には、その分優先して採用することにより、翻訳結果の精度がより高まる。
【0096】
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0097】
3 ネットワーク
10 テキスト入力部
20 出力部
100 翻訳装置
102 対応照合部
104 比較部
106 結果統合部
200 翻訳システム
210 入力部
220a 翻訳部
220b 翻訳部
220c 翻訳部
230 出力部
252 入力言語
254 出力言語
262 入力テキスト
264a 翻訳結果
264b 翻訳結果
264c 翻訳結果
266 多数決の結果
300 翻訳装置
304 比較部
308 順位辞書記憶部
400 Web翻訳システム
410 入力部
420 送信部
430 受信部
450 出力部
500 翻訳装置
508 結果選択部

【特許請求の範囲】
【請求項1】
複数の翻訳結果に含まれる単語または単語列の対応関係を、当該単語または単語列を訳語とする原文中の単語または単語列とから決定する対応照合手段と、
決定された前記対応関係にある複数の前記単語または前記単語列を比較する比較手段と、
比較した結果を統合する結果統合手段と、を備える翻訳装置。
【請求項2】
請求項1に記載の翻訳装置において、
前記対応照合手段は、前記翻訳結果に含まれる前記単語または前記単語列に対し、当該単語または単語列を訳語とする前記原文中の前記単語または前記単語列を選択し、前記原文中の前記単語または前記単語列が同一である翻訳結果の前記単語または前記単語列同士を対応関係にあるとする翻訳装置。
【請求項3】
請求項1または2に記載の翻訳装置において、
前記比較手段は、前記対応関係にある前記単語または前記単語列同士の多数決をとることで、最も多く出現する単語または単語列を選択する翻訳装置。
【請求項4】
請求項1乃至3いずれかに記載の翻訳装置において、
前記結果統合手段は、基準となる一つの翻訳結果の語順に基づき、前記比較手段にて選択された前記単語または前記単語列を並べる翻訳装置。
【請求項5】
請求項1乃至4いずれかに記載の翻訳装置において、
複数の前記翻訳結果と前記結果統合手段の統合結果とを受け付け、複数の前記翻訳結果のうち前記統合結果に最も距離の近い翻訳結果を選択する結果選択手段をさらに備える翻訳装置。
【請求項6】
請求項1乃至5いずれかに記載の翻訳装置において、
各単語に優先順位が定められた辞書をさらに備え、
前記比較手段において複数の前記単語または前記単語列を比較する際に、当該辞書の前記優先順位が低い順に大きい重みをかける翻訳装置。
【請求項7】
複数の翻訳装置による複数の翻訳結果と、その原文を受け付ける受付手段と、
受け付けた複数の前記翻訳結果に含まれる単語または単語列の対応関係を、当該単語または単語列を訳語とする前記原文中の単語または単語列とから決定する対応照合手段と、
決定された前記対応関係にある複数の前記単語または前記単語列を比較する比較手段と、
比較した結果を統合する結果統合手段と、
統合された結果を出力する手段と、を備える翻訳システム。
【請求項8】
大量のテキストコーパスと、請求項1乃至6いずれかに記載の翻訳装置で翻訳された、前記テキストコーパスの翻訳結果を入力する入力手段と、
入力された前記テキストコーパスおよび前記翻訳結果からパラレルコーパスを生成する生成手段と、を備えるコーパス生成装置。
【請求項9】
複数の翻訳結果に含まれる単語または単語列の対応関係を、当該単語または単語列を訳語とする原文中の単語または単語列とから決定し、
決定された前記対応関係にある複数の前記単語または前記単語列を比較し、
比較した結果を統合する翻訳方法。
【請求項10】
翻訳装置を実現させるためのコンピュータに、
複数の翻訳結果に含まれる単語または単語列の対応関係を、当該単語または単語列を訳語とする原文中の単語または単語列とから決定する手順、
決定された前記対応関係にある複数の前記単語または前記単語列を比較する手順、
比較した結果を統合する結果統合手順、を実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2012−118883(P2012−118883A)
【公開日】平成24年6月21日(2012.6.21)
【国際特許分類】
【出願番号】特願2010−269645(P2010−269645)
【出願日】平成22年12月2日(2010.12.2)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】