説明

翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム

【課題】母国語又は習熟した言語以外の言語で記述された文書データをテキスト・マイニングしたり、検索したいという要望に応える手段を提供する。
【解決手段】翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システムは、第1言語のコーパスから、上記第1言語の用語に共起する共起用語を抽出する第1の抽出部と、上記抽出された共起用語の少なくとも1に対応する第2言語の訳語を出力する出力部と、上記第1言語のコーパスに対応する第2言語のコーパスから、上記出力された第2言語の訳語の少なくとも1に共起する訳語候補を抽出する第2の抽出部と、上記抽出された訳語候補それぞれに重み付けをする重付部と、上記重みを最適化し、該最適化された重みに従い上記第1言語の用語についての翻訳対のリストを生成する生成部とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラムに関する。
【背景技術】
【0002】
母国語又は習熟した言語以外の言語で記述された文書データをテキスト・マイニングしたり、検索したいという要望がある。しかし、技術用語(特に、分野特有の技術用語)又は複合名詞(以下、技術用語等)の訳語は一般的な辞書又は机上版の辞書に記載されていない可能性があるので、その対応する訳語の翻訳は困難性を伴う。しかしながら、ユーザが他言語テキスト・マイニングについて興味がある場合、技術用語等は特定の知識を要約するものであるので、それら技術用語等の訳語を見つけることは重要である。例えば、英語を母国語とする人々が、車についての顧客苦情、例えば、“accelerator pedal”についての一般的な又は特定の車種についての苦情を日本語で記載されたコーパスから見つけたいと思う場合に、英語“accelerator pedal”の適切な日本語訳を見つけなければならないという問題がある。すなわち、英語を母国語とする人々は、英語“accelerator pedal”について、日本語で記載されたコーパスにおいて使用されている日本語訳を知る必要がある。
【0003】
下記特許文献1は、第1言語から第2言語へと自然言語の訳語を生成する方法を記載する。該方法は、第1および第2言語からなる、対訳形式になっていない、類似内容を含むコーパスから複数の用語を抽出するステップと、第1および第2言語の単言語索引にアクセスすることによって抽出した各語にカテゴリを割り当てるステップと、カテゴリからカテゴリへの翻訳確率を使用して用語から用語への翻訳確率を推定するステップとを含む。
下記非特許文献2は、未知の英語コーパス及びドイツ語コーパスから単語翻訳を自動特定する方法を記載する。該方法は、未知のドイツ語単語の英語訳を決定するために、ドイツ語単語の関連付けベクターが計算され、そして英語の関連付けマトリックスにおける全ての関連付けベクターと比較されることを含む。
【0004】
【特許文献1】米国特許第6885985号明細書
【非特許文献1】Reinhard Rapp, Automatic Identification of World Translations from Unrelated English and German Corpora, Proceedings of the 37th conference on Association for Computational Linguistics, pages 519 - 526, 1999
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明の目的は、母国語又は習熟した言語以外の言語で記述された文書データをテキスト・マイニングしたり、検索したいという要望に応える手段を提供することである。特に、本発明の目的は、技術用語等の訳語として可能性のある訳語候補のリストを抽出するとともに、該リストの質を高めることである。
【課題を解決するための手段】
【0006】
本発明は、翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システムを提供する。該コンピュータ・システムは、
第1言語のコーパスから、上記第1言語の用語に共起する1以上の共起用語を抽出する第1の抽出部と、
上記抽出された共起用語の少なくとも1に対応する1以上の第2言語の訳語を出力する出力部と、
上記第1言語のコーパスに対応する第2言語のコーパスから、上記出力された第2言語の訳語の少なくとも1に共起する1以上の訳語候補を抽出する第2の抽出部と、
上記抽出された訳語候補それぞれに重み付けをする重付部と、
上記重みを最適化し、該最適化された重みに従い上記第1言語の用語についての翻訳対のリストを生成する生成部と
を含む。
【0007】
本発明の1つの実施形態として、上記第1の抽出部が、上記第1言語の用語と上記第1言語のコーパスにおいて所定の閾値以上の第1の相関の強さを有する共起用語を抽出する。
【0008】
本発明の1つの実施形態として、上記第1の相関の強さが下記(1)〜(3)のいずれかを用いて求められうる。
(1)上記第1の相関の強さが、上記第1言語のコーパスにおける全文書の件数を分母とし、該全文書中において上記共起用語を含む文書の件数を分子としたときの第1の割合と、上記第1言語のコーパスにおける全文書中において上記第1言語の用語を含む文書の件数を分母とし、該第1言語の用語を含む文書中において上記共起用語を含む文書の件数を分子としたときの第2の割合との比である。
(2)上記第1の相関の強さが、上記第1言語のコーパスにおいて上記共起用語を含む文書の件数を分母とし、上記第1言語のコーパスにおいて上記第1言語の用語を含む全ての文書中において上記共起用語が出現する回数又は上記第1言語の用語と上記共起用語の両方を含む文書の件数を分子とする分数の値である。
(3)上記第1の相関の強さが、上記第1言語のコーパスにおける上記共起用語の出現確率と、上記第1言語のコーパスにおける上記第1言語の用語の出現確率の積を分母とし、上記第1言語のコーパスにおける上記共起用語と上記第1言語の用語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に上記同時出現確率を掛けた値で表現される。
【0009】
本発明の1つの実施形態として、上記出力部が、第1言語−第2言語の対訳辞書を用いて上記第2言語の訳語を訳語リストとして出力し、該リストに、上記第1言語の共起用語の少なくとも1に対応する第2言語の訳語を訳語リストにさらに追加する。
【0010】
本発明の1つの実施形態として、上記出力部が、第2言語の同義語辞書、第2言語の類義語辞書及び第2言語のシソーラスから選択される少なくとも1以上を用いて上記訳語リストの同義語類義語を訳語リストにさらに追加する。
【0011】
本発明の1つの実施形態として、上記第2の抽出部が、上記第2言語のコーパスにおいて上記第2言語の訳語と所定の閾値以上の第2の相関の強さを有する訳語候補を抽出する。
【0012】
本発明の1つの実施形態として、上記第2の相関の強さが下記(1)〜(3)のいずれかを用いて求められうる。
(1)上記第2の相関の強さが、上記第2言語のコーパスにおける全文書の件数を分母とし、該全文書中において上記訳語候補を含む文書の件数を分子としたときの第1の割合と、上記第2言語のコーパスにおける全文書中において上記第2言語の訳語を含む文書の件数を分母とし、該第2言語の訳語を含む文書中において上記訳語候補を含む文書の件数を分子としたときの第2の割合との比である。
(2)上記第2の相関の強さが、上記第2言語のコーパスにおいて上記訳語候補を含む文書の件数を分母とし、上記第2言語のコーパスにおいて上記第2言語の訳語を含む全ての文書中において上記訳語候補が出現する回数又は上記第2言語の訳語と上記訳語候補の両方を含む文書の件数を分子とする分数の値である。
(3)上記第2の相関の強さが、上記第2言語のコーパスにおける上記訳語候補の出現確率と、上記第2言語のコーパスにおける上記第2言語の訳語の出現確率の積を分母とし、上記第2言語のコーパスにおける上記訳語候補と上記第2言語の訳語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に上記同時出現確率を掛けた値で表現される。
【0013】
本発明の1つの実施形態として、上記重付部が、上記抽出された1以上の訳語候補についてのリストをマージし、該マージされた訳語候補それぞれに重み付けをする。
【0014】
本発明の1つの実施形態として、上記重付部が、上記抽出された訳語候補に加えて、上記第2言語の訳語の少なくとも1について重み付けをする。
【0015】
本発明の1つの実施形態として、上記重み付けが、下記(1)〜(3)のいずれかを用いて行われうる。
(1)上記重み付けが、上記マージされたリストにおいて訳語候補が重複して出現する回数を用いる。
(2)上記重み付けが、上記回数に相対頻度又は該相対頻度を正規化した値を加えた数値であり、該相対頻度が、上記第2言語のコーパスにおける全文書の件数を分母とし、該全文書中において上記訳語候補を含む文書の件数を分子としたときの第1の割合と、上記第2言語のコーパスにおける全文書中において上記第2言語の訳語を含む文書の件数を分母とし、該第2言語の訳語を含む文書中において上記訳語候補を含む文書の件数を分子としたときの第2の割合との比を用いる。
(3)上記重み付けが、上記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語と、上記第2言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する、訳語候補に共起する複数の共起語(以下、訳語候補についての共起語を訳語候補共起語という)との間で、第1言語−第2言語の対訳辞書において対訳関係にある数を用いる。
【0016】
該重み付けの1つとして、下記に述べる評価(1)〜(3)のいずれかが用いられうる。該評価は、上記第2言語の訳語が上記共起用語に対する訳語として適切であるかを評価する評価部によって行われる。
(1)上記第2言語のコーパスにおいて第2言語の訳語が出現する頻度を用いる、又は該頻度を上記出力部において出力された全ての訳語の出現する頻度の和で割って正規化する。
(2)上記第2言語のコーパスにおいて第2言語の訳語が出現する文書数を用いる、又は該文書数を上記出力部において出力された全ての訳語の出現する文書数の和で割って正規化する。
(3)該評価が、上記第1言語のコーパスにおいて上記共起用語と所定の閾値以上の強さの相関を有する、上記共起用語に共起する複数の共起語と、上記第2言語のコーパスにおいて第2言語の訳語と所定の閾値以上の強さの相関を有する複数の訳語共起語、すなわち訳語候補との間で、第1言語−第2言語の対訳辞書において対訳関係にある数を利用する。ここで、本明細書において、共起用語に共起する共起語を共起用語共起語という場合もある。
【0017】
本発明の1つの実施形態として、記重みの最適化が、上記第2言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように行われる。
【0018】
本発明の1つの実施形態として、上記重みの最適化が、下記式(1)又は(2)のいずれかに従い求められたランクに従い行われうる。
(1)ランク=重み付けの値/(1+訳語候補共起語の数×v)
ここで、訳語候補共起語の数は、前記第2言語のコーパスにおいて、前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数であり、vは、該訳語候補共起語の数の影響がどの程度勘定されるかを決定するためのパラメータである。重み付けの値は例えば、前記第2言語の訳語の少なくとも1について抽出された1以上の訳語候補についてのリストをマージし、該マージされたリストにおいて訳語候補が重複して出現する回数である。
(2)ランク=重み付けの値×(1−α×TL/TLmax)
ここで、TLは、ランク付けの対象となる訳語候補と前記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、前記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数であり、TLmaxは、全ての訳語候補のうちで、前記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、前記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数のうち最大の数であり、αは、前記テールの影響がどの程度勘定されるかを決定するためのパラメータである。重み付けの値は例えば、前記第2言語の訳語の少なくとも1について抽出された1以上の訳語候補についてのリストをマージし、該マージされたリストにおいて訳語候補が重複して出現する回数である。
【0019】
本発明の1つの実施形態として、上記出力部が、上記出力された訳語候補のリストをユーザに提示する提示部をさらに含む。
【0020】
本発明の1つの実施形態として、上記翻訳対のリストのうち、ユーザによって選択された訳語候補を上記第1言語の用語の翻訳対として、第1言語−第2言語の対訳辞書に登録する登録部をさらに含む。
【0021】
本発明はまた、翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するための方法を提供する。該方法は、コンピュータ・システムに下記ステップを実行させることを含む。該ステップは、
第1言語のコーパスから、上記第1言語の用語に共起する1以上の共起用語を抽出するステップと、
上記抽出された共起用語の少なくとも1に対応する1以上の第2言語の訳語を出力するステップと、
上記第1言語のコーパスに対応する第2言語のコーパスから、上記出力された第2言語の訳語の少なくとも1に共起する1以上の訳語候補を抽出するステップと、
上記抽出された訳語候補それぞれに重み付けをするステップと、
上記重みを最適化し、該最適化された重みに従い上記第1言語の用語についての翻訳対のリストを生成するステップと
を含む。
【0022】
本発明の1つの実施形態として、第1言語の用語に共起する1以上の共起用語を抽出するステップが、上記第1言語の用語と上記第1言語のコーパスにおいて所定の閾値以上の第1の相関の強さを有する共起用語を抽出するステップをさらに含む。
【0023】
本発明の1つの実施形態として、上記第1の相関の強さが上記した(1)〜(3)のいずれかを用いて求められうる。
【0024】
本発明の1つの実施形態として、第2言語の訳語を出力するステップが、第1言語−第2言語の対訳辞書を用いて上記第2言語の訳語を訳語リストとして出力し、該リスト、上記第1言語の共起用語の少なくとも1に対応する第2言語の訳語を訳語リストにさらに追加するステップを含む。
【0025】
本発明の1つの実施形態として、第2言語の訳語を出力するステップが、第2言語の同義語辞書、第2言語の類義語辞書及び第2言語のシソーラスから選択される少なくとも1以上を用いて上記訳語リストの同義語類義語を訳語リストにさらに追加するステップを含む。
【0026】
本発明の1つの実施形態として、上記方法は、コンピュータ・システムに下記ステップをさらに実行させることを含む。該ステップは、上記第2言語の訳語が上記共起用語に対する訳語として適切であるかを評価する評価するステップを含む。該評価は、上記した(1)〜(3)のいずれかの方法を使用することができる。
【0027】
本発明の1つの実施形態として、訳語候補を抽出するステップが、上記第2言語のコーパスにおいて上記第2言語の訳語と所定の閾値以上の第2の相関の強さを有する訳語候補を抽出するステップを含む。
【0028】
本発明の1つの実施形態として、上記第2の相関の強さが上記した(1)〜(3)のいずれかを用いて求められうる。
【0029】
本発明の1つの実施形態として、上記重み付けをするステップが、上記第2言語の訳語の少なくとも1について抽出された1以上の訳語候補についてのリストをマージし、該マージされた訳語候補それぞれに重み付けをするステップを含む。
【0030】
本発明の1つの実施形態として、上記重み付けをするステップが、上記抽出された訳語候補に加えて、上記第2言語の訳語の少なくとも1について重み付けをするステップをさらに含む。
【0031】
該重み付けは、上記に述べた重み付け(1)〜(3)のいずれかを用いて行われうる。
【0032】
該重み付けの1つとして、上記に述べた評価(1)〜(3)のいずれかが用いられうる。
【0033】
本発明の1つの実施形態として、上記重みを最適化することが、上記第2言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように行われる。
【0034】
本発明の1つの実施形態として、上記重みの最適化が、上記した式(1)又は(2)のいずれかに従い求められたランクに従い行われうる。
【0035】
本発明の1つの実施形態として、上記出力するステップが、上記出力された訳語候補のリストをユーザに提示するステップをさらに含む。
【0036】
本発明の1つの実施形態として、上記方法は、コンピュータ・システムに下記ステップをさらに実行させることを含む。該ステップは、上記ユーザによって選択された訳語候補を上記第1言語の用語の翻訳対として、第1言語−第2言語の対訳辞書に登録するステップをさらに含む。
【0037】
本発明はまた、翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するための方法を提供する。該方法は、コンピュータ・システムに下記ステップを実行させることを含む。該ステップは、
第1言語のコーパス全体から、上記第1言語の用語に共起する1以上の共起用語であって、該第1言語のコーパスにおいて所定の閾値以上の相関の強さを有する該1以上の共起用語を抽出するステップと、
上記抽出された共起用語の少なくとも1に対応する1以上の第2言語の訳語を出力するステップと、
上記第1言語のコーパスに対応する第2言語のコーパス全体から、上記出力された第2言語の訳語の少なくとも1に共起する1以上の訳語候補であって、該第2言語のコーパスにおいて所定の閾値以上の相関の強さを有する該1以上の訳語候補を抽出するステップと、
上記第2言語の訳語の少なくとも1について抽出された1以上の訳語候補についてのリストをマージし、該訳語候補それぞれに重み付けをするステップと、
上記第2言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように上記重みを最適化し、該最適化された重みに従い上記第1言語の用語についての翻訳対のリストを生成するステップと
を含む。
【0038】
本発明はさらに、翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・プログラムを提供する。該コンピュータ・プログラムは、コンピュータ・システムに、上記のいずれか1つに記載の方法の各ステップを実行させることを含む。
【発明の効果】
【0039】
本発明では、2つの異なる言語それぞれについてのコーパス全体の内容を使用することから、より正確な翻訳対が得られうる。本発明は特に、ユーザが技術用語等の辞書に記載されていない翻訳対を生成する上で有用である。本発明はまた、訳語候補のセットが与えられている場合に、曖昧な訳語候補を排除するのに有用である。
【発明を実施するための最良の形態】
【0040】
本発明の基本的な考えは、言語が異なっていても、ある用語は、該用語と同じような概念である用語と共起し易いという性質を利用して、翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力することである。
【0041】
本発明の実施形態において、「第1言語」とは、翻訳のソースとなる言語(以下、ソース言語ともいう)である。「第1言語の用語」はソース言語の翻訳対象である用語でもあり、該用語は、単名詞又は複合名詞、形容詞、副詞、動詞を含むがこれらに限定されない。該用語はまた、技術用語、特に分野特有の技術用語でありうる。「翻訳対象である第1言語の用語」とは、ユーザが翻訳したいと所望する第1言語の用語であり、すなわち翻訳したい用語である。
【0042】
本発明の実施形態において、「第2言語」とは、翻訳のターゲットとなる言語(以下、ターゲット言語ともいう)である。「第2言語の用語」は、ソース言語の翻訳対象である用語に対応するターゲット言語の用語であり、ソース言語の訳語である。
【0043】
本発明の実施形態において、第1の言語及び第2の言語の組み合わせは、英語、日本語、中国語、台湾語、韓国語、スペイン語、ポルトガル語、ロシア語等、あらゆる言語の組み合わせでありうる。
【0044】
本発明の実施形態において、「翻訳対」とは、「第1言語の用語」と、該第1言語の用語の訳語である「第2言語の用語」との対である。本発明の実施形態において、「翻訳対を生成する」とは、翻訳対象である第1言語の用語に対応する第2言語の用語を検索し、該第1言語の用語と該第2言語の用語を対応付けることをいう。
【0045】
本発明の実施形態において、「コーパス」とは、集積された文書データである。コーパスの1つの例は、機械可読言語文書の集合体であり、電子化された自然言語の文章からなる巨大なテキストデータであるがこれに限定されない。コーパスは、本発明の実施形態であるコンピュータ・システム内の記憶装置内若しくは該システムに接続された記憶装置内に格納され、又は該システムとネットワークを介して接続されたサーバ・システム、例えばデータベース・サーバ・システム、プロキシ・サーバ・システム、プロバイダー・サーバ・システムの記憶装置内に格納される。
本発明の実施形態では、翻訳対を作成するために、翻訳対象である用語の言語である第1言語のコーパス、及び第2言語のコーパスを用いる。第2言語のコーパスは、第1の言語に対応するコーパスであり、第1言語のコーパスと同じような内容、すなわち類似内容に関して記述されている。第2言語のコーパスに含まれる文書内容の領域は、第1言語のコーパスに含まれる文書内容の領域と同一であるか又は類似する。例えば、第1言語のコーパスが英語の自動車不具合情報である場合、第2言語のコーパスはまた日本語の自動車不具合情報であり(すなわち、領域が同一である)又は日本語の自動車情報である(すなわち、領域が類似である)。第1言語のコーパスに含まれる各文書は、ほぼ1つのトピックであるようにすることもできる。例えば、各文書は、特定の顧客の苦情を記載した文書でありうる。同様に、第2言語のコーパスに含まれる各文書は、ほぼ1つのトピックであるようにすることもできる。
第1言語のコーパスが英語の自動車不具合情報である場合、該コーパスに含まれる文書データの一例を下記に挙げる。
「Engine oil leaks.」
「Car navigation system does notwork.」
第2言語のコーパスが日本語の自動車不具合情報である場合、該コーパスに含まれる文書データの一例を下記に挙げる。
「走行中、エンジンに異音がする。」
「エンジンオイルの交換をしたにもかかわらず、エンジンチェックランプが点灯する。」
このような不具合情報とともに、文書は、日付、メーカー名、担当者名、顧客名、車種名などの情報を含みうる。
第2言語のコーパスが第1言語の類似内容を含むコーパスである理由は、翻訳対を生成する上で、同等の意味を有する用語は同様の内容を有する異なる言語間の文書において同じような使われ方をする、或いは同じような出現傾向をとる傾向にある、ということに基づく。
第1言語及び第2言語のコーパスそれぞれは、対訳形式になっている必要はない。
【0046】
本発明の実施形態において、「第1言語の用語に共起する1以上の共起用語」とは、第1言語のコーパスにおいて第1言語の用語と相関の強い共起語をいう。共起語は、表現とも呼ばれる。第1言語の用語と相関の強い共起語を、以下第1言語の共起用語という。
同様に、「第2言語の訳語に共起する1以上の訳語候補」とは、第2言語のコーパスにおいて第2言語の訳語と相関の強い共起語をいう。第2言語の訳語と相関の強い共起語を、以下、第2言語の訳語候補ともいう。
同様に、上記共起用語(すなわち、第1言語の共起用語)に共起する共起語とは、第1言語のコーパスにおいて第1言語の共起用語と相関の強い共起語をいう。第1言語の共起用語と相関の強い共起語を、以下、共起用語についての共起語ともいう。
同様に、上記訳語候補(すなわち、第2言語の訳語候補)に共起する訳語候補共起語とは、第2言語のコーパスにおいて第2言語の訳語候補と相関の強い共起語をいう。第2言語の訳語候補と相関の強い共起語を、以下、訳語候補共起語ともいう。
【0047】
本発明の実施形態では、第1言語の共起用語は、第1言語のコーパスに含まれる文書の集合体全体から抽出されうる。
同様に、本発明の実施形態では、第2言語の訳語候補は、第2言語のコーパスに含まれる文書の集合体全体から抽出されうる。
同様に、本発明の実施形態では、共起用語についての共起語は、第1言語のコーパスに含まれる文書の集合体全体から抽出されうる。
同様に、本発明の実施形態では、上記訳語候補共起語は、第2言語のコーパスに含まれる文書の集合体全体から抽出されうる。
【0048】
ここで、第1言語の用語と対訳関係にあるのは第2言語の訳語候補であり、第1言語の共起用語と対訳関係にあるのは第2言語の訳語である。
【0049】
本明細書において、相関の強さを相関値ともいう。よって、「相関の強い」とは、相関値が高いことでもある。
【0050】
本発明の1つの実施態様では、相関の強さは例えば、相対頻度、TF*IDF(Term Frequency-Inverse Document Frequency)、又は相互情報量で示されうるが、これらに限定されない。相関の強い共起用語又は共起用語である訳語候補を上位から抽出することによって、抽出する第1言語の共起用語又は第2言語の訳語候補の数を所定数にすることが可能になる。
【0051】
第1の相関の強さは、第1言語のコーパスにおける全文書の件数(doc(all))を分母とし、該全文書中において第1言語の共起用語を含む文書の件数(doc(v))を分子としたときの第1の割合と、第1言語のコーパスにおける全文書中において翻訳対象である用語を含む文書の件数を分母(doc(w))とし、上記翻訳対象である用語を含む文書中において上記第1の共起用語を含む文書の件数(doc(w)∩doc(v))を分子としたときの第2の割合との比で表される。本明細書では、該比を第1の相対頻度という。
【0052】
第2の相関の強さは、第第2言語のコーパスにおける全文書の件数(doc(all))を分母とし、該全文書中において第2の訳語候補を含む文書の件数(doc(v))を分子としたときの第1の割合と、第2言語のコーパスにおける全文書中において訳語を含む文書の件数を分母(doc(w))とし、上記訳語を含む文書中において上記第2の訳語候補を含む文書の件数(doc(w)∩doc(v))を分子としたときの第2の割合との比で表される。本明細書では、該比を第2の相対頻度という。
【0053】
相対頻度は、下記式で表される。
【0054】
【数1】

【0055】
ここで重要なことは、相関は対称的、すなわち相関(w,v)=相関(v,w)、であることである。対称的であることは相関の強さ(関連性の強さ)の値に直接関係があるわけではないが、この性質は、訳語候補の重みの適正化において、テールが長い語の重みを適正化する際に、重みを下げる点で活きてくる。また、さらに重要なことは、相関の値が1.0より大きい場合、語w及びvが同じ文書内で生じる相関の強さを有することである。該値が高ければ高いほど、この相関の強さはより高い。
上記相関の強さは、語wのテールを求めるために使用されうる。テールとは、キーワードの集合(リスト)である。テールを求めるとは、共起用語又は訳語候補に対して相関が設定された閾値以上の強さの共起用語又は訳語候補を全て求める。
【0056】
TF*IDFは、TF(単語の出現頻度)及びIDF(出現文書数の逆数)の二つの指標で計算され、テキストデータの中から特徴的な単語を抽出するためのアルゴリズムである。
TF*IDFは、第1言語のコーパスにおいて共起用語を含む文書の件数を分母とし、第1言語のコーパスにおいて第1言語の用語を含む全ての文書中において共起用語が出現する回数又は第1言語の用語と共起用語の両方を含む文書の件数を分子とする分数の値である。
【0057】
そのため、IDFは、一種の一般語フィルタとして働く。よって、多くの文書に出現する語、すなわち一般的な語、は重要度が下がり、特定の文書にしか出現しない単語の重要度を上げることが可能である。
【0058】
相互情報量は、確率論および情報理論において、2つの確率変数の相互依存の尺度を表す量である。相互情報量は、第1言語のコーパスにおける共起用語の出現確率と、第1言語のコーパスにおける第1言語の用語の出現確率の積を分母とし、第1言語のコーパスにおける共起用語と第1言語の用語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に同時出現確率を掛けた値で表現される。
形式的には、相互情報量は、2つの離散確率変数x、yについて、x=v、y=wとすれば、
p(x)=doc(v)/doc(all)
p(y)=doc(w)/doc(all)
p(x,y)=doc(w)∩doc(v)
となる。
相対頻度は、p(x,y)/(p(x)*p(y))と等価であるので、相対頻度は相互情報量と本質的に変わらないともいえる。
【0059】
その他に、相関の強さは例えば、IBM TAKMI(Text Analysis and Knowledge Mining)(商標)、IBM Content Analyzer(ICA)(商標)で求められうる。
TAKMIは、テキストデータの中から概念(キーワードとなる文字列とそのカテゴリー)を抽出し、定型情報とともに様々な統計量を計算した上で、その結果を様々な観点からユーザに提示する。統計量は例えば、共起単語の出現頻度、単語の出現頻度、話題の推移である。
【0060】
TAKMIで用いられている相関値は、下記の式で求められうる。
相関値は、2つの文書集合A、Bについて、A=v,B=wとすれば、
#A=doc(v)
#B=doc(w)
#D=doc(all)
#(A∩B)=doc(w)∩doc(v)
となる。ここで、Dは全文書集合であり、#は文書集合中の文書数を表す。左辺及び右辺の値は同じになる。
【0061】
相関の強さを図示した例を図8に示す。
【0062】
所定の共起用語からの相関の強い共起用語の抽出は、相関の強さが設定された閾値以上であることによって行われうる。閾値は、任意に設定しうる。例えば、閾値は、データ量と実行速度のパフォーマンスを考慮しつつ、実験結果に応じて(経験的に)決められうる。データ量が多ければ閾値を上げることで、抽出される共起用語及び訳語候補のパフォーマンスが精度的にも実行速度的にも向上する。一方、データ量が少ないと一般的には、抽出される共起用語又は訳語候補を増やすために閾値を下げざるを得なくなる。
【0063】
本発明の1つの実施態様では、第2言語の訳語が第1言語の共起用語に対する訳語として適切であるかを評価する。該評価は、下記のいずれかの方法に従い行われる。
(1)第2言語のコーパスにおいて第2言語の該訳語が出現する頻度を用いる、又は該頻度を前記出力部において出力された全ての訳語の出現する頻度の和で割って正規化する。正規化は、訳語がN語あったとして、該当訳語の頻度を(訳語1の頻度+訳語2の頻度+訳語3の頻度+...+訳語Nの頻度)で割ることによって求められる。
(2)第2言語のコーパスにおいて第2言語の該訳語が出現する文書数を用いる、又は該文書数を前記出力部において出力された全ての訳語の出現する文書数の和で割って正規化する。
(3)第1言語のコーパスにおいて第1言語の共起用語と所定の閾値以上の強さの相関を有する、共起用語についての複数の共起語と、第2言語のコーパスにおいて第2言語の訳語と所定の閾値以上の強さの相関を有する複数の訳語候補との間で、第1言語−第2言語の対訳辞書において対訳関係にある数を利用する。
上記(1)及び(2)についての評価は、訳語候補が第2言語のコーパスに実際に存在するかを調べることによって適切性を評価するものである。例えば、「lever」の訳語候補「てこ」及び「レバー」のうち、対象分野の日本語コーパスではどちらがより多く出現するかで、対象分野における訳語の適切性が判断される。
【0064】
上記評価によって、所定の閾値以上を有する第2言語の訳語が、第1言語の共起用語に対する訳語として出力される。
【0065】
以下に、第2言語のコーパスにおいて第2言語の該訳語が出現する頻度を他の訳語全ての出現する頻度の和で割って正規化する例を示す。
「mirror」の全訳語候補が、[反動,鏡,反射,映像,映り,範囲,影響,響く,機会,ミラー,反響する,反射する,映す]であるとする。
次に、自動車の不具合に関する文書データベース(コーパス)における各訳語候補の出現文書数が、以下の通りであるとする。
「反動」を含む文書の件数 = 4件
「鏡」を含む文書の件数 = 33件
「反射」を含む文書の件数 = 10件
「映像」を含む文書の件数 = 2件
「映り」を含む文書の件数 = 3件
「範囲」を含む文書の件数 = 17件
「影響」を含む文書の件数 = 25件
「響く」を含む文書の件数 = 7件
「機会」を含む文書の件数 = 1件
「ミラー」を含む文書の件数 = 18件
「反響する」を含む文書の件数= 1件
「反射する」を含む文書の件数= 2件
「映す」を含む文書の件数 = 2件
ここで、閾値が出現文書数であり、閾値が15の場合に出力される訳語は、「鏡」、「範囲」、「影響」及び「ミラー」である。
各文書件数を文書件数の総数(125件)で正規化して、値の大きい順に並べた場合、以下の通りであるとする。
鏡 0.264
影響 0.2
ミラー 0.144
範囲 0.136
反射 0.08
響く 0.056
反動 0.032
映り 0.024
映像 0.016
反射する 0.016
映す 0.016
機会 0.008
反響する 0.008
ここで、閾値が0.1の場合に出力される訳語は、「鏡」、「影響」、「ミラー」及び「範囲」である。
【0066】
本発明の1つの実施態様では、上記重みの最適化が、上記第2言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように行われる。該重みの最適化は例えば、下記の式に従い求められたランクに従い行われうる。
(1)ランク=回数/(1+訳語候補共起語の数×v)
ここで、回数は、上記第2言語の訳語の少なくとも1について抽出された1以上の訳語候補についてのリストをマージし、該マージされたリストにおいて訳語候補が重複して出現する回数であり、訳語候補共起語の数は、上記第2言語のコーパスにおいて、上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数であり、vは、該訳語候補共起語の数の影響がどの程度勘定されるかを決定するためのパラメータである。
(2)ランク=重み付けの値×(1−α×TL/TLmax)
ここで、TLは、ランク付けの対象となる訳語候補と上記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、上記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数であり、TLmaxは、全ての訳語候補のうちで、上記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、上記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数のうち最大の数であり、αは、上記テールの影響がどの程度勘定されるかを決定するためのパラメータである。
【0067】
以下、図面に従って、本発明の実施形態を説明する。本実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。また、以下の図を通して、特に断らない限り、同一符号は、同一の対象を指す。
【0068】
図1Aは、本発明の実施態様である、翻訳対を生成するための概要を示す。
翻訳対の生成の例は、ステップ101〜ステップ105の順に行われる。該例では、第1言語が英語であり、第2言語が日本語である。翻訳対を生成する方法は、要約すれば以下の通りである。
・ステップ101では、コンピュータ・システムは、ソース言語の用語に共起する1以上の共起用語を抽出する。
・ステップ102では、コンピュータ・システムは、該抽出された共起用語の少なくとも1に対応するターゲット言語の訳語を出力する。
・ステップ103では、コンピュータ・システムは、該出力されたターゲット言語の訳語の少なくとも1に共起する1以上の訳語候補を抽出する。
・ステップ104では、コンピュータ・システムは、該抽出された訳語候補夫々に重み付けをする。
・ステップ105では、コンピュータ・システムは、該重みを最適化し、ランキングの高い訳語候補をソース言語の用語の翻訳対として出力する。
【0069】
図1Bは、本発明の実施態様である、翻訳対を生成するステップをさらに詳細に示したフロー図を示す。
ステップ111では、ソース言語の用語を入力する。ソース言語の用語の入力は、例えばディスプレイ上に表示された所定のウィンドウ内の所定の欄に入力することによって行われる。入力されたソース言語の用語は、メモリ又は記憶装置内に格納される。
ステップ112では、コンピュータ・システムは、該入力されたソース用語の用語に共起する1以上の共起用語を抽出する。該共起用語の抽出において、場合によっては、共起用語が何も得られない場合がある。この理由は、コーパスを使用していること、及び相関の高さを用いて共起用語を抽出しているからである。例えば、第1言語の用語が第1言語のコーパスの全文書に出ている場合、又は閾値の設定次第では、閾値を超える共起用語が存在しない場合があるからである。共起用語が1つも得られない場合は、この時点で翻訳対を出力する処理が終了する。一方、共起用語が1つでも得られた場合は、翻訳対を出力する処理が進められる。
ステップ113では、コンピュータ・システムは、該抽出された共起用語の少なくとも1に対応するターゲット言語の訳語を出力する。該訳語の出力において、場合によっては、抽出された共起用語の全てにおいて、第2言語の訳語が見つかるとは限らない。この理由は、訳語が見つかるかどうかは第1言語−第2言語の対訳辞書などの辞書に依存するからである。1又は複数の共起用語から第2言語の訳語が1つも得られない場合は、この時点で翻訳対を出力する処理が終了する。一方、第2言語の訳語が1つでも得られた場合は、翻訳対を出力する処理が進められる。
ステップ114では、コンピュータ・システムは、該出力されたターゲット言語の訳語の少なくとも1に共起する1以上の訳語候補を抽出する。該訳語候補の抽出において、場合によっては、訳語候補が何も得られない場合がある。この理由は、コーパスを使用していること、及び相関の高さを用いて訳語候補を抽出しているからである。例えば、第2言語の訳語が第2言語のコーパスの全文書に出ている場合、又は閾値の設定次第では、閾値を超える訳語候補が存在しない場合があるからである。訳語候補が1つも得られない場合は、この時点で翻訳対を出力する処理が終了する。一方、訳語候補が1つでも得られた場合は、翻訳対を出力する処理が進められる。
ステップ115では、コンピュータ・システムは、該抽出された訳語候補夫々に重み付けをする。
ステップ116では、コンピュータ・システムは、該重みを最適化する。
ステップ117では、コンピュータ・システムは、ランキングの高い訳語候補をソース言語の用語の翻訳対のリストを生成する。
【0070】
以下、図1Aに従うステップごとに各ステップの内容を説明する。また、以下では、実施態様1として、翻訳したいソース言語(英語)の用語が「steering wheel」である場合、及び実施態様2として、翻訳したいソース言語(英語)の用語が「accelerator pedal」である場合についてそれぞれ説明する。
【0071】
1.ステップ101
(実施態様1)
ユーザは、翻訳したいソース言語(英語)の用語「steering wheel」を、コンピュータ・システムに入力する。
【0072】
本発明の実施態様では、英語のコーパスを用いる。該英語のコーパスは例えば、自動車不具合情報の文書データを含む文書データの集合体である。例えば、米国国土安全保障省には自動車の不具合情報がデータベースに蓄積されている。該蓄積された不具合情報が、上記英語のコーパスの例である。英語のコーパスとして自動車不具合情報を用いる理由は、翻訳対象である用語「steering wheel」が自動車に関する用語であるためである。
コンピュータ・システムは、上記英語のコーパスを利用し、該英語のコーパス全体から、翻訳対象である用語「steering wheel」に共起する共起用語を抽出する。
【0073】
図2Aは、本発明の実施態様である、翻訳対象である用語「steering wheel」に共起する共起用語を示す。
抽出の結果として、翻訳対象である用語「steering wheel」に共起する共起用語として、「shake」、「vibration」、「steering」、・・・(以下略)がリストとして出力されている。
【0074】
図2Aはまた、本発明の実施態様である、翻訳対象である用語「steering wheel」に共起する共起用語それぞれの共起文書数及び相関値を示す。
「steering wheel」に共起する共起用語は、共起文書数(頻度)、又は相関値によってソートされうる。図2Aでは、相関値は相対頻度で表されている。図2Aでは、「steering wheel」に共起する共起用語が、相関の強さ順にソートされ、出力されている。「steering wheel」に共起する全ての共起用語が出力される必要はなく、例えば、所定の閾値以上の相関の強さを有する上記共起用語を出力するようにすることもできる。図2Aでは、相関値が3.5以上である共起用語が出力されており、相関値が3.5未満の共起用語(例えば、「wheel(共起用語)、1362(共起文書数)、3.0(相関値)」、「right、2077、2.7」、「hit、1393、2.7」、「rotor、859、2.5」)は出力されていない。
図2Aのリストが、翻訳対象である用語「steering wheel」のテールである。
以上のようにして、コンピュータ・システムは、英語のコーパスから、翻訳対象である用語に共起する共起用語を抽出することができる。該抽出された共起用語の出力は例えばリスト形式で行われ、該出力データはメモリー又は記憶装置に保存されうる。
本発明の1つの実施態様では、該抽出において所定の閾値以上の相関の強さを有する共起用語を抽出しうる。所定の閾値以上の相関の強さを有する共起用語を抽出することによって、抽出する共起用語の精度を向上することが可能である。
【0075】
以下に、相関の強さについて、具体例を示して説明する。
ソース言語(英語)で翻訳対象である用語「steering wheel」について、共起用語「window」が抽出されたとする。英語のコーパスは、52万件の自動車不具合情報の文書データを含むとする。
(1)全文書52万件の中に、「window」という名詞を含む文書が1万4千件ヒットした。
よって、全文書の2.7%(=1.4/52)に「window」という名詞が含まれている。
(2)全文書52万件中、「steering wheel」という名詞を含む文書が7千件ヒットした。該7千件の中に、「window」という名詞を含む文書が1千件ヒットした。
よって、「steering wheel」を含む文書の14%(=1/7)に「window」という名詞が含まれている。
(3)「steering wheel」と「window」の相関値は、下記のとおりである。
相関値 5.3 (= 14/2.7 = (1/7)/(1.4/52))
(4)相関値が5.3であることから、「window」という名詞は「steering wheel」がある文書に対して標準(全文書)の5.3倍の濃さで出現する。
(5)以上の通りであるから、共起用語「window」は、翻訳対象である用語「steering wheel」と相関が強いといえる。
【0076】
(実施態様2)
ユーザは、翻訳したいソース言語(英語)の用語「accelerator pedal」を、コンピュータ・システムに入力する。
コンピュータ・システムは、英語のコーパスを利用し、該英語のコーパス全体から、翻訳対象である用語「accelerator pedal」に共起する共起用語を抽出する。該英語のコーパスは例えば、自動車不具合情報の文書データを含む文書データの集合体である。
【0077】
図2Bは、本発明の実施態様である、翻訳対象である用語「accelerator pedal」に共起する共起用語を示す。
抽出の結果として、翻訳対象である用語「accelerator pedal」に共起する共起用語として、「foot」、「accelerate」、「break pedal」、「cruise control」、・・・、「idle」(以下略)がリストとして出力されている。リストは例えば、次の通りである:テール(accelerator pedal)={foot,accelerate,break pedal,cruise control,・・・,idle,・・・,}。よって、用語「accelerator pedal」のテールは、{foot,accelerate,break pedal,cruise control,・・・,idle,・・・,}である。
【0078】
図2Bはまた、本発明の実施態様である、翻訳対象である用語「accelerator pedal」に共起する共起用語それぞれの相関値を示す。
図2Bでは、翻訳対象である用語「accelerator pedal」と相関の強い共起用語が、相関の強さ順に出力される。コンピュータ・システムは、相関の強さの閾値が3.5に設定されているので、相関の強さが3.5よりも大きい値を有する共起用語を抽出する。よって、出力されるリストは例えば、次の通りである:テール(accelerator pedal > 3.5)={foot,accelerate,break pedal,cruise control,・・・,idle}。ここで、「> 3.5」は、閾値を3.5にした場合を意味する。
【0079】
相関の強さは、下記に示されるように、用語w、例えば上記「accelerator pedal」のテールを求めるために使用されうる。
テール(w; S) = {用語v ∈ S|相関の強さ(w; v) > t}
ここで、Sは対象とする共起用語のクラスであり、典型的なクラスとしては、例えば、形容詞、副詞、名詞及び動詞といった文法的な分類によるクラスを指定することが考えられる。tは閾値であり、相関が強い関係を対象とすることから、t>1.0となる。
用語wのテールを求めるために、上記式は2つのパラメータについて定義されている。第1のパラメータは、対象とする共起用語のクラスである。もし、特定のクラスを指定しないなら、全ての自立語が対象となり、第一のパラメータの設定は不要となるので、単にテールw)と記述することができる。第2のパラメータはtであり、閾値である。相関が強い関係を対象とする観点から、相関値が1.0よりも高い全ての用語vを含むことを考えてもよい。しかしながら、閾値を1.0に近い値に設定すると、テール(w)に含まれる用語の数が大きくなる。これは、ステップ102の翻訳で処理される、多くの訳語候補をもたらすことになる。それ故に、必要に応じて、テール(w)に含まれる用語の数を減らすために、第2のパラメータtを1.0よりも高い値に設定することが必要である。例えば、第2のパラメータtの閾値は3.5である(図2Bを参照)。テールは、ソース言語又はターゲット言語に依存しないが、使用するコーパスに依存する。すなわち、テールは言語でなく、分野或いは意味に依存する。よって、使用するコーパスの内容によって、第2のパラメータtの閾値を設定する必要がある。
【0080】
2.ステップ102
(実施態様1)
コンピュータ・システムは、ステップ101で抽出された共起用語それぞれについて、対訳辞書を利用して日本語の訳語を出力する。該訳語は例えば、メモリー又は記憶装置、例えばハードディスクに記憶される。コンピュータ・システムは、該訳語の出力において、ソース言語−ターゲット言語対訳電子辞書を使用する。以下、辞書という場合、電子的にデータが格納されている電子辞書を意味する。
共起用語の訳出について2つの状況がありうる:(1)ソース言語の該共起用語の訳が、ソース−ターゲット言語の対訳辞書に収載されている状況、及び(2)ソース言語の該用共起語の訳が知られていない状況。
ソース言語の該共起用語の訳がソース−ターゲット言語の対訳辞書に収載されている場合、コンピュータ・システムは、対訳辞書からソース言語の該共起用語に対応する訳をターゲット言語の訳語として抽出するだけでよい。該抽出されたターゲット言語の該訳語が、ソース言語の上記共起用語の翻訳対である。
一方、ソース言語の該共起用語の訳が知られていない場合、コンピュータ・システムは、正確な翻訳を含みうる訳語の候補集合を得ることが必要である。そこで、訳語の候補がソース−ターゲット言語の対訳辞書内にある場合、該辞書によって提供される種々の訳語の候補の全てが訳語の候補として形成されうる。しかしながら、該形成された訳語の候補集合はあまりにも小さいために、該集合に含まれる訳語の候補の数を以下に述べる方法に従い拡張する。
コンピュータ・システムはまた、該訳語の出力において、対訳辞書に加えて、上記訳語についての同義語、類義語を訳語として出力するために、例えばターゲット言語の同義語辞書、ターゲット言語の類義語辞書及びターゲット言語のシソーラスから選択される少なくとも1の辞書を利用しうる。このように種々の辞書を用いて、辞書が拡張される。
【0081】
本発明の他の実施態様では、既存の対訳辞書Dを使用し、下記の処理を行う。用語wそれぞれについて、ソース言語−ターゲット言語対訳辞書を用いて訳語のセットD(w)を得る。その後、訳語のセットD(w)について、ターゲット言語−ソース言語対訳辞書を用いて各用語v’に翻訳し直す。すなわち、各w’∈ D(w)について、セットD−1(w’)を決定する。該処理によって、用語vそれぞれについての訳語の拡張されたセットが、Uw’∈ D(w)−1(w’)の全ての訳語を加えることによって得られうる。
言い換えれば、コンピュータ・システムはさらに、上記訳語を英語に訳し、該英語の訳を再度日本語に訳して、該日本語の訳を訳語として出力する。例えば、「振動」が日英対訳辞書を利用して英語「quake」に訳され、次に「quake」が英日対訳辞書を利用して日本語「震え」に訳される。さらに、辞書中にある「mirror」の訳に「映す」があるとすると、「映す」の英訳「reflect」及び「project」の対訳である和訳「反射する」及び反響する」又は「投影する」も訳語候補に追加するということである。
【0082】
図3Aは、本発明の実施態様である、共起用語「shake」及び「vibration」それぞれの訳語を示す。
コンピュータ・システムは、「steering wheel」に共起する表現として出力された共起用語「shake」に対し、英日対訳辞書と、同義語辞書、類義語辞書、シソーラスなどの辞書から任意に選択されうる少なくとも1の辞書を用いて、「震動」、「動揺」、「揺れ」及び「地震」などの複数の訳語を出力する。
同様にして、コンピュータ・システムは、「steering wheel」に共起する共起用語として出力された「vibration」、「steering」などの夫々について、複数の訳語を出力する。
【0083】
コンピュータ・システムはまた、上記英日対訳辞書中の訳語に加えて、同義語辞書、類義語辞書、シソーラスなどの辞書から選択される少なくとも1の辞書を任意に用いて、訳語を出力する。コンピュータ・システムは、例えば同義語辞書を使用することによって、上記訳語である「震動」及び「動揺」の同義語、例えば「振動」を訳語としてさらに出力する。
【0084】
上記の様にして、辞書を拡張し、訳語を拡張しうる。なお、このように拡張問題は、辞書がどんどん大きくなり、又は辞書の数が増えるに従って、訳語候補のノイズが増えてしまうことがありうる。ノイズを減少するために、相関の強さを用いて上位の訳語を出力することができる。
【0085】
以上のようにして、コンピュータ・システムは、翻訳対象である用語に共起する共起用語(図2Aに示されている)それぞれについて、該共起用語に対応する日本語の訳語を出力する。
【0086】
(実施態様2)
コンピュータ・システムは、ステップ101で抽出された共起用語「foot」、「accelerate」、「break pedal」、「cruise control」、・・・、「idle」それぞれについて、対訳辞書を利用し、抽出された共起用語に対応する日本語の訳語を出力する。該訳語は例えば、メモリー又は記憶装置、例えばハードディスクに記憶される。
【0087】
図3Bは、本発明の実施態様である、翻訳対象である用語とその共起用語「foot」、「accelerate」及び「idle」、並びに該共起用語それぞれの訳語を示す。
「foot」、「accelerate」及び「idle」の訳語はそれぞれ、「足」、「加速する」及び「アイドル」である。翻訳が不可能な共起用語については、日本語の訳語は入手不可能である。
【0088】
3.ステップ103
(実施態様1)
コンピュータ・システムは、ステップ102で出力された訳語それぞれについて、日本語のコーパスを利用し、該日本語のコーパス全体から、該訳語それぞれに共起する訳語候補を抽出する。
該日本語のコーパスが、自動車不具合情報の文書データを含む文書データの集合体である。例えば、国土交通省には自動車の不具合情報が蓄積されているおり、該蓄積された不具合情報が、上記日本語のコーパスの例である。該日本語のコーパスは、上記した英語のコーパスと分野が自動車不具合情報であり、両コーパスの分野は同一である、よって、該日本語のコーパスは、英語のコーパスの類似内容を含むコーパスである。本発明の1つの実施態様では、該抽出において所定の閾値以上の相関値を有する訳語候補を抽出しうる。所定の閾値以上の相関値を有する訳語候補を抽出することによって、抽出する訳語候補の精度を向上することが可能である。
【0089】
図4Aは、本発明の実施態様である、訳語「振動」に共起する訳語候補を示す。
コンピュータ・システムは、日本語のコーパスを利用して、訳語「振動」と相関の強い共起用語を訳語候補として抽出する。
抽出の結果、訳語「振動」に共起する訳語候補として、「イグニションコイル」、「車体」、「ノッキング」、・・・(以下略)がリストとして出力されている。
【0090】
図4Aはまた、本発明の実施態様である、訳語「振動」に共起する訳語候補それぞれの共起文書数、及びその相関値を示す。
訳語「振動」に共起する訳語候補は、共起文書数、又は相対頻度によってソートされうる。図4Aでは、訳語「振動」に共起する訳語候補が相関の強さ順にソートされ、出力されている。訳語「振動」に共起する全ての訳語候補が出力される必要はなく、例えば、所定の閾値以上の相関の強さを有する訳語候補を出力するようにしてもよい。
以上のようにして、コンピュータ・システムは、日本語のコーパスから、訳語に共起する訳語候補を抽出することができる。該抽出された訳語候補の出力は例えばリスト形式で行われ、該出力データはメモリー又は記憶装置に保存されうる。
本発明の1つの実施態様では、該抽出において所定の閾値以上の相関の強さを有する訳語候補を抽出しうる。所定の閾値以上の相関の強さを有する訳語候補を抽出することによって、抽出する訳語候補の精度を向上することが可能である。
同様にして、コンピュータ・システムは、その他の訳語「動揺」、「揺れ」、「地震」、「振動」及び「震え」などの夫々について、日本語のコーパスから、該訳語に共起する訳語候補を抽出する。
【0091】
図4Aはさらに、訳語「振動」と相関の強さ1.5以上で共起する訳語候補を示す。図4Aでは例えば、訳語「振動」と相対頻度1.0で共起する訳語候補「同様」は、リスト上に示されていない。
【0092】
以下に、相関の強さについて、具体例を示して説明する。
訳語「振動」について、訳語候補「高速道路」が抽出されたとする。日本語のコーパスは、5万件の自動車不具合情報の文書データを含むとする。
(1)全文書5万件の中に、「高速道路」という名詞を含む文書が1千件ヒットした。
よって、全文書の2.0%(=1,000/50,000)に「高速道路」という名詞が含まれている。
(2)全文書50万件中、「振動」という名詞を含む文書が8千件ヒットした。該4千件の中に、「高速道路」という名詞を含む文書が1千件ヒットした。
よって、「振動」を含む文書の12.5%(=1,000/8,000)に「高速道路」という名詞が含まれている。
(3)「振動」と「高速道路」の相関値は、下記のとおりである。
相関値 6.25 (= 12.5/2.0 = (1,000/8,000)/(1,000/50,000))
(4)以上の通り、相対頻度が6.25であることから、「高速道路」という名詞は「振動」がある文書に対して標準(全文書)の6.25倍の濃さで出現することがわかる。よって、訳語候補「高速道路」は、訳語「振動」と相関が強いといえる。
【0093】
該相関の強さは、訳語候補の数によって変動しうる。訳語候補の数が少ない場合、管理者は、相対頻度の閾値を低くして、訳語候補の数を増やす。一方、訳語候補の数が多い場合、管理者は、相対頻度の閾値を高くして、訳語候補の数を減らす。
以上のようにして、コンピュータ・システムは、日本語のコーパスから、訳語に共起する訳語候補を抽出することができる。該抽出された訳語候補の出力は例えばリスト形式で行われ、該出力データはメモリー又は記憶装置に保存されうる。
【0094】
(実施態様2)
コンピュータ・システムは、日本語のコーパスを利用して、訳語「足」、「加速する」及び「アイドル」夫々に共起する訳語候補を抽出する。
図4Bは、本発明の実施態様である、訳語「足」、「加速する」及び「アイドル」夫々に共起する訳語候補を示す。
抽出の結果、訳語「足」に共起する訳語候補として、「走行」、「アクセスペダル」、・・・(以下略)がリストとして抽出されている。
同様に、訳語「加速する」に共起する訳語候補として、「アクセスペダル」、「駐車場」、・・・(以下略)がリストとして抽出されている。
同様に、訳語「アイドル」に共起する訳語候補として、「不安定」、「使用」、・・・(以下略)がリストとして抽出されている。
図4Bでは、訳語「足」に共起する訳語候補「アクセルペダル」と訳語「加速する」に共起する訳語候補「アクセルペダル」が重複している。
【0095】
4.ステップ104
(実施態様1)
コンピュータ・システムは、ステップ103で出力された、訳語それぞれについて抽出された相関の強い訳語候補のリストをマージする。
コンピュータ・システムは、該マージにおいて、訳語候補それぞれに重み付けをする。
【0096】
重み付けを行う例は、下記の通りである。
(1)重み付けが、訳語候補それぞれについて、マージされたリスト中に重複して出現する回数を用いる。
例えば、訳語候補「車」がマージされたリスト中に54回重複して出現する場合、訳語候補「車」の重みは54である。
よって、訳語候補それぞれの重み付けは下記の通りである:車(54) ;ハンドル(54) ;左(42) ;前(40) ;ブレーキ(37);右(34) ;車両(33) ;タイヤ(33) ;状態(33) ;車体(29);アクセル(29) ;駐車場(29) ;ディーラー(27)。
(2)重み付けが、上記(1)で述べた回数に相対頻度を加えた数値を用いる。該相対頻度は、ステップ103(図1A及び図4Aを参照)における相対頻度であり、日本語のコーパスにおける全文書の件数を分母とし、該全文書中において上記訳語候補を含む文書の件数を分子としたときの第1の割合と、日本語のコーパスにおける全文書中において上記訳語を含む文書の件数を分母とし、上記訳語を含む文書中において上記訳語候補を含む文書の件数を分子としたときの第2の割合との比である。
(3)重み付けが、上記(1)で述べた回数に相対頻度を正規化した値を加えた数値を用いる。該相対頻度は、ステップ103(図1A及び図4Aを参照)における相対頻度である。
【0097】
本発明の1つの実施態様では、コンピュータ・システムは、ターゲット言語の訳語候補と共起する訳語候補共起語が翻訳対象である用語に共起する共起用語についての訳語として適切であるかを評価する。
翻訳対象である用語「accelerator pedal」を含む文書は例えば、共起用語「accelerate」のような語を含む傾向にある。この事象を言い換えると「accelerator pedal」は「accelerate」との相関が強いということであり、相関の強さ(" accelerator pedal "," accelerate ")>tである。
共起用語" accelerate "について、1つの日本語訳(以下、("accelerate ")’と示す。これはすなわち「加速する」と等しい。)が知られているとする。翻訳対象である用語" accelerator pedal "についての未知の正確な訳が、(" accelerator pedal ")’によって示されるとする(これは「アクセルペダル」と等しい)。" accelerator pedal "と "accelerate "との相関の強さ(=相関の強さ(" accelerator pedal "," accelerate "))が、("accelerator pedal ")’と (" accelerate ")’の相関の強さ(=相関の強さ((" accelerate ")’, (" accelerator pedal ")’))(=相関の強さ(「加速する」,「アクセルペダル」))と同じ値になるとは限らない。しかしながら、同分野におけるその意味的なつながりの強さから、”「加速する」と「アクセルペダル」の相関の強さ(=相関の強さ(("accelerate ")’,("accelerator pedal ")’))が、閾値t>1.0よりも大きいという予測は妥当であると考えられる。相関の強さ((" accelerate ")’ ,(" accelerator pedal ")’)=相関の強さ(("accelerator pedal ")’,("accelerate ")’)であるので、「加速する」が「アクセルペダル」のテールに含まれるのであれば、「アクセルペダル」が「加速する」のテールに含まれることになる。
従って「アクセルペダル」∈テール(「加速する」である。それ故に、抽出される訳語は、テール("加速する")’中にある訳語候補のセットに対して全ての用語を含む。
言い換えると、

を推定することができれば完全である。しかしながら、この推定は難しい故に、訳語候補のセットが多くのノイズを含むことは避けられない。
ここで、訳語のセットCを考える。共起用語wの訳語の候補がw’であり、該wが用語qのテール中にあるとする。w’と相関の高い共起語のリスト中における各用語が、用語qに対する訳語候補であると考えられる。
従って、訳語候補のセットCは、下記式から得られる。
【0098】
【数2】

【0099】
ここで、D(w)は、wについての全ての翻訳のセットであり、一般的な翻訳辞書Dによって用意される。class(q)は、用語qの分類クラスであり、通常は品詞(動詞、名詞など)である。
この定義は、用語qの正確な訳語候補が、qと同じ分類に属すると仮定する。これは、例えばqが名詞(単名詞又は複合名詞)である場合に、ターゲット言語におけるqの意味が名詞によってまた表されると仮定する(図3Bを参照)。しかしながら、用語qによってはこの仮定が必ずしも成り立つとは限らず、この仮定を落とすことが必要な場合もありうる。その場合、class(q)の代わりに、全ての自立語を仮定する。
【0100】
ソース言語の用語qを与えられ及びターゲット言語において訳語候補のセットCを与えられていると仮定する。該セットCにおける高い重み付けの用語がqについての適切な訳語であるように、該セットCにおける訳語候補についての重み付けを得る幾つかの方法を下記に述べる。訳語候補が、例えば一般辞書Dによって与えられ、用語qについての幾つかの訳語候補が抽出される。しかしながら、それはコーパスの領域において全てが適切であるとは限らない。この状況において、重み付けは、該セットCにおける多くの訳語候補間で曖昧さを取り除く方法を提供する。この場合、該セットCは多くのノイズである訳語候補を含む。該方法はこのノイズを扱うことであり、ノイズである訳語候補の重み付けを低くすることである。基本的な方法は、用語qのテールを訳語候補のセットCの各訳語候補のテールと比較し、上記セットCの各訳語候補の重みを得る。
【0101】
重み付けとして、以下に翻訳確率を求める方法を述べる。
ソース用語qのテールをその訳語候補のそれぞれのテールと比較することを可能にする前に、ソース用語qの全てのテールが翻訳される必要がある。テール(q)における各用語についての訳語のセットを得るために、所定の一般辞書が使用される。しかしながら、次の計算をより正確にするために、テール中の用語についての訳語候補の各セットに渡って適切な確率分布を見つけることが試行される。そのような確率分布は、両者のコーパスの内容を考慮して、次のステップにおけるアルゴリズムをどの訳語候補が正確な翻訳でありそうかについての情報を提供するために使用される。
ソース言語及びターゲット言語における用語は、一般に幾つかの意味を有し、幾つかの異なる文脈において生じうる。例えば、英語における用語「turn」は、文脈「to turn right」において又は「to turn the volume higher」において生じうる。そして、該用語それぞれは、日本語において「曲がる」又は「回す」と訳されうる。しかしながら、例えばコーパスが自動車の顧客苦情についてのものであるために、用語「turn」の文脈が、前者、すなわち「曲がる」に近いことが予想される。結果として、用語「turn」の正確な訳語を見つけるために、辞書によって提案される「turn」の日本語訳のそれぞれについて重みを得るために、用語「turn」について反復的にアルゴリズムが実行されうる。そして、下記で述べる確率分布を得るために、この重みが最終的に使用される。しかしながら、後者についての良好な推定を得るために、日本語のコーパスにおける「曲がる」及び「回す」の出現頻度を計算し、そして正規化によって確率分布を計算しうる。このような適切な確率分布を得るためのアプローチが、下記に従い行われる。
(1)テール(q)における共起用語wと、wについての訳語の候補w‘との対訳関係の適切性を、用語qと訳語候補との重み付けと同様の計算によってもとめる。wについての訳語の候補のセットがD(w)である。そして、D(w)に渡って下記に述べる確率分布Pを求めるために重み付けを利用する。
(2)w’∈D(w)における各用語について、ターゲットコーパスにおける頻度f(w’)が計算される。結果である頻度ベクターは、確率分布Pを得るために正規化される:
【0102】
【数3】

【0103】
以下に、訳語候補cについての一致度の程度の計算方法を示す。用語qと訳語候補cとの間の一致度は、用語qのテール中の幾つの用語が訳語候補cのテール中の用語と対応するかによって評価する。該評価のために、qのテール中の用語wが訳語候補cのテール中に生じる用語に意味において対応する場合、該用語を翻訳する必要がある。所定に辞書に訳語が見つからない場合、該用語は無視されうる。所定の辞書が複数の訳語を提供する場合、訳語候補cのテール中の用語全てに対して該当複数の訳語の全てが比較され評価対象となる。
一致度を定義するために、以下に定義される式の用語重み付け(wordScore)の概念が使用される。
【0104】
【数4】

ここで、1tail(c)は、tail(c)の特徴的な関数である。D(w)は、wについての訳語候補のセットである。訳語候補のこのセットに渡る確率分布は、Pによって示される。
【0105】
直感的な説明として、この重みは、共起用語wの意味が訳語候補cのテール中にどのように生じるかを示す。
【0106】
用語重みの一致度は、以下に定義される式によって定義される。該式では、第1言語の用語qについて、そのテールに属する全ての共起用語wのwordScoreの総和を取り、訳語候補c の第1言語の用語qの訳語としての妥当性を算出する。
【0107】
【数5】

【0108】
尺度Scorematching(c)は、訳語候補の質を考慮し、テール(q)中の多くの用語がテール(c)中に生じる用語に翻訳されうる場合、Scorematching(c)が増加する。
【0109】
(実施態様2)
コンピュータ・システムは、ステップ102で出力された訳語それぞれについて、日本語のコーパスを利用し、該日本語のコーパス全体から、訳語それぞれに共起する訳語候補を抽出する。
【0110】
図4Cは、訳語候補をランク付けするために重み付けをした結果を示す。
重み付けは例えば、ターゲット言語の訳語それぞれに共起する訳語候補をマージしておこなう。該マージにおいて、訳語候補それぞれに重み付けをする方法は、上記に述べた通りである。図4Cのリストは、一致度を使用して、用語「accelerator pedal」についての上位10個の訳語候補を示す。括弧内の左側は、テール中の共起用語のうち、一般的な翻訳辞書の翻訳対で直接的な対応関係にある語の数を示す。括弧内の右側は重みを示す。
【0111】
代替的な訳語候補の重み付けについて、下記に説明する。
該方法では、Scoremachingを計算し、一方訳語候補のセットCを組み立てる。w”によってテール(w’)中の用語を示すとする。第1に、毎回、用語w”が訳語候補のセットCに加えられ、同じ変数aw”内にPが保存され、これは次のステップにおいて、w”についての一致度を蓄積する。これは、毎回幾つかの用語w∈テール(q)がw’内に翻訳され、及びw”がテール(w’)中に含まれ、w”についての下記式の一致度が更新される:
【0112】
【数6】

【0113】
全ての用語w∈テール(q)を考慮した後、訳語候補のセットCが得られうる。用語とそのテール中の用語との間の対称的な関係(すなわち、x∈テール(y)→y∈テール(x))の故に、各ワードについて下記式が保持される:
【0114】
【数7】

【0115】
これは、訳語候補のセットCを構築する場合に、翻訳確率Pを集めることによって、各c∈CについてScoremaching(c)を計算することを意味する。しかしながら、重み付けがさらに調節された場合、訳語候補のセットC中の各用語について、テールを計算することが必要である。ここでテールの各計算は、データベースアクセスを必要とする。しかしながら、我々の実験では、修正は少なく、結果として正確な翻訳は、上位100位にほぼ全ての場合であり、一致度によってランク付けされる。結果として、ユーザが正確な訳語をはやく見つけることを助けるために、それらのテールを計算することによって最初の100個の候補のみをランク付けすることで十分である。なお、我々の実験によると、候補の総数は、しばしば1,000個であった。これは、10%について再計算する必要が実際にある。
【0116】
図4Bを参照し、訳語候補をランク付けするための他の重み付けを説明する。
図4Bの場合を考えると、訳語「足」と共起する訳語候補「アクセルペダル」は、訳語「加速する」と共起する訳語候補「アクセルペダル」と重複している。よって、訳語候補「アクセルペダル」の第2のコーパスにおける出現する回数は少なくとも2である。さらに、訳語「足」の訳語候補「アクセルペダル」の相対頻度と、訳語「加速する」の「アクセスペダル」の相対頻度が、上記出現する回数に加わる。従って、重みは、出現する回数をそのまま重みにするか、又は回数分だけの相対頻度を足し合わせるかの選択となる。
【0117】
図4Dは、本発明の実施態様である、ターゲット言語の訳語候補が翻訳対象である用語に共起する共起用語に対する訳語として適切であるかを評価した例を示す。
図4Dでは、用語「accelerator pedal」のテール(共起用語である)「foot」が、「アクセスペダル」のテール(訳語候補共起語)「足」に対応する。同様に、用語「accelerator pedal」のテール「accelerate」が、「アクセスペダル」のテール「加速する」及び「上昇する」に対応する。同様に、用語「accelerator pedal」のテール「increase」が、「アクセスペダル」のテール「上がる」に対応する。同様に、用語「accelerator pedal」のテール「surge」が、「アクセスペダル」のテール「上がる」に対応する。これによって、対応関係にある語が合計4つもあることが分かり、結果として、l(c)=4となる。l(c)は、訳語候補のセットcのテール中の直接的に到着可能な(言い換えると、辞書中に翻訳対という形で意味的に対応関係が示されている)用語の数である。なお、l(c)の値は、重みの最適化においても用いられうる(下記式8を参照)。
【0118】
図4Eは、本発明の実施態様である、訳語候補「イグニッションコイル」及び訳語候補「ハンドル」それぞれと共起する訳語候補共起語、並びにその頻度及びその相関値を示す。
図4Eの左側は、訳語候補「イグニッションコイル」のテール、すなわち訳語候補と所定の閾値以上の強さの相関を有する共起語を示す。
訳語候補「イグニッションコイル」のテールと、図2Aの翻訳対象である用語「steering wheel」のテールとを比較する。訳語候補「イグニッションコイル」のテールと翻訳対象である用語「steering wheel」のテールとは、直接比較できない。よって、既存の辞書を使用して、意味的に対応しているかを評価する。上記テール間の比較では、「shake」は「振動」と対応し、「vibration」は「振動」と対応している。
図4Eの右側は、訳語候補「ハンドル」のテールを示す。
訳語候補「ハンドル」のテールと、図2Aの翻訳対象である用語「steering wheel」のテールとを比較する。訳語候補「イグニッションコイル」のテールと翻訳対象である用語「steering wheel」のテールとは、直接比較できない。よって、既存の辞書を使用して、意味的に対応しているかを評価する。上記テール間の比較では、「shake」は「振れる」及び「振動する」と対応し、「vibration」は「振れる」及び「振動する」と対応し、「steering」は「ハンドル操作」と対応し、「steer」は「取る」と対応し、「turn」は「曲がる」及び「回す」と対応し、「lock」は「ロックする」と対応し、「left」は「左」と対応し、「right」は「右」と対応している。
上記比較の結果より、複数の訳語候補「イグニッションコイル」及び「ハンドル」のうち、訳語候補「ハンドル」の方が、訳語候補「イグニションコイル」よりも意味的に対応する数が多い。すなわち、訳語候補「ハンドル」の方が、訳語候補「イグニションコイル」よりも重みが大きい。よって、訳語候補として、重みが大きい訳語候補「ハンドル」が、訳語候補として尤もらしいことになる。
【0119】
5.ステップ105
コンピュータ・システムは、ステップ104において訳語候補それぞれについての重みを最適化する。
コンピュータ・システムは、対象言語である日本語のコーパスを利用し、該日本語のコーパスにおける特徴を利用して、上記重み付けを補正する。
上記特徴は例えば、訳語の共起のしやすさの程度を考慮する。
【0120】
重みの最適化の例は、下記の通りである。
(1)1つの例として、重みの最適化が、下記式に従い求められたランクに従い行われる。
ランク=重み付けの値/(1+訳語候補共起語の数×v)
ここで、訳語候補共起語の数は、上記第2言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数である。vは、該訳語候補共起語の数の影響がどの程度勘定されるかを決定するためのパラメータである。
訳語候補共起語は第2言語の約訳語候補のテールである。よって、訳語候補共起語の数は、第2言語のコーパスにおいて訳語候補と所定の閾値以上の強さの相関を有するテールの数でもある。
上記式は、訳語候補共起語の数と該訳語候補共起語の重み(例えば、第2言語の訳語の少なくとも1について抽出された1以上の訳語候補が重複して出現する回数)との間に正相関があることに基づく。
(2)他の例として、重みの最適化が、下記式に従い求められたランクに従い行われる:
ランク=重み付けの値×(1−α×TL/TLmax)
ここで、TLは、ランク付けの対象となる訳語候補と上記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、上記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数である。TLmaxは、全ての訳語候補のうちで、上記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、上記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数のうち最大の数であり、αは、上記テールの影響がどの程度勘定されるかを決定するためのパラメータである。
上記式は、訳語候補共起語の数と該訳語候補共起語の重み(例えば、第2言語の訳語の少なくとも1について抽出された1以上の訳語候補が重複して出現する回数)との間に正相関があることに基づく。
【0121】
(実施態様1)
以下に、重みの最適化の具体的を説明する。
訳語候補それぞれの重みは下記の通りである。
車(54) ;ハンドル(54) ;左(42) ;前(40) ;ブレーキ(37);右(34) ;車両(33) ;タイヤ(33) ;状態(33) ;車体(29);アクセル(29) ;駐車場(29) ;ディーラー(27)
ここで、「車」及び「ディーラー」のような語は、翻訳対象である用語に無関係に、高い順位になる傾向がある。この理由は下記の通りである:(1)これらの語が偶然に取り上げられるからである、(2)幾つかの語は、翻訳対象である用語により相関のある語よりも多くの他の語に相関するからである。
上記例においてvを0.3に設定すると、コンピュータ・システムは、訳語候補それぞれについての最適化された重みを得ることができる。なお、ランク付けは例えば最初の15個について求められ、そのうちの上位5件は、下記の通りである:ハンドル(3.31)、左側(2.97)、左(2.84)、アクセル(2.52)、タイヤ(2.48)、....。
コンピュータ・システムは、翻訳対象である用語「steering wheel」の翻訳対として、上位5件を示すリストを、表示装置上又は印刷機に出力する。
ユーザは該リスト結果から、翻訳対象である用語「steering wheel」の翻訳対が「ハンドル」であることを知る。
【0122】
コンピュータ・システムは、上記ステップ105で得られた翻訳対を、英日辞書に自動的に又はユーザによって手動で追加しうる。代替的に、コンピュータ・システムは、上記翻訳対を英日辞書に追加するかどうかをユーザに表示装置上で選択することを許す。このことによって、英日辞書に収載される翻訳対の拡張を図ることが可能である。
【0123】
(実施態様2)
図5は、本発明の実施態様である、重みを最適化した後の上位10個の訳語候補を示す。
【0124】
テールが長い場合の重みを下げることによる重みの最適化について説明する。
用語が高い一致度を有する場合、該一致度のあるパーセントは、それらの相関の強さ(すなわち、ソース用語qに対する意味上の類似)によるものでなく、それらのテールの大部分がソース言語から直接的に到着可能であるという事実に基づく(図4Dを参照)。テールが長いと、対応関係にある語の数が自ずと増えてしまい、重みが高くなってしまう。
辞書中に直接的な対応関係を示す翻訳対が存在する場合に到着可能であると表現する。例えば、辞書中に”foot”の翻訳が「足」であるという対応関係を示す翻訳対が存在するため、図4Dにおいて、”foot”は「足」に到着可能となっている。訳語候補cのテール中の多くの語が直接的に到着可能であれば、その訳語候補cは、より高い一致度を得るものと見なされる。例えば、日本語コーパスにおける「ディーラー」及び「その後」のような用語が、翻訳対が存在する多くの用語と高い相関関係にあることが観察された。これらの用語は汎用性が高く、翻訳候補となった場合に重みが高くなる傾向が強い。なぜならば、それらのテールの長い部分は、直接的に到着可能であるからである。これらの用語は、ノイズ性の高い翻訳候補として考慮される。なぜならば、それらのテール中の直接的に到着可能な用語のそれらの数は、他の用語のそれよりもはるかに高いからである。到着可能なテールの数が少ないほど、一致度に対するテールの影響はより少なくなる。結果として、到着可能な語を多く含む長いテールの場合に、一致度、すなわち重みを減らす必要がある。そのための一様態を下記式で示す。
【0125】
【数8】

ここで、l(c)は、訳語候補cのテール中の直接的に到着可能な用語の数である。fは、閉区間[0,1](すなわち、0以上1以下の値)において単調に増加する関数である。
【0126】
我々の実験は下記式が、関数fについての良好な選択であることを示唆した。
【0127】
【数9】

ここで、lmaxは、maxc∈Cl(c)、すなわち全ての翻訳候補cのなかで最大となるl(c)の値(すなわち、全ての翻訳候補のうちテールの中に到着可能な語が最も多く、ゆえにノイズ性が最も高いと見なされるl(c)の値(=到着可能な語の数)であり、αは一致度に対するテールの最大影響を特定する任意のパラメータであり、0〜1の間の値を取る。
【0128】
我々の実験では、αとして0.5が良好な選択であることが示唆された。このようにしてノイズ性の高い翻訳候補の重みを大幅に下げるとともに、平均よりも長く、しかし極度に長くない到着可能なテールを有する用語も適度な補正が行われる。なお、最もノイズ性が高い場合が、l(c)=lmaxであり、l(c)/lmaxの値が1になるからである。
図5は、上記式に基づき計算された後の各訳語候補について最適化された重みを示す。図5は、訳語候補(左側は、テール中の共起用語のうち、一般的な翻訳辞書の翻訳対で直接的な対応関係にある語の数、すなわちl(c)の値、右側の値は最適化された重み)を示す。
【0129】
図6Aは、本発明の実施態様である、コンピュータ・システムの例を示す。
本発明の実施態様であるコンピュータ・システム(601)は、ソース言語のコーパス(603)及びターゲット言語のコーパス(604)を記録部(例えば、図6B、618)に格納している。代替的に、該コンピュータ・システム(601)は、ネットワークを介してソース言語のコーパス(603)及びターゲット言語のコーパス(604)をサーバ又はプロキシからダウンロードして記録部に格納し、或いはネットワークを介してサーバ又はプロキシ内に格納されているソース言語のコーパス及びターゲット言語のコーパスをアクセスしうる。
コンピュータ・システム(601)は、翻訳対象であるソース言語の用語(602)をユーザから受け取る。
コンピュータ・システム(601)は、第1の抽出部(605)、出力部(606)、第2の抽出部(607)、重付部(608)、生成部(609)並びに必要に応じて、評価部(610)及び登録部(611)を含む。
第1の抽出部(605)は、第1言語のコーパスから、翻訳対象である第1言語の用語に共起する1以上の共起用語を抽出する。第1の抽出部(605)はまた、第1言語のコーパスにおいて所定の閾値以上の第1の相関の強さを有する共起用語を抽出する。
出力部(606)は、抽出された共起用語の少なくとも1に対応する1以上の第2言語の訳語を出力する。出力部(606)はまた、第1言語−第2言語の対訳辞書を用いて第2言語の訳語を訳語リストとして出力し、該リストに含まれる訳語リストに対応する第1言語の共起用語それぞれに対応する第2言語の訳語を訳語リストにさらに追加する。出力部(606)はさらに、第2言語の同義語辞書、第2言語の類義語辞書及び第2言語のシソーラスから選択される少なくとも1以上を用いて上記訳語リストの同義語類義語を訳語リストにさらに追加する。
第2の抽出部(607)は、第1言語のコーパスに対応する第2言語のコーパスから、第2言語の訳語の少なくとも1に共起する1以上の訳語候補を抽出する。第2の抽出部(607)はまた、第2言語のコーパスにおいて所定の閾値以上の第2の相関の強さを有する訳語候補を抽出する
重付部(608)は、訳語候補それぞれに重み付けをする。また、重付部(608)は、上記抽出された1以上の訳語候補についてのリストをマージし、該マージされた訳語候補それぞれに重み付けをする。さらに、重付部(608)が、上記抽出された訳語候補に加えて、上記第2言語の訳語それぞれについて重み付けをする。
生成部(609)は、重みを最適化し、該最適化された重みに従い第1言語の用語についての翻訳対のリストを生成する。
評価部(610)は、重みの最適化のために、第2言語の訳語候補が共起用語に対する訳語として適切であるかを評価する。
登録部(611)は、出力された翻訳対を第1言語−第2言語の対訳辞書に登録する。
【0130】
図6Bは、本発明の実施例に係るコンピュータ・ハードウェアのブロック図を示す。
本発明の実施例に係るコンピュータ・システム(601)は、CPU(612)とメイン・メモリ(613)と含み、これらはバス(614)に接続されている。CPU(612)は好ましくは、32ビットまたは64ビットのアーキテクチャに基づくものであり、例えば、インテル社のXeon(商標)シリーズ、Core(商標)シリーズ、Pentium(商標)シリーズ、Celeron(商標)シリーズ、AMD社のPhenom(商標)シリーズ、Athlon(商標)シリーズなどを使用することができる。バス(614)には、ディスプレイ・コントローラ(615)を介して、LCDモニタなどのディスプレイ(616)が接続される。ディスプレイ(616)は、そのコンピュータ(601)上で動作中のソフトウェアについての情報を、適当なグラフィック・インターフェースで表示するために使用される。バス(614)にはまた、IDE又はSATAコントローラ(617)を介して、ハードディスク又はシリコン・ディスク(618)と、CD−ROM、DVD又はBlu−rayドライブ(619)が接続されている。CD−ROM、DVD又はBDドライブ(619)は、必要に応じて、CD−ROM、DVD−ROM又はBDからプログラムをハードディスク又はシリコン・ディスク(618)に導入するために使用される。バス(614)には更に、キーボード・マウスコントローラ(620)を介して、或いはUSBコントローラ(図示せず)を介して、キーボード(621)及びマウス(622)が接続されている。
【0131】
通信インタフェース(624)は、例えばイーサネットプロトコルに従うものであり、通信コントローラ(623)を介してバス(614)に接続され、コンピュータ(601)及び通信回線(625)を物理的に接続する役割を担い、コンピュータ(601)のオペレーティング・システムの通信機能のTCP/IP通信プロトコルに対して、ネットワーク・インターフェース層を提供する。通信回線は、有線LAN環境、或いは例えばIEEE802.11a/b/g/nなどの無線LAN接続規格に基づく無線LAN環境であってもよい。
【0132】
図7は、テールの例を示す。
太線で囲まれた部分が、相関値2以上のテールである。図7では、相関値として相対頻度が使用されている。
【0133】
図8は、相関の強さを図示する。
例として、文書集合が
A={「商品」カテゴリのキーワード「パソコン」に該当する文書}、
B={「名詞...要望」カテゴリのキーワード「マニュアル…入手する…たい」に該当する文書}、
とする。
上記式の左辺は、
(パソコンに関する文書に限ったときのマニュアル入手要望の割合)
/(全文書中のマニュアル入手の要望の割合)
に相当する。
例として、マニュアル入手に関する文書が全文書中の5%であり、一方パソコンに関する文書に限ると、マニュアル入手に関する文書がパソコンに関する文書中の20%であるとする。かかる場合、「パソコン」と「マニュアル…入手する…たい」との相関値は、4である(20%/5%=4)。よって、相関値の該値より、「パソコン」と「マニュアル…入手する…たい」との関連が強いといえる。
【0134】
以上、実施形態に基づき本発明を説明してきたが、本実施形態に記載されている内容は、本発明の一例であり、当業者なら、本発明の技術的範囲を逸脱することなく、さまざまな変形例に想到できることが明らかであろう。
【図面の簡単な説明】
【0135】
【図1A】本発明の実施態様である、翻訳対を生成するための概要を示す。
【図1B】本発明の実施態様である、翻訳対を生成するステップをさらに詳細に示したフロー図を示す。
【図2A】本発明の実施態様である、翻訳対象である用語「steering wheel」に共起する共起用語、該共起用語それぞれの共起文書数、及びその相関値を示す。
【図2B】本発明の実施態様である、翻訳対象である用語「accelerator pedal」に共起する共起用語、及びその相関値を示す。
【図3A】本発明の実施態様である、共起用語「shake」及び「vibration」それぞれの訳語を示す。
【図3B】本発明の実施態様である、翻訳対象である用語とその共起用語「foot」、「accelerate」及び「idle」、並びに該共起用語それぞれの訳語を示す。
【図4A】本発明の実施態様である、訳語「振動」に共起する訳語候補、共起文書数、及びその相関値を示す。
【図4B】本発明の実施態様である、訳語「足」、「加速する」及び「アイドル」それぞれに共起する訳語候補を示す。
【図4C】本発明の実施態様である、訳語候補をランク付けするために重み付けをした結果を示す。
【図4D】本発明の実施態様である、ターゲット言語の訳語候補が翻訳対象である用語に共起する共起用語に対する訳語として適切であるかを評価した例を示す。
【図4E】本発明の実施態様である、訳語候補「イグニッションコイル」及び訳語候補「ハンドル」それぞれと共起する訳語候補共起語、並びにその頻度及びその相関値を示す。
【図5】本発明の実施態様である、重みを最適化した後の上位10個の訳語候補を示す。
【図6A】本発明の実施態様である、コンピュータ・システムの例を示す。
【図6B】本発明の実施例に係るコンピュータ・ハードウェアのブロック図を示す。
【図7】テールの例を示す。
【図8】相関の強さを図示する。

【特許請求の範囲】
【請求項1】
翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システムであって、
第1言語のコーパスから、前記第1言語の用語に共起する共起用語を抽出する第1の抽出部と、
前記抽出された共起用語の少なくとも1に対応する第2言語の訳語を出力する出力部と、
前記第1言語のコーパスに対応する第2言語のコーパスから、前記出力された第2言語の訳語の少なくとも1に共起する訳語候補を抽出する第2の抽出部と、
前記抽出された訳語候補それぞれに重み付けをする重付部と、
前記重みを最適化し、該最適化された重みに従い前記第1言語の用語についての翻訳対のリストを生成する生成部と
を含む、前記コンピュータ・システム。
【請求項2】
前記重付部が、前記抽出された訳語候補についてのリストをマージし、該マージされた訳語候補それぞれに重み付けをする、請求項1に記載のコンピュータ・システム。
【請求項3】
前記重み付けが、前記マージされたリストにおいて訳語候補が重複して出現する回数を用いる、請求項2に記載のコンピュータ・システム。
【請求項4】
前記重み付けが、前記回数に相対頻度又は該相対頻度を正規化した値を加えた数値であり、該相対頻度が、前記第2言語のコーパスにおける全文書の件数を分母とし、該全文書中において前記訳語候補を含む文書の件数を分子としたときの第1の割合と、前記第2言語のコーパスにおける全文書中において前記第2言語の訳語を含む文書の件数を分母とし、該第2言語の訳語を含む文書中において前記訳語候補を含む文書の件数を分子としたときの第2の割合との比を用いる、請求項3に記載のコンピュータ・システム。
【請求項5】
前記重み付けが、前記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語と、前記第2言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する、前記訳語候補に共起する複数の共起語(以下、訳語候補共起語)との間で、第1言語−第2言語の対訳辞書において対訳関係にある数を用いる、請求項1に記載のコンピュータ・システム。
【請求項6】
前記重みの最適化が、前記第2言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように行われる、請求項1に記載のコンピュータ・システム。
【請求項7】
前記重みの最適化が、下記式に従い求められたランクに従い行われる:
ランク=重み付けの値/(1+訳語候補共起語の数×v)
ここで、訳語候補共起語の数は、前記第2言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数であり、vは、該訳語候補共起語の数の影響がどの程度勘定されるかを決定するためのパラメータである、
請求項6に記載のコンピュータ・システム。
【請求項8】
前記重みの最適化が、下記式に従い求められたランクに従い行われる:
ランク=重み付けの値×(1−α×TL/TLmax)
ここで、TLは、ランク付けの対象となる訳語候補と前記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、前記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数であり、TLmaxは、全ての訳語候補のうちで、前記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、前記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数のうち最大の数であり、αは、前記テールの影響がどの程度勘定されるかを決定するためのパラメータである、
請求項6に記載のコンピュータ・システム。
【請求項9】
前記第2言語の訳語が前記共起用語に対する訳語として適切であるかを評価する評価部をさらに含み、該評価が、前記第2言語のコーパスにおいて第2言語の訳語が出現する頻度を用いる、又は該頻度を前記出力部において出力された全ての訳語の出現する頻度の和で割って正規化する、請求項1に記載のコンピュータ・システム。
【請求項10】
前記第2言語の訳語が前記共起用語に対する訳語として適切であるかを評価する評価部をさらに含み、該評価が、前記第2言語のコーパスにおいて第2言語の訳語が出現する文書数を用いる、又は該文書数を前記出力部において出力された全ての訳語の出現する文書数の和で割って正規化する、請求項1に記載のコンピュータ・システム。
【請求項11】
前記第2言語の訳語が前記共起用語に対する訳語として適切であるかを評価する評価部をさらに含み、該評価が、前記第1言語のコーパスにおいて前記第1言語の前記共起用語と所定の閾値以上の強さの相関を有する、前記共起用語に共起する複数の共起語と、前記共起用語に対応する前記訳語が前記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補との間で、第1言語−第2言語の対訳辞書において対訳関係にある数を利用する、請求項1に記載のコンピュータ・システム。
【請求項12】
前記第1の抽出部が、前記第1言語の用語と前記第1言語のコーパスにおいて所定の閾値以上の第1の相関の強さを有する共起用語を抽出する、請求項1に記載のコンピュータ・システム。
【請求項13】
前記第1の相関の強さが、前記第1言語のコーパスにおける全文書の件数を分母とし、該全文書中において前記共起用語を含む文書の件数を分子としたときの第1の割合と、前記第1言語のコーパスにおける全文書中において前記第1言語の用語を含む文書の件数を分母とし、該第1言語の用語を含む文書中において前記共起用語を含む文書の件数を分子としたときの第2の割合との比である、請求項12に記載のコンピュータ・システム。
【請求項14】
前記第1の相関の強さが、前記第1言語のコーパスにおいて前記共起用語を含む文書の件数を分母とし、前記第1言語のコーパスにおいて前記第1言語の用語を含む全ての文書中において前記共起用語が出現する回数又は前記第1言語の用語と前記共起用語の両方を含む文書の件数を分子とする分数の値である、請求項12に記載のコンピュータ・システム。
【請求項15】
前記第1の相関の強さが、前記第1言語のコーパスにおける前記共起用語の出現確率と、前記第1言語のコーパスにおける前記第1言語の用語の出現確率の積を分母とし、前記第1言語のコーパスにおける前記共起用語と前記第1言語の用語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に前記同時出現確率を掛けた値で表現される、請求項12に記載のコンピュータ・システム。
【請求項16】
前記出力部が、第1言語−第2言語の対訳辞書を用いて前記第2言語の訳語を訳語リストとして出力し、該リストに、前記第1言語の共起用語の少なくとも1に対応する第2言語の訳語を訳語リストにさらに追加する、請求項1に記載のコンピュータ・システム。
【請求項17】
前記出力部がさらに、第2言語の同義語辞書、第2言語の類義語辞書及び第2言語のシソーラスから選択される少なくとも1以上を用いて前記訳語リストの同義語類義語を訳語リストにさらに追加する、請求項16に記載のコンピュータ・システム。
【請求項18】
前記第2の抽出部が、前記第2言語のコーパスにおいて前記第2言語の訳語と所定の閾値以上の第2の相関の強さを有する訳語候補を抽出する、請求項1に記載のコンピュータ・システム。
【請求項19】
前記第2の相関の強さが、前記第2言語のコーパスにおける全文書の件数を分母とし、該全文書中において前記訳語候補を含む文書の件数を分子としたときの第1の割合と、前記第2言語のコーパスにおける全文書中において前記第2言語の訳語を含む文書の件数を分母とし、該第2言語の訳語を含む文書中において前記訳語候補を含む文書の件数を分子としたときの第2の割合との比である、請求項18に記載のコンピュータ・システム。
【請求項20】
前記第2の相関の強さが、前記第2言語のコーパスにおいて前記訳語候補を含む文書の件数を分母とし、前記第2言語のコーパスにおいて前記第2言語の訳語を含む全ての文書中において前記訳語候補が出現する回数又は前記第2言語の訳語と前記訳語候補の両方を含む文書の件数を分子とする分数の値である、請求項18に記載のコンピュータ・システム。
【請求項21】
前記第2の相関の強さが、前記第2言語のコーパスにおける前記訳語候補の出現確率と、前記第2言語のコーパスにおける前記第2言語の訳語の出現確率の積を分母とし、前記第2言語のコーパスにおける前記訳語候補と前記第2言語の訳語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に前記同時出現確率を掛けた値で表現される、請求項18に記載のコンピュータ・システム。
【請求項22】
翻訳対象である第1言語の用語の翻訳対となる第2言語の用語を出力するための方法であって、
第1言語のコーパスから、前記第1言語の用語に共起する共起用語を抽出するステップと、
前記抽出された共起用語の少なくとも1に対応する第2言語の訳語を出力するステップと、
前記第1言語のコーパスに対応する第2言語のコーパスから、前記出力された第2言語の訳語の少なくとも1に共起する訳語候補を抽出するステップと、
前記抽出された訳語候補それぞれに重み付けをするステップと、
前記重みを最適化し、該最適化された重みに従い前記第1言語の用語についての翻訳対のリストを生成するステップと
を含む、前記方法。
【請求項23】
前記重み最適化することが、前記第2言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように行われ、該訳語候補共起語が訳語候補に共起する共起語である、請求項22に記載の方法。
【請求項24】
翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するための方法であって、コンピュータ・システムに、下記ステップを実行させることを含み、該方法は、
第1言語のコーパス全体から、前記第1言語の用語に共起する共起用語であって、該第1言語のコーパスにおいて所定の閾値以上の相関の強さを有する該共起用語を抽出するステップと、
前記抽出された共起用語の少なくとも1に対応する第2言語の訳語を出力するステップと、
前記第1言語のコーパスに対応する第2言語のコーパス全体から、前記出力された第2言語の訳語の少なくとも1に共起する訳語候補であって、該第2言語のコーパスにおいて所定の閾値以上の相関の強さを有する該訳語候補を抽出するステップと、
前記抽出された訳語候補についてのリストをマージし、該訳語候補それぞれに重み付けをするステップと、
前記第2言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように前記重みを最適化し、該最適化された重みに従い前記第1言語の用語についての翻訳対のリストを生成するステップであって、該訳語候補共起語が訳語候補に共起する共起語である、前記生成するステップと
を含む、前記方法。
【請求項25】
翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・プログラムであって、コンピュータ・システムに、請求項23又は24のいずれかに記載の方法の各ステップを実行させることを含む、前記コンピュータ・プログラム。


【図1A】
image rotate

【図1B】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図4C】
image rotate

【図4D】
image rotate

【図4E】
image rotate

【図5】
image rotate

【図6A】
image rotate

【図6B】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2010−55298(P2010−55298A)
【公開日】平成22年3月11日(2010.3.11)
【国際特許分類】
【出願番号】特願2008−218444(P2008−218444)
【出願日】平成20年8月27日(2008.8.27)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.イーサネット
【出願人】(390009531)インターナショナル・ビジネス・マシーンズ・コーポレーション (4,084)
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MASCHINES CORPORATION
【復代理人】
【識別番号】100085545
【弁理士】
【氏名又は名称】松井 光夫
【復代理人】
【識別番号】100118599
【弁理士】
【氏名又は名称】村上 博司
【Fターム(参考)】