説明

翻訳装置、翻訳プログラムおよび翻訳方法

【課題】各翻訳部品を整合性のとれた自然な文に組み合わせること。
【解決手段】翻訳装置100は、翻訳対象となる文章を、複数の構造部品に分割し、各構造部品のパターンに対応する文法によって機械翻訳することで、複数の翻訳部品を作成する。そして、翻訳装置100は、翻訳部品の主要部を特定し、主要部を変数に置き換えた検索キーおよび主要部をそのままにした検索キーを作成する。翻訳装置100は、主要部を変数に置き換えた検索キーよりも、変数に置き換えていない検索キーのほうが優位になるように、検索キーに重みをつける。翻訳装置100は、各検索キーを利用して、コーパスデータ103dを検索し、ヒット数と検索キーの重みに基づいて、翻訳候補を評価する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、翻訳装置等に関する。
【背景技術】
【0002】
従来の機械翻訳の特徴として、長い文章に対する翻訳品質が低いという問題がある。このため、従来の技術では、文章の特徴的な部分に基づいて、文章を短い単位に区切り、それぞれの短い単位に対して機械翻訳を適用することによって、翻訳品質を向上させる「定型利用翻訳」手法を利用する。
【0003】
文章を区切る手段としては、利用者自身が分割位置を判断して区切る場合と、文章の表層的な特徴に基づいて最適な区切り位置を自動的に判定して区切る場合がある。後者の自動分割による手段では、区切った部品に対して、適切な翻訳規則を適用することによって、翻訳文を作成する。
【0004】
定型利用翻訳では、文章の各部品に対して、その部品に即した専用文法を適用して訳文を作成する。例えば、文章の「主題」を構成する部品に対しては、名詞句専用の文法が適用され、主題らしい訳文が得られる。また、文章の「連帯修飾句」に対しては、連帯修飾句専用の文法が適用され、修飾句らしく翻訳される。従来の翻訳技術は、このような専用文法を利用しているため、部品中の単語の役割を判定しながら翻訳を実行する。そして、従来の翻訳技術は、各部品を翻訳した翻訳部品を組み合わせることで、最終的な訳文を出力する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2009−15398号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述した従来技術では、各翻訳部品を整合性のとれた自然な文に組み合わせることができないという問題があった。
【0007】
「定型利用翻訳」によって各部品を翻訳すると、各翻訳部品の組み合わせが複数あるため、複数の翻訳候補が得られることが多い。例えば、日英翻訳において、「Aに装着されたB」という日本語の文章の部品に対して、”B attaching A”、”B which attaches A”、”B that attaches A”、”B,wherein A is attached”等の翻訳部品が考えられる。このような複数の翻訳部品が、文章の各部品に対して存在すると、翻訳部品の組み合わせから、日本語の文章に対する翻訳候補が複数存在することになる。このため、最終的な訳文では、多数の翻訳候補の中から、読み手にとって最も自然と思われるものを判定して、訳文を完成させることになる。
【0008】
複数の翻訳候補から最適な翻訳候補を選択するには、各翻訳部品の組み合わせについて妥当性を検証する。例えば、各翻訳部品の組み合わせについて、ウェブ検索やコーパス検索から得られた頻度を参照して、妥当性を検証する。しかしながら、ウェブ検索やコーパス検索によって妥当性を検証する場合には、以下のような問題がある。
【0009】
まず、各翻訳部品の組み合わせの表記そのもので検索を行っても、一般的に翻訳文は多くの単語から構成されるため、十分な検索結果頻度が得られない。また、既存の曖昧検索を用いると、翻訳文中の重要単語と非重要単語の区別なく検索が行われるため、各翻訳候補を評価することができない。また、各翻訳部品の組み合わせの数が多いと、膨大な手間がかかる。
【0010】
開示の技術は、上記に鑑みてなされたものであって、各翻訳部品を整合性のとれた自然な文に組み合わせることができる翻訳装置、翻訳プログラムおよび翻訳方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
開示の翻訳装置は、翻訳部と、翻訳候補生成部と、検索キー作成部と、集計部と、計算部と、評価部とを有する。翻訳部は、構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照する。そして、翻訳部は、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成する。翻訳候補生成部は、複数の翻訳部品を組み合わせた翻訳候補を複数生成する。検索キー作成部は、翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成する。集計部は、複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計する。計算部は、主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求める。評価部は、翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力する。
【発明の効果】
【0012】
開示の翻訳装置は、各翻訳部品を整合性のとれた自然な文に組み合わせることができるという効果を奏する。
【図面の簡単な説明】
【0013】
【図1】図1は、本実施例にかかる翻訳装置の構成を示す図である。
【図2】図2は、文章データの一例を示す図である。
【図3】図3は、属性管理テーブルのデータ構造の一例を示す図である。
【図4】図4は、構造変換パターンデータのデータ構造の一例を示す図である。
【図5】図5は、専用文法データのデータ構造の一例を示す図である。
【図6】図6は、キー種別データのデータ構造の一例を示す図である。
【図7】図7は、構造解析結果の一例を示す図である。
【図8】図8は、構造変換部の処理を説明するための図である。
【図9】図9は、構造部品翻訳結果のデータ構造の一例を示す図である。
【図10】図10は、翻訳候補のデータ構造の一例を示す図である。
【図11】図11は、検索キーのデータ構造の一例を示す図である。
【図12】図12は、主要部を特定する方法を示す図である。
【図13】図13は、翻訳候補1Aから生成される検索キーと重みとの関係を示す図である。
【図14】図14は、検索キーの作成結果を示す図である。
【図15】図15は、頻度データのデータ構造の一例を示す図である。
【図16】図16は、検索加点データのデータ構造の一例を示す図である。
【図17】図17は、加点条件テーブルのデータ構造の一例を示す図である。
【図18】図18は、並列加点データのデータ構造の一例を示す図である。
【図19】図19は、各翻訳候補の検索加点と並列加点と評価値との関係を示す図である。
【図20】図20は、出力データの一例を示す図である。
【図21】図21は、翻訳装置の処理手順を示すフローチャートである。
【図22】図22は、並列加点算出処理の処理手順を示すフローチャートである。
【図23】図23は、翻訳プログラムを実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0014】
以下に、本願の開示する翻訳装置、翻訳プログラムおよび翻訳方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例】
【0015】
本実施例にかかる翻訳装置の構成について説明する。図1は、本実施例にかかる翻訳装置の構成を示す図である。図1に示すように、翻訳装置100は、入力部101、出力部102、記憶部103、構造解析部104、構造変換部105、専用文法選択部106、構造部品翻訳部107、翻訳候補生成部108を有する。また、翻訳装置100は、検索キー作成部109、検索部110、検索加点計算部111、並列加点計算部112、評価部113を有する。
【0016】
構造解析部104、構造変換部105、専用文法選択部106、構造部品翻訳部107は、翻訳部の一例である。検索部110は、集計部の一例である。検索加点計算部111は、計算部の一例である。
【0017】
入力部101は、翻訳対象となる文章データを取得する装置である。入力部101は、取得した文章データを、構造解析部104に出力する。例えば、入力部101は、他の装置と接続するインターフェースであり、他の装置から文章データを取得する。または、入力部101は、キーボード等の入力装置に接続され、この入力装置から文章データを取得してもよい。図2は、文章データの一例を示す図である。図2に示すように、この文章データ10は、「高い比誘電率εrを保ち、高い品質係数と共振周波数の積Qfを得ることのできる誘電体材料を提供する。」を含む。
【0018】
出力部102は、評価部113から出力されるデータを表示する装置である。出力部102は、例えば、ディスプレイやモニタなどの表示装置に対応する。
【0019】
記憶部103は、属性管理テーブル103a、構造変換パターンデータ103b、専用文法データ103c、コーパスデータ103d、キー種別データ103e、加点条件テーブル103fを記憶する記憶装置である。記憶部103は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、またはハードディスク、光ディスクなどの記憶装置に対応する。
【0020】
属性管理テーブル103aは、文章の構造パターンと、該構造パターンに対応する属性とを対応づけて記憶するテーブルである。構造パターンは、例えば、「*+連用中止句+読点」、「*+動詞連用形」、「*+動詞終止形」等が含まれる。属性は、主題、目的、可能を含む説明、平叙を含む説明等に対応する。図3は、属性管理テーブルのデータ構造の一例を示す図である。図3に示すように、属性管理テーブルは、構造パターンと、属性とを対応づけて記憶する。例えば、構造パターンAの属性は、「目的」となる。
【0021】
構造変換パターンデータ103bは、対象言語らしい語順になるように並び替える場合に利用されるデータである。並び替えられるものは、属性に対応づけられる構造部品である。図4は、構造変換パターンデータのデータ構造の一例を示す図である。図4に示すように、この構造変換パターンデータ103bは、構造変換前と構造変換後とを対応づけている。例えば、属性の並び順が、平叙を含む説明、可能を含む説明、主題、目的となるパターンは、目的、主題、平叙を含む説明、可能を含む説明の属性の順に変換される旨を示す。
【0022】
専用文法データ103cは、該当文章をどのように翻訳するのかを定義するデータである。図5は、専用文法データのデータ構造の一例を示す図である。図5に示すように、この専用文法データ103cは、属性毎に、専用文法IDおよび処理内容を対応づけている。例えば、属性「目的」は、専用文法ID「G#目的」に対応づけられている。専用文法ID「G#目的」には、処理内容「「To V」を使用して訳す」が対応づけられている。その他の属性も、専用文法IDと、処理内容が対応づけられている。
【0023】
コーパスデータ103dは、各種の技術分野の文章データを含む。このコーパスデータ103dは、入力部101から入力される文章データの技術分野に応じて、特定の技術分野の文章データのみを含んでもよい。例えば、利用者は、入力部101から入力される文章データの技術分野が機械工学系の分野であれば、コーパスデータ103dに機械工学系の分野の文章を含ませておく。
【0024】
キー種別データ103eは、専用文法IDと句タイプ毎に、検索キーの処理内容を定義するデータである。図6は、キー種別データのデータ構造の一例を示す図である。図6に示すように、このキー種別データ103eは、専用文法ID、句タイプ、キー作成対象、キー作成処理内容を対応づけて記憶する。例えば、キー種別データ103eの1段目では、専用文法ID「G#目的」、句タイプ「動詞句」に対して、キー作成対象が「原文」であり、キー作成処理内容が「原文をそのままキーにする」である。
【0025】
加点条件テーブル103fは、並列加点計算部112に利用されるデータである。加点条件テーブル103fの説明は後述する。
【0026】
図1の説明に戻る。構造解析部104は、属性管理テーブル103aを基にして、入力部101から入力された文章データの構造解析を行い、構造解析結果を生成する処理部である。図7は、構造解析結果の一例を示す図である。図7に示すように、構造解析結果では、属性と構造部品とが対応づけられる。構造解析部104は、構造解析結果を構造変換部105に出力する。
【0027】
構造解析部104の処理の一例について説明する。構造解析部104は、文章データの文章を構造部品に分割する。構造解析部104は、句読点、カンマ、ピリオドや、予め指定された正規表現を区切りとして、文章を分割する。例えば、構造解析部104は、文章「高い比誘電率εrを保ち、高い品質係数と共振周波数の積Qfを得ることのできる誘電体材料を提供する」を構造部品に分割する。分割した結果、例えば、各構造部品は「高い比誘電率εrを保ち、」、「高い品質係数と共振周波数の積Qfを得ることのできる」、「誘電体材料を」、「提供する」となる。
【0028】
構造解析部104は、文章を構造部品に分割した後に、構造部品のパターンと、属性管理テーブル103aとを比較して、各構造部品と属性とを対応づけることで、構造解析結果を生成する。例えば、構造部品「高い比誘電比率εrを保ち、」のパターンが、構造パターンCの場合には、この構造部品に対応する属性は「平叙を含む説明」となる。この構造解析部104は、例えば、特開2009−15398号公報に開示された技術を利用して、構造解析を行い、構造解析結果を生成してもよい。
【0029】
構造変換部105は、構造解析部104による構造解析結果と構造変換パターンデータ103bとを比較して、構造解析結果の構造部品を並び替えた構造変換データを生成する処理部である。構造変換部105は、構造変換データを専用文法選択部106、構造部品翻訳部107、翻訳候補生成部108に出力する。
【0030】
図8は、構造変換部の処理を説明するための図である。図8に示すように、構造解析結果11の属性の順序を、構造変換パターンデータ103bに合わせて並べ替えると、構造変換データ12が生成される。構造変換部105は、構造変換パターンデータ103bの順序に即して、構造解析結果11の属性の順序を並べ替え、属性の並べ替えに合わせて、該当する構造部品も並び替える。
【0031】
専用文法選択部106は、属性に対応づけられた構成部品をどのように翻訳するのかを構造部品翻訳部107に出力する処理部である。専用文法選択部106は、構造変換データに含まれる属性と、図5の専用文法データ103cとを比較して、専用文法IDと、翻訳を行う場合の処理内容を判定する。
【0032】
具体的には、専用文法選択部106は、属性が「目的」の構成部品に適用する専用文法IDを「G#目的」と判定し、処理内容を「「To V」を使用して訳す」と判定する。専用文法選択部106は、属性が「主題」の構成部品に適用する専用文法IDを「G#主題」と判定し、処理内容を「名詞句として訳す」と判定する。
【0033】
また、専用文法選択部106は、属性が「平叙を含む説明」の構成部品に適用する専用文法IDを「G#説明1」と判定し、処理内容を「「,Ving」を使用して訳す」と判定する。また、属性が「平叙を含む説明」の構成部品に適用する専用文法IDを「G#説明2」と判定し、処理内容を「「which Vs」を使用して訳す」と判定する。
【0034】
また、専用文法選択部106は、属性が「可能を含む説明」の構成部品に適用する専用文法IDを「G#説明3」と判定し、処理内容を「「that can V」を使用して訳す」と判定する。また、属性が「可能を含む説明」の構成部品に適用する専用文法IDを「G#説明4」と判定し、処理内容を「「capable of Ving」を使用して訳す」と判定する。単一の属性に対して、複数の専用文法IDおよび処理内容が存在する場合には、専用文法選択部106は、各専用文法IDおよび処理内容を、構造部品翻訳部107に出力する。
【0035】
構造部品翻訳部107は、構造変換部105により生成された構造変換データに含まれる構造部品を、専用文法選択部106から通知される処理方法によって翻訳し、構造部品翻訳結果を生成する処理部である。構造部品翻訳部107は、構造部品翻訳結果を、翻訳候補生成部108に出力する。図9は、構造部品翻訳結果のデータ構造の一例を示す図である。図9に示すように、この構造部品翻訳結果は、属性、構造部品、専用文法ID、翻訳部品を対応づけて記憶する。ここで、翻訳部品は、構造部品を専用文法IDに対応する処理方法で翻訳した結果、得られるものである。
【0036】
構造部品翻訳部107は、属性「目的」、構造部品「提供する。」に対して専用文法ID「G#目的」の処理内容を適用することで、翻訳部品「to provide」を得る。また、構造部品翻訳部107は、属性「主題」、構造部品「誘電体材料を」に対して専用文法ID「G#主題」の処理内容を適用し翻訳することで、翻訳部品「a dielectric material」を得る。
【0037】
構造部品翻訳部107は、属性「平叙を含む説明」、構造部品「高い比誘電率εrを保ち、」に対して専用文法ID「G#説明1」の処理内容を適用し翻訳することで、翻訳部品「,keeping a high dielectric constant εr,and」を得る。また、構造部品翻訳部107は、属性「平叙を含む説明」、構造部品「高い比誘電率εrを保ち、」に対して専用文法ID「G#説明2」の処理内容を適用し翻訳する。そうすることで、構造部品翻訳部107は、翻訳部品「that keeps a high dielectric constant εr,and」を得る。
【0038】
構造部品翻訳部107は、属性「可能を含む説明」、構造部品「高い品質係数と共振周波数の積Qfを得ることのできる」に対して専用文法ID「G#説明3」の処理内容を適用し翻訳する。そうすることで、構造部品翻訳部107は、翻訳部品「that can obtain a high product Qf of quality factor and resonant frequency」を得る。
【0039】
構造部品翻訳部107は、属性「可能を含む説明」、構造部品「高い品質係数と共振周波数の積Qfを得ることのできる」に対して専用文法ID「G#説明4」の処理内容を適用し翻訳する。そうすることで、構造部品翻訳部107は、翻訳部品「,capable of obtaining a high product Qf of quality factor and resonant frequency」を得る。
【0040】
翻訳候補生成部108は、構造変換データの属性の並び順にしたがって、各翻訳部品を並べ替えることで翻訳候補を生成する処理部である。単一の属性に対して複数の翻訳部品が存在する場合には、翻訳候補生成部108は、複数の翻訳候補を生成する。例えば、図9に示したように、属性「平叙を含む説明」の翻訳部品が2つ、属性「可能を含む説明」の翻訳部品が2つ存在する場合には、4つの翻訳候補が生成される。翻訳候補生成部108は、翻訳候補のデータを、検索キー作成部109に出力する。
【0041】
図10は、翻訳候補のデータ構造の一例を示す図である。図10に示すように、翻訳候補生成部108は、翻訳候補1A〜1Dを生成する。翻訳候補1Aは、「G#目的」、「G#主題」、「G#説明1」、「G#説明3」の専用文法IDの処理内容で翻訳された翻訳部品を有する。翻訳候補1Bは、「G#目的」、「G#主題」、「G#説明1」、「G#説明4」の専用文法IDの処理内容で翻訳された翻訳部品を有する。
【0042】
翻訳候補1Cは、「G#目的」、「G#主題」、「G#説明2」、「G#説明3」の専用文法IDの処理内容で翻訳された翻訳部品を有する。翻訳候補1Dは、「G#目的」、「G#主題」、「G#説明2」、「G#説明4」の専用文法IDの処理内容で翻訳された翻訳部品を有する。
【0043】
検索キー作成部109は、翻訳候補の各翻訳部品に含まれる主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成する処理部である。検索キー作成部109は、検索キーのデータを検索部110に出力する。なお、主要部は、例えば、動詞句の動詞、名詞句の名詞、修飾句の一部に対応する。
【0044】
検索キー作成部109が作成する検索キーの一例について説明する。図11は、検索キーのデータ構造の一例を示す図である。図11に示す検索キー20a〜20eは、図10に示した翻訳候補1Aから作成されるものである。検索キー作成部109は、翻訳部品の句タイプと専用文法IDとの組と、キー種別データ103eとを比較することで、キーの作成対象と、キーの作成処理内容を判定し、検索キーを作成する。
【0045】
検索キー作成部109は、翻訳候補の原文をそのままの状態にして、検索キー20aを作成する。検索キー作成部109は、検索キー20aの節または句の主要部を「*」に設定することで、検索キー20bを作成する。「*」は、任意個の任意の単語と一致するワイルドカードに対応する。
【0046】
検索キー作成部109は、検索キー20bの名詞を変数「N」に変換することで、検索キー20cを作成する。検索キー作成部109は、検索キー20cの主要部の動詞を変数「V」に変換することで、検索キー20dを作成する。検索キー作成部110は、検索キー20dの全単語を変換することで、検索キー20eを作成する。
【0047】
ここで、検索キー作成部109が、検索キーを作成する場合に利用する、主要部の特定方法の一例について説明する。図12は、主要部を特定する方法を示す図である。例えば、文章データに対して構造解析を行うと(ステップS10)、各単語の文法属性およびこれら単語間の係り受け関係が特定される。これらの属性と係り受けにしたがって、機械翻訳を実行すると(ステップS11)、出力文が生成される(ステップS12)。このため、出力文においても、単語の属性および係り受けがわかった状態となるため、例えば、主動詞を主張部とする場合には、主要部の単語を「V」ingとする検索キーが生成される(ステップS13)。検索キー作成部109は、例えば、構造解析部104、構造部分翻訳部107から、単語の属性、係り受けの情報を取得し、主要部に該当するものを特定する。
【0048】
ところで、検索キー作成部109は、検索キーに重みを付与する。検索キー作成部109は、検索キーと、この検索キーの作成元の翻訳候補とを比較し、単語がワイルドカードや変数に置き換えられていない割合が大きいものほど、重みが大きくなるように、重みを付与する。図11に示した検索キー20a〜20eを例にして、単語がワイルドカードや変数に置き換えられていない割合が大きいものの順に並べると、20a、20b、20c、20d、20eとなる。
【0049】
このため、検索キー作成部109は、検索キー20a〜20eに付与する重みの大小関係を、検索キー20a>検索キー20b>検索キー20c>検索キー20d>検索キー20eとする。図13は、翻訳候補1Aから生成される検索キーと重みとの関係を示す図である。図13に示す例では、検索キーを識別するID、重み、検索キーとの関係を示している。ID「A−1〜A−5」は、それぞれ、検索キー20a〜20eに対応する。
【0050】
検索キー作成部109は、翻訳候補1B〜1Dに対しても、翻訳候補1Aの場合と同様にして検索キーを生成し、各検索キーに重みを付与する。このような処理を実行することで、検索キー作成部109は、図14に示す検索キーを得る。図14は、検索キーの作成結果を示す図である。検索キー作成部109は、検索キーの作成結果を、検索部110に出力する。
【0051】
検索部110は、検索キーによってコーパスデータ103dを検索し、検索キー毎に検索キーの頻度を判定する処理部である。例えば、検索部110は、検索キーによってコーパスデータ103dを検索した場合の、検索キーのヒット数を頻度とする。検索部110は、検索キーのID、重み、頻度をそれぞれ対応づけた頻度データを、検索加点計算部111に出力する。図15は、頻度データのデータ構造の一例を示す図である。図15の1段目では、例えばID「A−1」の検索キーの重みが「50」であり、頻度が「0」である旨を示している。
【0052】
検索加点計算部111は、頻度データに基づいて、翻訳候補毎の検索加点を計算することで、検索加点データを生成する処理部である。ここで、検索加点は、検索キーの重みと検索キーの頻度とを乗算した値を、同一の翻訳候補に属する検索キー毎に合計した値に対応する。検索加点計算部111は、検索加点データを評価部113に出力する。図16は、検索加点データのデータ構造の一例を示す図である。図16に示すように、検索加点データは、翻訳候補、ID、重み、頻度、重み×頻度、検索加点を対応づけて記憶する。ここで、重み×頻度は、重みと頻度とを乗算した値を示す。
【0053】
例えば、翻訳候補1Aに属する検索キーは、ID「A−1〜A−5」となり、各ID「A−1〜A−5」に対応する「重み×頻度」はそれぞれ、「0、25、75、159、382」となる。このため、翻訳候補1Aの検索加点は「641」となる。
【0054】
並列加点計算部112は、翻訳候補に含まれる各翻訳部品が特定の条件を満たしているか否かによって並列加点を計算する処理部である。この並列加点が高いほど、翻訳部品の組み合わせがより自然であるといえる。並列加点計算部112は、加点条件テーブル103fと各翻訳候補とを比較して、各翻訳候補の並列加点を計算する。並列加点計算部112は、各翻訳候補と並列加点とを対応づけた並列加点データを、評価部113に出力する。
【0055】
並列加点計算部112は、加点条件テーブル103fを利用して、並列加点を計算する。図17は、加点条件テーブルのデータ構造の一例を示す図である。図17に示すように、この加点条件テーブル103fは、加点条件と加点とを対応づけている。例えば、加点条件が「すべての翻訳部品で、主動詞が”ing”形動詞である」の場合には、加点は「40」となる。また、加点条件が「すべての翻訳部品が、関係代名詞”that”で始まっている」の場合には、加点は「40」となる。また、加点条件が「最初の翻訳部品が、関係代名詞”that”で始まっている」の場合には、加点は「40」となる。また、加点条件が「すべての翻訳部品が、関係代名詞”which”」の場合には、加点は「30」となる。加点条件テーブル103fの1段目から4段目までの加点条件に当てはまらない場合には、加点は「10」となる。
【0056】
例えば、並列加点計算部112は、ある翻訳候補と、加点条件テーブル103fとを比較した結果、1段目と2段目の加点条件に翻訳候補が当てはまる場合には、並列加点を「40+40」で「80」とする。
【0057】
図18は、並列加点データのデータ構造の一例を示す図である。図18に示すように、翻訳候補1A〜1Dの並列加点は「10、40、80、10」となる。
【0058】
評価部113は、検索加点データと並列加点データとを基にして、各翻訳候補を評価する処理部である。評価部113は、評価の高い翻訳候補から順に、翻訳候補を並べ替えた出力データを、出力部102に出力する。
【0059】
評価部113は、例えば、翻訳候補毎に、検索加点と並列加点とを加算することで、評価値を算出する。この評価値が高い翻訳候補ほど、評価の高い翻訳候補となる。図19は、各翻訳候補の検索加点と並列加点と評価値との関係を示す図である。図19を参照すると、並列加点のみを評価した場合には、評価の大小関係は、翻訳候補1Cの評価>翻訳候補1Bの評価>翻訳候補1Cの評価=翻訳候補1Aとなる。しかしながら、検索加点を考慮することで、最終的に、評価の大小関係は、翻訳候補1Aの評価>翻訳候補1Cの評価>翻訳候補1Bの評価>翻訳候補1Dの評価となる。
【0060】
このため、評価部113は、翻訳候補1A、1C、1B、1Dの順に、翻訳候補を並べ替え、並べ替えた出力データを、出力部102に出力する。なお、評価部113は、翻訳候補の最初の文字を大文字に変換し、最後の文字の次にピリオドを付与する。図20は、出力データの一例を示す図である。図20に示すように、翻訳候補2A〜2Dが、評価の高い順に並んで表示されている。翻訳候補2Aは、翻訳候補1Aに対応する。翻訳候補2Bは、翻訳候補1Cに対応する。翻訳候補2Cは、翻訳候補1Bに対応する。翻訳候補2Dは、翻訳候補1Dに対応する。
【0061】
次に、本実施例にかかる翻訳装置100の処理手順について説明する。図21は、翻訳装置の処理手順を示すフローチャートである。例えば、図21に示す処理は、翻訳装置100が、文章データを取得したことを契機として実行される。図21に示すように、翻訳装置100は、文章データを構造解析して構造解析結果を取得し(ステップS101)、構造変換パターンを利用して、構造変換を実行する(ステップS102)。
【0062】
翻訳装置100は、各構造部品に対して適用可能な複数の専用文法を取得し(ステップS103)、専用文法を各構造部品に適用する(ステップS104)。翻訳装置100は、翻訳候補を作成し(ステップS105)、翻訳候補を選択し(ステップS106)、検索キーを作成する(ステップS107)。
【0063】
翻訳装置100は、対象分野のコーパスデータを検索して頻度を取得し(ステップS108)、頻度と検索キーの重みに基づいて、検索加点を算出する(ステップS109)。翻訳装置100は、並列加点算出処理を実行し(ステップS110)、検索加点と並列加点とを基にして、翻訳候補の評価値を算出する(ステップS111)。
【0064】
翻訳装置100は、最後の翻訳候補か否かを判定し(ステップS112)、最後の翻訳候補ではない場合に(ステップS112,No)、ステップS106に移行する。一方、翻訳装置100は、最後の翻訳候補の場合には(ステップS112,Yes)、評価値に基づいて、各翻訳候補をソートし(ステップS113)、出力データを出力する(ステップS114)。
【0065】
次に、図21のステップS110に示した並列加点算出処理の処理手順について説明する。図22は、並列加点算出処理の処理手順を示すフローチャートである。図22に示すように、翻訳装置100は、翻訳候補を1つ選択し(ステップS201)、翻訳候補から、並列関係にある翻訳部品列を検出する(ステップS202)。
【0066】
翻訳装置100は、加点条件テーブルから加点条件を選択し(ステップS203)、並列関係にある翻訳部品列が加点条件を満たすか否かを判定する(ステップS204)。翻訳装置100は、加点条件を満たさない場合には(ステップS204,No)、ステップS206に移行する。
【0067】
一方、翻訳装置100は、加点条件を満たす場合には(ステップS204,Yes)、加点条件に対応する点を並列点に追加し(ステップS205)、最後の加点条件であるか否かを判定する(ステップS206)。
【0068】
翻訳装置100は、最後の加点条件でない場合には(ステップS206,No)、ステップS203に移行する。一方、翻訳装置100は、最後の加点条件の場合には(ステップS206,Yes)、最後の翻訳候補であるか否かを判定する(ステップS207)。最後の翻訳候補でない場合には(ステップS207,No)、ステップS201に移行する。一方、最後の翻訳候補の場合には(ステップS207,Yes)、処理を終了する。
【0069】
次に、本実施例にかかる翻訳装置100の効果について説明する。本実施例にかかる翻訳装置100は、翻訳対象となる文章を、複数の構造部品に分割し、各構造部品のパターンに対応する文法によって機械翻訳することで、複数の翻訳部品を作成する。そして、翻訳装置100は、翻訳部品の主要部を特定し、主要部を変数に置き換えた検索キーおよび主要部をそのままにした検索キーを作成する。翻訳装置100は、主要部を変数に置き換えた検索キーよりも、変数に置き換えていない検索キーのほうが優位になるように、検索キーに重みをつける。翻訳装置100は、各検索キーを利用して、コーパスデータ103dを検索し、ヒット数と検索キーの重みに基づいて、翻訳候補を評価する。このため、翻訳装置100によれば、各翻訳部品を整合性のとれた自然な文に組み合わせることができる。
【0070】
また、翻訳装置100は、加点条件テーブル103fを用いて更に、各翻訳候補の並列加点を計算し、並列加点を更に利用して、翻訳候補を評価するので、各翻訳候補を評価する場合の精度が向上する。
【0071】
また、翻訳装置100は、各翻訳候補の評価点に基づいて、各翻訳候補を並び替え、並び替えた各翻訳候補を出力するので、複数の翻訳候補が存在する場合にでも、より自然な翻訳候補から順に、利用者に表示することができる。
【0072】
ここで、図23を用いて、上記の実施例で説明した翻訳装置100による処理と同様の機能を実現する翻訳プログラムを実行するコンピュータの一例を説明する。図23は、翻訳プログラムを実行するコンピュータの一例を示す図である。
【0073】
図23に示すように、翻訳装置100として機能するコンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203を有する。また、コンピュータ200は、記憶媒体からプログラム等を読取る媒体読み取り装置204と、ネットワークを介して他のコンピュータとの間でデータの授受を行うネットワークインターフェース装置205とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM206と、ハードディスク装置207を有する。そして、各装置201〜207は、バス208に接続される。
【0074】
ハードディスク装置207には、上述した翻訳装置100の機能と同様の機能を発揮する翻訳プログラム207a、翻訳候補生成プログラム207b、検索キー作成プログラム207c、集計プログラム207dが記憶されている。また、ハードディスク装置207には、計算プログラム207e、評価プログラム207fが記憶されている。
【0075】
CPU201は、プログラム207a〜207fをハードディスク装置207から読み出してRAM206に展開する。翻訳プログラム207aは、翻訳プロセス206aとして機能する。翻訳候補生成プログラム207bは、翻訳候補生成プロセス206bとして機能する。検索キー作成プログラム207cは、検索キー作成プロセス206cとして機能する。集計プログラム207dは、集計プロセス206dとして機能する。計算プログラム207eは、計算プロセス206eとして機能する。評価プログラム207fは、評価プロセス206fとして機能する。
【0076】
翻訳プロセス206aは、構造解析部104、構造変換部105、専用文法選択部106、構造部品翻訳部107に対応する。翻訳候補生成プロセス206bは、翻訳候補生成部108に対応する。検索キー作成プロセス206cは、検索キー作成部109に対応する。集計プロセス206dは、検索加点集計部111に対応する。評価プロセス206fは、評価部113に対応する。
【0077】
なお、各プログラム207a〜207fについては、必ずしも最初からハードディスク装置207に記憶させておかなくてもよい。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200がこれらから各プログラムを読み出して実行するようにしてもよい。
【0078】
ところで、図1に示した各処理部104〜113は、ASIC(Application Specific Integrated Circuit)や、FPGA(Field Programmable Gate Array)などの集積装置に対応する。また、各処理部104〜113は、例えば、CPUやMPU(Micro Processing Unit)等の電子回路に対応する。
【0079】
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0080】
(付記1)構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照して、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成する翻訳部と、
複数の翻訳部品を組み合わせた翻訳候補を複数生成する翻訳候補生成部と、
前記翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成する検索キー作成部と、
複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計する集計部と、
主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求める計算部と、
前記翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力する評価部と
を有することを特徴とする翻訳装置。
【0081】
(付記2)前記記憶装置は、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に記憶し、前記評価部は、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に利用して、各翻訳候補を評価することを特徴とする付記1に記載の翻訳装置。
【0082】
(付記3)前記評価部は、各翻訳候補の点数に基づいて、各翻訳候補を並び替え、並び替えた各翻訳候補を出力することを特徴とする付記2に記載の翻訳装置。
【0083】
(付記4)コンピュータに、
構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照して、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成し、
複数の翻訳部品を組み合わせた翻訳候補を複数生成し、
前記翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成し、
複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計し、
主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求め、
前記翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力する処理を実行させる翻訳プログラム。
【0084】
(付記5)前記記憶装置は、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に記憶し、前記コンピュータに、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に利用して、各翻訳候補を評価する処理を実行させることを特徴とする付記4に記載の翻訳プログラム。
【0085】
(付記6)前記コンピュータに、各翻訳候補の点数に基づいて、各翻訳候補を並び替え、並び替えた各翻訳候補を出力する処理を実行させることを特徴とする付記5に記載の翻訳プログラム。
【0086】
(付記7)コンピュータが実行する翻訳方法であって、
構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照して、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成し、
複数の翻訳部品を組み合わせた翻訳候補を複数生成し、
前記翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成し、
複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計し、
主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求め、
前記翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力することを特徴とする翻訳方法。
【0087】
(付記8)前記記憶装置は、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に記憶し、前記コンピュータは、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に利用して、各翻訳候補を評価することを特徴とする付記7に記載の翻訳方法。
【0088】
(付記9)前記コンピュータは、各翻訳候補の点数に基づいて、各翻訳候補を並び替え、並び替えた各翻訳候補を出力することを特徴とする付記8に記載の翻訳方法。
【符号の説明】
【0089】
100 翻訳装置
103 記憶部
104 構造解析部
105 構造変換部
106 専用文法選択部
107 構造部品翻訳部
108 翻訳候補生成部
109 検索キー作成部
110 検索部
111 検索加点計算部
112 並列加点計算部
113 評価部

【特許請求の範囲】
【請求項1】
構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照して、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成する翻訳部と、
複数の翻訳部品を組み合わせた翻訳候補を複数生成する翻訳候補生成部と、
前記翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成する検索キー作成部と、
複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計する集計部と、
主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求める計算部と、
前記翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力する評価部と
を有することを特徴とする翻訳装置。
【請求項2】
前記記憶装置は、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に記憶し、前記評価部は、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に利用して、各翻訳候補を評価することを特徴とする請求項1に記載の翻訳装置。
【請求項3】
前記評価部は、各翻訳候補の点数に基づいて、各翻訳候補を並び替え、並び替えた各翻訳候補を出力することを特徴とする請求項2に記載の翻訳装置。
【請求項4】
コンピュータに、
構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照して、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成し、
複数の翻訳部品を組み合わせた翻訳候補を複数生成し、
前記翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成し、
複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計し、
主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求め、
前記翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力する処理を実行させる翻訳プログラム。
【請求項5】
コンピュータが実行する翻訳方法であって、
構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照して、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成し、
複数の翻訳部品を組み合わせた翻訳候補を複数生成し、
前記翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成し、
複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計し、
主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求め、
前記翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力することを特徴とする翻訳方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate