翻訳装置、翻訳プログラムおよび翻訳方法

【課題】各翻訳部品を整合性のとれた自然な文に組み合わせること。
【解決手段】翻訳装置１００は、翻訳対象となる文章を、複数の構造部品に分割し、各構造部品のパターンに対応する文法によって機械翻訳することで、複数の翻訳部品を作成する。そして、翻訳装置１００は、翻訳部品の主要部を特定し、主要部を変数に置き換えた検索キーおよび主要部をそのままにした検索キーを作成する。翻訳装置１００は、主要部を変数に置き換えた検索キーよりも、変数に置き換えていない検索キーのほうが優位になるように、検索キーに重みをつける。翻訳装置１００は、各検索キーを利用して、コーパスデータ１０３ｄを検索し、ヒット数と検索キーの重みに基づいて、翻訳候補を評価する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、翻訳装置等に関する。
【背景技術】
【０００２】
従来の機械翻訳の特徴として、長い文章に対する翻訳品質が低いという問題がある。このため、従来の技術では、文章の特徴的な部分に基づいて、文章を短い単位に区切り、それぞれの短い単位に対して機械翻訳を適用することによって、翻訳品質を向上させる「定型利用翻訳」手法を利用する。
【０００３】
文章を区切る手段としては、利用者自身が分割位置を判断して区切る場合と、文章の表層的な特徴に基づいて最適な区切り位置を自動的に判定して区切る場合がある。後者の自動分割による手段では、区切った部品に対して、適切な翻訳規則を適用することによって、翻訳文を作成する。
【０００４】
定型利用翻訳では、文章の各部品に対して、その部品に即した専用文法を適用して訳文を作成する。例えば、文章の「主題」を構成する部品に対しては、名詞句専用の文法が適用され、主題らしい訳文が得られる。また、文章の「連帯修飾句」に対しては、連帯修飾句専用の文法が適用され、修飾句らしく翻訳される。従来の翻訳技術は、このような専用文法を利用しているため、部品中の単語の役割を判定しながら翻訳を実行する。そして、従来の翻訳技術は、各部品を翻訳した翻訳部品を組み合わせることで、最終的な訳文を出力する。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００９−１５３９８号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、上述した従来技術では、各翻訳部品を整合性のとれた自然な文に組み合わせることができないという問題があった。
【０００７】
「定型利用翻訳」によって各部品を翻訳すると、各翻訳部品の組み合わせが複数あるため、複数の翻訳候補が得られることが多い。例えば、日英翻訳において、「Ａに装着されたＢ」という日本語の文章の部品に対して、”B attaching A”、”B which attaches A”、”B that attaches A”、”B,wherein A is attached”等の翻訳部品が考えられる。このような複数の翻訳部品が、文章の各部品に対して存在すると、翻訳部品の組み合わせから、日本語の文章に対する翻訳候補が複数存在することになる。このため、最終的な訳文では、多数の翻訳候補の中から、読み手にとって最も自然と思われるものを判定して、訳文を完成させることになる。
【０００８】
複数の翻訳候補から最適な翻訳候補を選択するには、各翻訳部品の組み合わせについて妥当性を検証する。例えば、各翻訳部品の組み合わせについて、ウェブ検索やコーパス検索から得られた頻度を参照して、妥当性を検証する。しかしながら、ウェブ検索やコーパス検索によって妥当性を検証する場合には、以下のような問題がある。
【０００９】
まず、各翻訳部品の組み合わせの表記そのもので検索を行っても、一般的に翻訳文は多くの単語から構成されるため、十分な検索結果頻度が得られない。また、既存の曖昧検索を用いると、翻訳文中の重要単語と非重要単語の区別なく検索が行われるため、各翻訳候補を評価することができない。また、各翻訳部品の組み合わせの数が多いと、膨大な手間がかかる。
【００１０】
開示の技術は、上記に鑑みてなされたものであって、各翻訳部品を整合性のとれた自然な文に組み合わせることができる翻訳装置、翻訳プログラムおよび翻訳方法を提供することを目的とする。
【課題を解決するための手段】
【００１１】
開示の翻訳装置は、翻訳部と、翻訳候補生成部と、検索キー作成部と、集計部と、計算部と、評価部とを有する。翻訳部は、構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照する。そして、翻訳部は、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成する。翻訳候補生成部は、複数の翻訳部品を組み合わせた翻訳候補を複数生成する。検索キー作成部は、翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成する。集計部は、複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計する。計算部は、主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求める。評価部は、翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力する。
【発明の効果】
【００１２】
開示の翻訳装置は、各翻訳部品を整合性のとれた自然な文に組み合わせることができるという効果を奏する。
【図面の簡単な説明】
【００１３】
【図１】図１は、本実施例にかかる翻訳装置の構成を示す図である。
【図２】図２は、文章データの一例を示す図である。
【図３】図３は、属性管理テーブルのデータ構造の一例を示す図である。
【図４】図４は、構造変換パターンデータのデータ構造の一例を示す図である。
【図５】図５は、専用文法データのデータ構造の一例を示す図である。
【図６】図６は、キー種別データのデータ構造の一例を示す図である。
【図７】図７は、構造解析結果の一例を示す図である。
【図８】図８は、構造変換部の処理を説明するための図である。
【図９】図９は、構造部品翻訳結果のデータ構造の一例を示す図である。
【図１０】図１０は、翻訳候補のデータ構造の一例を示す図である。
【図１１】図１１は、検索キーのデータ構造の一例を示す図である。
【図１２】図１２は、主要部を特定する方法を示す図である。
【図１３】図１３は、翻訳候補１Ａから生成される検索キーと重みとの関係を示す図である。
【図１４】図１４は、検索キーの作成結果を示す図である。
【図１５】図１５は、頻度データのデータ構造の一例を示す図である。
【図１６】図１６は、検索加点データのデータ構造の一例を示す図である。
【図１７】図１７は、加点条件テーブルのデータ構造の一例を示す図である。
【図１８】図１８は、並列加点データのデータ構造の一例を示す図である。
【図１９】図１９は、各翻訳候補の検索加点と並列加点と評価値との関係を示す図である。
【図２０】図２０は、出力データの一例を示す図である。
【図２１】図２１は、翻訳装置の処理手順を示すフローチャートである。
【図２２】図２２は、並列加点算出処理の処理手順を示すフローチャートである。
【図２３】図２３は、翻訳プログラムを実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【００１４】
以下に、本願の開示する翻訳装置、翻訳プログラムおよび翻訳方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例】
【００１５】
本実施例にかかる翻訳装置の構成について説明する。図１は、本実施例にかかる翻訳装置の構成を示す図である。図１に示すように、翻訳装置１００は、入力部１０１、出力部１０２、記憶部１０３、構造解析部１０４、構造変換部１０５、専用文法選択部１０６、構造部品翻訳部１０７、翻訳候補生成部１０８を有する。また、翻訳装置１００は、検索キー作成部１０９、検索部１１０、検索加点計算部１１１、並列加点計算部１１２、評価部１１３を有する。
【００１６】
構造解析部１０４、構造変換部１０５、専用文法選択部１０６、構造部品翻訳部１０７は、翻訳部の一例である。検索部１１０は、集計部の一例である。検索加点計算部１１１は、計算部の一例である。
【００１７】
入力部１０１は、翻訳対象となる文章データを取得する装置である。入力部１０１は、取得した文章データを、構造解析部１０４に出力する。例えば、入力部１０１は、他の装置と接続するインターフェースであり、他の装置から文章データを取得する。または、入力部１０１は、キーボード等の入力装置に接続され、この入力装置から文章データを取得してもよい。図２は、文章データの一例を示す図である。図２に示すように、この文章データ１０は、「高い比誘電率εｒを保ち、高い品質係数と共振周波数の積Ｑｆを得ることのできる誘電体材料を提供する。」を含む。
【００１８】
出力部１０２は、評価部１１３から出力されるデータを表示する装置である。出力部１０２は、例えば、ディスプレイやモニタなどの表示装置に対応する。
【００１９】
記憶部１０３は、属性管理テーブル１０３ａ、構造変換パターンデータ１０３ｂ、専用文法データ１０３ｃ、コーパスデータ１０３ｄ、キー種別データ１０３ｅ、加点条件テーブル１０３ｆを記憶する記憶装置である。記憶部１０３は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子、またはハードディスク、光ディスクなどの記憶装置に対応する。
【００２０】
属性管理テーブル１０３ａは、文章の構造パターンと、該構造パターンに対応する属性とを対応づけて記憶するテーブルである。構造パターンは、例えば、「＊＋連用中止句＋読点」、「＊＋動詞連用形」、「＊＋動詞終止形」等が含まれる。属性は、主題、目的、可能を含む説明、平叙を含む説明等に対応する。図３は、属性管理テーブルのデータ構造の一例を示す図である。図３に示すように、属性管理テーブルは、構造パターンと、属性とを対応づけて記憶する。例えば、構造パターンＡの属性は、「目的」となる。
【００２１】
構造変換パターンデータ１０３ｂは、対象言語らしい語順になるように並び替える場合に利用されるデータである。並び替えられるものは、属性に対応づけられる構造部品である。図４は、構造変換パターンデータのデータ構造の一例を示す図である。図４に示すように、この構造変換パターンデータ１０３ｂは、構造変換前と構造変換後とを対応づけている。例えば、属性の並び順が、平叙を含む説明、可能を含む説明、主題、目的となるパターンは、目的、主題、平叙を含む説明、可能を含む説明の属性の順に変換される旨を示す。
【００２２】
専用文法データ１０３ｃは、該当文章をどのように翻訳するのかを定義するデータである。図５は、専用文法データのデータ構造の一例を示す図である。図５に示すように、この専用文法データ１０３ｃは、属性毎に、専用文法ＩＤおよび処理内容を対応づけている。例えば、属性「目的」は、専用文法ＩＤ「Ｇ＃目的」に対応づけられている。専用文法ＩＤ「Ｇ＃目的」には、処理内容「「To V」を使用して訳す」が対応づけられている。その他の属性も、専用文法ＩＤと、処理内容が対応づけられている。
【００２３】
コーパスデータ１０３ｄは、各種の技術分野の文章データを含む。このコーパスデータ１０３ｄは、入力部１０１から入力される文章データの技術分野に応じて、特定の技術分野の文章データのみを含んでもよい。例えば、利用者は、入力部１０１から入力される文章データの技術分野が機械工学系の分野であれば、コーパスデータ１０３ｄに機械工学系の分野の文章を含ませておく。
【００２４】
キー種別データ１０３ｅは、専用文法ＩＤと句タイプ毎に、検索キーの処理内容を定義するデータである。図６は、キー種別データのデータ構造の一例を示す図である。図６に示すように、このキー種別データ１０３ｅは、専用文法ＩＤ、句タイプ、キー作成対象、キー作成処理内容を対応づけて記憶する。例えば、キー種別データ１０３ｅの１段目では、専用文法ＩＤ「Ｇ＃目的」、句タイプ「動詞句」に対して、キー作成対象が「原文」であり、キー作成処理内容が「原文をそのままキーにする」である。
【００２５】
加点条件テーブル１０３ｆは、並列加点計算部１１２に利用されるデータである。加点条件テーブル１０３ｆの説明は後述する。
【００２６】
図１の説明に戻る。構造解析部１０４は、属性管理テーブル１０３ａを基にして、入力部１０１から入力された文章データの構造解析を行い、構造解析結果を生成する処理部である。図７は、構造解析結果の一例を示す図である。図７に示すように、構造解析結果では、属性と構造部品とが対応づけられる。構造解析部１０４は、構造解析結果を構造変換部１０５に出力する。
【００２７】
構造解析部１０４の処理の一例について説明する。構造解析部１０４は、文章データの文章を構造部品に分割する。構造解析部１０４は、句読点、カンマ、ピリオドや、予め指定された正規表現を区切りとして、文章を分割する。例えば、構造解析部１０４は、文章「高い比誘電率εｒを保ち、高い品質係数と共振周波数の積Ｑｆを得ることのできる誘電体材料を提供する」を構造部品に分割する。分割した結果、例えば、各構造部品は「高い比誘電率εｒを保ち、」、「高い品質係数と共振周波数の積Ｑｆを得ることのできる」、「誘電体材料を」、「提供する」となる。
【００２８】
構造解析部１０４は、文章を構造部品に分割した後に、構造部品のパターンと、属性管理テーブル１０３ａとを比較して、各構造部品と属性とを対応づけることで、構造解析結果を生成する。例えば、構造部品「高い比誘電比率εｒを保ち、」のパターンが、構造パターンＣの場合には、この構造部品に対応する属性は「平叙を含む説明」となる。この構造解析部１０４は、例えば、特開２００９−１５３９８号公報に開示された技術を利用して、構造解析を行い、構造解析結果を生成してもよい。
【００２９】
構造変換部１０５は、構造解析部１０４による構造解析結果と構造変換パターンデータ１０３ｂとを比較して、構造解析結果の構造部品を並び替えた構造変換データを生成する処理部である。構造変換部１０５は、構造変換データを専用文法選択部１０６、構造部品翻訳部１０７、翻訳候補生成部１０８に出力する。
【００３０】
図８は、構造変換部の処理を説明するための図である。図８に示すように、構造解析結果１１の属性の順序を、構造変換パターンデータ１０３ｂに合わせて並べ替えると、構造変換データ１２が生成される。構造変換部１０５は、構造変換パターンデータ１０３ｂの順序に即して、構造解析結果１１の属性の順序を並べ替え、属性の並べ替えに合わせて、該当する構造部品も並び替える。
【００３１】
専用文法選択部１０６は、属性に対応づけられた構成部品をどのように翻訳するのかを構造部品翻訳部１０７に出力する処理部である。専用文法選択部１０６は、構造変換データに含まれる属性と、図５の専用文法データ１０３ｃとを比較して、専用文法ＩＤと、翻訳を行う場合の処理内容を判定する。
【００３２】
具体的には、専用文法選択部１０６は、属性が「目的」の構成部品に適用する専用文法ＩＤを「Ｇ＃目的」と判定し、処理内容を「「To V」を使用して訳す」と判定する。専用文法選択部１０６は、属性が「主題」の構成部品に適用する専用文法ＩＤを「Ｇ＃主題」と判定し、処理内容を「名詞句として訳す」と判定する。
【００３３】
また、専用文法選択部１０６は、属性が「平叙を含む説明」の構成部品に適用する専用文法ＩＤを「Ｇ＃説明１」と判定し、処理内容を「「,Ving」を使用して訳す」と判定する。また、属性が「平叙を含む説明」の構成部品に適用する専用文法ＩＤを「Ｇ＃説明２」と判定し、処理内容を「「which Vs」を使用して訳す」と判定する。
【００３４】
また、専用文法選択部１０６は、属性が「可能を含む説明」の構成部品に適用する専用文法ＩＤを「Ｇ＃説明３」と判定し、処理内容を「「that can V」を使用して訳す」と判定する。また、属性が「可能を含む説明」の構成部品に適用する専用文法ＩＤを「Ｇ＃説明４」と判定し、処理内容を「「capable of Ving」を使用して訳す」と判定する。単一の属性に対して、複数の専用文法ＩＤおよび処理内容が存在する場合には、専用文法選択部１０６は、各専用文法ＩＤおよび処理内容を、構造部品翻訳部１０７に出力する。
【００３５】
構造部品翻訳部１０７は、構造変換部１０５により生成された構造変換データに含まれる構造部品を、専用文法選択部１０６から通知される処理方法によって翻訳し、構造部品翻訳結果を生成する処理部である。構造部品翻訳部１０７は、構造部品翻訳結果を、翻訳候補生成部１０８に出力する。図９は、構造部品翻訳結果のデータ構造の一例を示す図である。図９に示すように、この構造部品翻訳結果は、属性、構造部品、専用文法ＩＤ、翻訳部品を対応づけて記憶する。ここで、翻訳部品は、構造部品を専用文法ＩＤに対応する処理方法で翻訳した結果、得られるものである。
【００３６】
構造部品翻訳部１０７は、属性「目的」、構造部品「提供する。」に対して専用文法ＩＤ「Ｇ＃目的」の処理内容を適用することで、翻訳部品「to provide」を得る。また、構造部品翻訳部１０７は、属性「主題」、構造部品「誘電体材料を」に対して専用文法ＩＤ「Ｇ＃主題」の処理内容を適用し翻訳することで、翻訳部品「a dielectric material」を得る。
【００３７】
構造部品翻訳部１０７は、属性「平叙を含む説明」、構造部品「高い比誘電率εｒを保ち、」に対して専用文法ＩＤ「Ｇ＃説明１」の処理内容を適用し翻訳することで、翻訳部品「,keeping a high dielectric constant εr,and」を得る。また、構造部品翻訳部１０７は、属性「平叙を含む説明」、構造部品「高い比誘電率εｒを保ち、」に対して専用文法ＩＤ「Ｇ＃説明２」の処理内容を適用し翻訳する。そうすることで、構造部品翻訳部１０７は、翻訳部品「that keeps a high dielectric constant εr,and」を得る。
【００３８】
構造部品翻訳部１０７は、属性「可能を含む説明」、構造部品「高い品質係数と共振周波数の積Ｑｆを得ることのできる」に対して専用文法ＩＤ「Ｇ＃説明３」の処理内容を適用し翻訳する。そうすることで、構造部品翻訳部１０７は、翻訳部品「that can obtain a high product Qf of quality factor and resonant frequency」を得る。
【００３９】
構造部品翻訳部１０７は、属性「可能を含む説明」、構造部品「高い品質係数と共振周波数の積Ｑｆを得ることのできる」に対して専用文法ＩＤ「Ｇ＃説明４」の処理内容を適用し翻訳する。そうすることで、構造部品翻訳部１０７は、翻訳部品「,capable of obtaining a high product Qf of quality factor and resonant frequency」を得る。
【００４０】
翻訳候補生成部１０８は、構造変換データの属性の並び順にしたがって、各翻訳部品を並べ替えることで翻訳候補を生成する処理部である。単一の属性に対して複数の翻訳部品が存在する場合には、翻訳候補生成部１０８は、複数の翻訳候補を生成する。例えば、図９に示したように、属性「平叙を含む説明」の翻訳部品が２つ、属性「可能を含む説明」の翻訳部品が２つ存在する場合には、４つの翻訳候補が生成される。翻訳候補生成部１０８は、翻訳候補のデータを、検索キー作成部１０９に出力する。
【００４１】
図１０は、翻訳候補のデータ構造の一例を示す図である。図１０に示すように、翻訳候補生成部１０８は、翻訳候補１Ａ〜１Ｄを生成する。翻訳候補１Ａは、「Ｇ＃目的」、「Ｇ＃主題」、「Ｇ＃説明１」、「Ｇ＃説明３」の専用文法ＩＤの処理内容で翻訳された翻訳部品を有する。翻訳候補１Ｂは、「Ｇ＃目的」、「Ｇ＃主題」、「Ｇ＃説明１」、「Ｇ＃説明４」の専用文法ＩＤの処理内容で翻訳された翻訳部品を有する。
【００４２】
翻訳候補１Ｃは、「Ｇ＃目的」、「Ｇ＃主題」、「Ｇ＃説明２」、「Ｇ＃説明３」の専用文法ＩＤの処理内容で翻訳された翻訳部品を有する。翻訳候補１Ｄは、「Ｇ＃目的」、「Ｇ＃主題」、「Ｇ＃説明２」、「Ｇ＃説明４」の専用文法ＩＤの処理内容で翻訳された翻訳部品を有する。
【００４３】
検索キー作成部１０９は、翻訳候補の各翻訳部品に含まれる主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成する処理部である。検索キー作成部１０９は、検索キーのデータを検索部１１０に出力する。なお、主要部は、例えば、動詞句の動詞、名詞句の名詞、修飾句の一部に対応する。
【００４４】
検索キー作成部１０９が作成する検索キーの一例について説明する。図１１は、検索キーのデータ構造の一例を示す図である。図１１に示す検索キー２０ａ〜２０ｅは、図１０に示した翻訳候補１Ａから作成されるものである。検索キー作成部１０９は、翻訳部品の句タイプと専用文法ＩＤとの組と、キー種別データ１０３ｅとを比較することで、キーの作成対象と、キーの作成処理内容を判定し、検索キーを作成する。
【００４５】
検索キー作成部１０９は、翻訳候補の原文をそのままの状態にして、検索キー２０ａを作成する。検索キー作成部１０９は、検索キー２０ａの節または句の主要部を「＊」に設定することで、検索キー２０ｂを作成する。「＊」は、任意個の任意の単語と一致するワイルドカードに対応する。
【００４６】
検索キー作成部１０９は、検索キー２０ｂの名詞を変数「Ｎ」に変換することで、検索キー２０ｃを作成する。検索キー作成部１０９は、検索キー２０ｃの主要部の動詞を変数「Ｖ」に変換することで、検索キー２０ｄを作成する。検索キー作成部１１０は、検索キー２０ｄの全単語を変換することで、検索キー２０ｅを作成する。
【００４７】
ここで、検索キー作成部１０９が、検索キーを作成する場合に利用する、主要部の特定方法の一例について説明する。図１２は、主要部を特定する方法を示す図である。例えば、文章データに対して構造解析を行うと（ステップＳ１０）、各単語の文法属性およびこれら単語間の係り受け関係が特定される。これらの属性と係り受けにしたがって、機械翻訳を実行すると（ステップＳ１１）、出力文が生成される（ステップＳ１２）。このため、出力文においても、単語の属性および係り受けがわかった状態となるため、例えば、主動詞を主張部とする場合には、主要部の単語を「V」ingとする検索キーが生成される（ステップＳ１３）。検索キー作成部１０９は、例えば、構造解析部１０４、構造部分翻訳部１０７から、単語の属性、係り受けの情報を取得し、主要部に該当するものを特定する。
【００４８】
ところで、検索キー作成部１０９は、検索キーに重みを付与する。検索キー作成部１０９は、検索キーと、この検索キーの作成元の翻訳候補とを比較し、単語がワイルドカードや変数に置き換えられていない割合が大きいものほど、重みが大きくなるように、重みを付与する。図１１に示した検索キー２０ａ〜２０ｅを例にして、単語がワイルドカードや変数に置き換えられていない割合が大きいものの順に並べると、２０ａ、２０ｂ、２０ｃ、２０ｄ、２０ｅとなる。
【００４９】
このため、検索キー作成部１０９は、検索キー２０ａ〜２０ｅに付与する重みの大小関係を、検索キー２０ａ＞検索キー２０ｂ＞検索キー２０ｃ＞検索キー２０ｄ＞検索キー２０ｅとする。図１３は、翻訳候補１Ａから生成される検索キーと重みとの関係を示す図である。図１３に示す例では、検索キーを識別するＩＤ、重み、検索キーとの関係を示している。ＩＤ「Ａ−１〜Ａ−５」は、それぞれ、検索キー２０ａ〜２０ｅに対応する。
【００５０】
検索キー作成部１０９は、翻訳候補１Ｂ〜１Ｄに対しても、翻訳候補１Ａの場合と同様にして検索キーを生成し、各検索キーに重みを付与する。このような処理を実行することで、検索キー作成部１０９は、図１４に示す検索キーを得る。図１４は、検索キーの作成結果を示す図である。検索キー作成部１０９は、検索キーの作成結果を、検索部１１０に出力する。
【００５１】
検索部１１０は、検索キーによってコーパスデータ１０３ｄを検索し、検索キー毎に検索キーの頻度を判定する処理部である。例えば、検索部１１０は、検索キーによってコーパスデータ１０３ｄを検索した場合の、検索キーのヒット数を頻度とする。検索部１１０は、検索キーのＩＤ、重み、頻度をそれぞれ対応づけた頻度データを、検索加点計算部１１１に出力する。図１５は、頻度データのデータ構造の一例を示す図である。図１５の１段目では、例えばＩＤ「Ａ−１」の検索キーの重みが「５０」であり、頻度が「０」である旨を示している。
【００５２】
検索加点計算部１１１は、頻度データに基づいて、翻訳候補毎の検索加点を計算することで、検索加点データを生成する処理部である。ここで、検索加点は、検索キーの重みと検索キーの頻度とを乗算した値を、同一の翻訳候補に属する検索キー毎に合計した値に対応する。検索加点計算部１１１は、検索加点データを評価部１１３に出力する。図１６は、検索加点データのデータ構造の一例を示す図である。図１６に示すように、検索加点データは、翻訳候補、ＩＤ、重み、頻度、重み×頻度、検索加点を対応づけて記憶する。ここで、重み×頻度は、重みと頻度とを乗算した値を示す。
【００５３】
例えば、翻訳候補１Ａに属する検索キーは、ＩＤ「Ａ−１〜Ａ−５」となり、各ＩＤ「Ａ−１〜Ａ−５」に対応する「重み×頻度」はそれぞれ、「０、２５、７５、１５９、３８２」となる。このため、翻訳候補１Ａの検索加点は「６４１」となる。
【００５４】
並列加点計算部１１２は、翻訳候補に含まれる各翻訳部品が特定の条件を満たしているか否かによって並列加点を計算する処理部である。この並列加点が高いほど、翻訳部品の組み合わせがより自然であるといえる。並列加点計算部１１２は、加点条件テーブル１０３ｆと各翻訳候補とを比較して、各翻訳候補の並列加点を計算する。並列加点計算部１１２は、各翻訳候補と並列加点とを対応づけた並列加点データを、評価部１１３に出力する。
【００５５】
並列加点計算部１１２は、加点条件テーブル１０３ｆを利用して、並列加点を計算する。図１７は、加点条件テーブルのデータ構造の一例を示す図である。図１７に示すように、この加点条件テーブル１０３ｆは、加点条件と加点とを対応づけている。例えば、加点条件が「すべての翻訳部品で、主動詞が”ｉｎｇ”形動詞である」の場合には、加点は「４０」となる。また、加点条件が「すべての翻訳部品が、関係代名詞”ｔｈａｔ”で始まっている」の場合には、加点は「４０」となる。また、加点条件が「最初の翻訳部品が、関係代名詞”ｔｈａｔ”で始まっている」の場合には、加点は「４０」となる。また、加点条件が「すべての翻訳部品が、関係代名詞”ｗｈｉｃｈ”」の場合には、加点は「３０」となる。加点条件テーブル１０３ｆの１段目から４段目までの加点条件に当てはまらない場合には、加点は「１０」となる。
【００５６】
例えば、並列加点計算部１１２は、ある翻訳候補と、加点条件テーブル１０３ｆとを比較した結果、１段目と２段目の加点条件に翻訳候補が当てはまる場合には、並列加点を「４０＋４０」で「８０」とする。
【００５７】
図１８は、並列加点データのデータ構造の一例を示す図である。図１８に示すように、翻訳候補１Ａ〜１Ｄの並列加点は「１０、４０、８０、１０」となる。
【００５８】
評価部１１３は、検索加点データと並列加点データとを基にして、各翻訳候補を評価する処理部である。評価部１１３は、評価の高い翻訳候補から順に、翻訳候補を並べ替えた出力データを、出力部１０２に出力する。
【００５９】
評価部１１３は、例えば、翻訳候補毎に、検索加点と並列加点とを加算することで、評価値を算出する。この評価値が高い翻訳候補ほど、評価の高い翻訳候補となる。図１９は、各翻訳候補の検索加点と並列加点と評価値との関係を示す図である。図１９を参照すると、並列加点のみを評価した場合には、評価の大小関係は、翻訳候補１Ｃの評価＞翻訳候補１Ｂの評価＞翻訳候補１Ｃの評価＝翻訳候補１Ａとなる。しかしながら、検索加点を考慮することで、最終的に、評価の大小関係は、翻訳候補１Ａの評価＞翻訳候補１Ｃの評価＞翻訳候補１Ｂの評価＞翻訳候補１Ｄの評価となる。
【００６０】
このため、評価部１１３は、翻訳候補１Ａ、１Ｃ、１Ｂ、１Ｄの順に、翻訳候補を並べ替え、並べ替えた出力データを、出力部１０２に出力する。なお、評価部１１３は、翻訳候補の最初の文字を大文字に変換し、最後の文字の次にピリオドを付与する。図２０は、出力データの一例を示す図である。図２０に示すように、翻訳候補２Ａ〜２Ｄが、評価の高い順に並んで表示されている。翻訳候補２Ａは、翻訳候補１Ａに対応する。翻訳候補２Ｂは、翻訳候補１Ｃに対応する。翻訳候補２Ｃは、翻訳候補１Ｂに対応する。翻訳候補２Ｄは、翻訳候補１Ｄに対応する。
【００６１】
次に、本実施例にかかる翻訳装置１００の処理手順について説明する。図２１は、翻訳装置の処理手順を示すフローチャートである。例えば、図２１に示す処理は、翻訳装置１００が、文章データを取得したことを契機として実行される。図２１に示すように、翻訳装置１００は、文章データを構造解析して構造解析結果を取得し（ステップＳ１０１）、構造変換パターンを利用して、構造変換を実行する（ステップＳ１０２）。
【００６２】
翻訳装置１００は、各構造部品に対して適用可能な複数の専用文法を取得し（ステップＳ１０３）、専用文法を各構造部品に適用する（ステップＳ１０４）。翻訳装置１００は、翻訳候補を作成し（ステップＳ１０５）、翻訳候補を選択し（ステップＳ１０６）、検索キーを作成する（ステップＳ１０７）。
【００６３】
翻訳装置１００は、対象分野のコーパスデータを検索して頻度を取得し（ステップＳ１０８）、頻度と検索キーの重みに基づいて、検索加点を算出する（ステップＳ１０９）。翻訳装置１００は、並列加点算出処理を実行し（ステップＳ１１０）、検索加点と並列加点とを基にして、翻訳候補の評価値を算出する（ステップＳ１１１）。
【００６４】
翻訳装置１００は、最後の翻訳候補か否かを判定し（ステップＳ１１２）、最後の翻訳候補ではない場合に（ステップＳ１１２，Ｎｏ）、ステップＳ１０６に移行する。一方、翻訳装置１００は、最後の翻訳候補の場合には（ステップＳ１１２，Ｙｅｓ）、評価値に基づいて、各翻訳候補をソートし（ステップＳ１１３）、出力データを出力する（ステップＳ１１４）。
【００６５】
次に、図２１のステップＳ１１０に示した並列加点算出処理の処理手順について説明する。図２２は、並列加点算出処理の処理手順を示すフローチャートである。図２２に示すように、翻訳装置１００は、翻訳候補を１つ選択し（ステップＳ２０１）、翻訳候補から、並列関係にある翻訳部品列を検出する（ステップＳ２０２）。
【００６６】
翻訳装置１００は、加点条件テーブルから加点条件を選択し（ステップＳ２０３）、並列関係にある翻訳部品列が加点条件を満たすか否かを判定する（ステップＳ２０４）。翻訳装置１００は、加点条件を満たさない場合には（ステップＳ２０４，Ｎｏ）、ステップＳ２０６に移行する。
【００６７】
一方、翻訳装置１００は、加点条件を満たす場合には（ステップＳ２０４，Ｙｅｓ）、加点条件に対応する点を並列点に追加し（ステップＳ２０５）、最後の加点条件であるか否かを判定する（ステップＳ２０６）。
【００６８】
翻訳装置１００は、最後の加点条件でない場合には（ステップＳ２０６，Ｎｏ）、ステップＳ２０３に移行する。一方、翻訳装置１００は、最後の加点条件の場合には（ステップＳ２０６，Ｙｅｓ）、最後の翻訳候補であるか否かを判定する（ステップＳ２０７）。最後の翻訳候補でない場合には（ステップＳ２０７，Ｎｏ）、ステップＳ２０１に移行する。一方、最後の翻訳候補の場合には（ステップＳ２０７，Ｙｅｓ）、処理を終了する。
【００６９】
次に、本実施例にかかる翻訳装置１００の効果について説明する。本実施例にかかる翻訳装置１００は、翻訳対象となる文章を、複数の構造部品に分割し、各構造部品のパターンに対応する文法によって機械翻訳することで、複数の翻訳部品を作成する。そして、翻訳装置１００は、翻訳部品の主要部を特定し、主要部を変数に置き換えた検索キーおよび主要部をそのままにした検索キーを作成する。翻訳装置１００は、主要部を変数に置き換えた検索キーよりも、変数に置き換えていない検索キーのほうが優位になるように、検索キーに重みをつける。翻訳装置１００は、各検索キーを利用して、コーパスデータ１０３ｄを検索し、ヒット数と検索キーの重みに基づいて、翻訳候補を評価する。このため、翻訳装置１００によれば、各翻訳部品を整合性のとれた自然な文に組み合わせることができる。
【００７０】
また、翻訳装置１００は、加点条件テーブル１０３ｆを用いて更に、各翻訳候補の並列加点を計算し、並列加点を更に利用して、翻訳候補を評価するので、各翻訳候補を評価する場合の精度が向上する。
【００７１】
また、翻訳装置１００は、各翻訳候補の評価点に基づいて、各翻訳候補を並び替え、並び替えた各翻訳候補を出力するので、複数の翻訳候補が存在する場合にでも、より自然な翻訳候補から順に、利用者に表示することができる。
【００７２】
ここで、図２３を用いて、上記の実施例で説明した翻訳装置１００による処理と同様の機能を実現する翻訳プログラムを実行するコンピュータの一例を説明する。図２３は、翻訳プログラムを実行するコンピュータの一例を示す図である。
【００７３】
図２３に示すように、翻訳装置１００として機能するコンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３を有する。また、コンピュータ２００は、記憶媒体からプログラム等を読取る媒体読み取り装置２０４と、ネットワークを介して他のコンピュータとの間でデータの授受を行うネットワークインターフェース装置２０５とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７を有する。そして、各装置２０１〜２０７は、バス２０８に接続される。
【００７４】
ハードディスク装置２０７には、上述した翻訳装置１００の機能と同様の機能を発揮する翻訳プログラム２０７ａ、翻訳候補生成プログラム２０７ｂ、検索キー作成プログラム２０７ｃ、集計プログラム２０７ｄが記憶されている。また、ハードディスク装置２０７には、計算プログラム２０７ｅ、評価プログラム２０７ｆが記憶されている。
【００７５】
ＣＰＵ２０１は、プログラム２０７ａ〜２０７ｆをハードディスク装置２０７から読み出してＲＡＭ２０６に展開する。翻訳プログラム２０７ａは、翻訳プロセス２０６ａとして機能する。翻訳候補生成プログラム２０７ｂは、翻訳候補生成プロセス２０６ｂとして機能する。検索キー作成プログラム２０７ｃは、検索キー作成プロセス２０６ｃとして機能する。集計プログラム２０７ｄは、集計プロセス２０６ｄとして機能する。計算プログラム２０７ｅは、計算プロセス２０６ｅとして機能する。評価プログラム２０７ｆは、評価プロセス２０６ｆとして機能する。
【００７６】
翻訳プロセス２０６ａは、構造解析部１０４、構造変換部１０５、専用文法選択部１０６、構造部品翻訳部１０７に対応する。翻訳候補生成プロセス２０６ｂは、翻訳候補生成部１０８に対応する。検索キー作成プロセス２０６ｃは、検索キー作成部１０９に対応する。集計プロセス２０６ｄは、検索加点集計部１１１に対応する。評価プロセス２０６ｆは、評価部１１３に対応する。
【００７７】
なお、各プログラム２０７ａ〜２０７ｆについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくてもよい。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００がこれらから各プログラムを読み出して実行するようにしてもよい。
【００７８】
ところで、図１に示した各処理部１０４〜１１３は、ＡＳＩＣ（Application Specific Integrated Circuit）や、ＦＰＧＡ（Field Programmable Gate Array）などの集積装置に対応する。また、各処理部１０４〜１１３は、例えば、ＣＰＵやＭＰＵ（Micro Processing Unit）等の電子回路に対応する。
【００７９】
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
【００８０】
（付記１）構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照して、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成する翻訳部と、
複数の翻訳部品を組み合わせた翻訳候補を複数生成する翻訳候補生成部と、
前記翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成する検索キー作成部と、
複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計する集計部と、
主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求める計算部と、
前記翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力する評価部と
を有することを特徴とする翻訳装置。
【００８１】
（付記２）前記記憶装置は、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に記憶し、前記評価部は、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に利用して、各翻訳候補を評価することを特徴とする付記１に記載の翻訳装置。
【００８２】
（付記３）前記評価部は、各翻訳候補の点数に基づいて、各翻訳候補を並び替え、並び替えた各翻訳候補を出力することを特徴とする付記２に記載の翻訳装置。
【００８３】
（付記４）コンピュータに、
構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照して、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成し、
複数の翻訳部品を組み合わせた翻訳候補を複数生成し、
前記翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成し、
複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計し、
主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求め、
前記翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力する処理を実行させる翻訳プログラム。
【００８４】
（付記５）前記記憶装置は、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に記憶し、前記コンピュータに、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に利用して、各翻訳候補を評価する処理を実行させることを特徴とする付記４に記載の翻訳プログラム。
【００８５】
（付記６）前記コンピュータに、各翻訳候補の点数に基づいて、各翻訳候補を並び替え、並び替えた各翻訳候補を出力する処理を実行させることを特徴とする付記５に記載の翻訳プログラム。
【００８６】
（付記７）コンピュータが実行する翻訳方法であって、
構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照して、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成し、
複数の翻訳部品を組み合わせた翻訳候補を複数生成し、
前記翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成し、
複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計し、
主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求め、
前記翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力することを特徴とする翻訳方法。
【００８７】
（付記８）前記記憶装置は、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に記憶し、前記コンピュータは、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に利用して、各翻訳候補を評価することを特徴とする付記７に記載の翻訳方法。
【００８８】
（付記９）前記コンピュータは、各翻訳候補の点数に基づいて、各翻訳候補を並び替え、並び替えた各翻訳候補を出力することを特徴とする付記８に記載の翻訳方法。
【符号の説明】
【００８９】
１００翻訳装置
１０３記憶部
１０４構造解析部
１０５構造変換部
１０６専用文法選択部
１０７構造部品翻訳部
１０８翻訳候補生成部
１０９検索キー作成部
１１０検索部
１１１検索加点計算部
１１２並列加点計算部
１１３評価部

【特許請求の範囲】
【請求項１】
構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照して、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成する翻訳部と、
複数の翻訳部品を組み合わせた翻訳候補を複数生成する翻訳候補生成部と、
前記翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成する検索キー作成部と、
複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計する集計部と、
主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求める計算部と、
前記翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力する評価部と
を有することを特徴とする翻訳装置。
【請求項２】
前記記憶装置は、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に記憶し、前記評価部は、前記翻訳候補に含まれる各翻訳部品の特徴の組み合わせと該翻訳部品の点数との関係を更に利用して、各翻訳候補を評価することを特徴とする請求項１に記載の翻訳装置。
【請求項３】
前記評価部は、各翻訳候補の点数に基づいて、各翻訳候補を並び替え、並び替えた各翻訳候補を出力することを特徴とする請求項２に記載の翻訳装置。
【請求項４】
コンピュータに、
構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照して、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成し、
複数の翻訳部品を組み合わせた翻訳候補を複数生成し、
前記翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成し、
複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計し、
主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求め、
前記翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力する処理を実行させる翻訳プログラム。
【請求項５】
コンピュータが実行する翻訳方法であって、
構造部品のパターンと該構造部品の属性とを対応づけて記憶する記憶装置を参照して、翻訳の対象となる文章を分割して得られる各構造部品の属性を判定し、該属性に応じた文法に基づいて、各構造部品をそれぞれ翻訳することで複数の翻訳部品を生成し、
複数の翻訳部品を組み合わせた翻訳候補を複数生成し、
前記翻訳部品の主要部を特定し、特定した主要部を変数に置き換えた検索キーと、主要部をそのままにした検索キーを作成し、
複数の文例を記憶した記憶装置を各検索キーによって検索し、検索キー毎のヒット数を集計し、
主要部を変数に置き換えた検索キーよりも、主要部を変数に置き換えていない検索キーの方が重みが大きくなるように、各検索キーに重みを付与し、検索キーのヒット数と該検索キーに付与した重みとを基にして、検索キー毎の点数を求め、
前記翻訳候補に含まれる複数の翻訳部品に対応する検索キーの点数を集計することで、各翻訳候補を評価し、評価結果を出力することを特徴とする翻訳方法。

【図１】