対訳情報検索装置、翻訳装置及びプログラム
【課題】入力文の特性をより反映した目的言語構成情報を選択する対訳情報検索装置および翻訳装置を提供する。
【解決手段】対訳情報検索装置は、原言語で入力された文である入力文を取得する入力文取得手段と、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報のうちから1つを、前記原言語構成情報と前記目的言語構成情報とに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段と、を含む。
【解決手段】対訳情報検索装置は、原言語で入力された文である入力文を取得する入力文取得手段と、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報のうちから1つを、前記原言語構成情報と前記目的言語構成情報とに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段と、を含む。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は対訳情報検索装置、翻訳装置及びプログラムに関する。
【背景技術】
【0002】
特許文献1には、ある言語で入力された文を他の言語に翻訳する際に、入力された文に対応する対訳情報を選択し、翻訳を行う翻訳装置が開示されている。ここで、対訳情報は、対訳例文パターンを含み、対訳例文パターンは、原言語の文の可変項目と固定項目とを示す原言語構成情報と、翻訳の目的となる目的言語の文の可変項目と固定項目とを示す目的言語構成情報と、を含む。非特許文献1には、入力された文に類似する対訳例文を選択し、翻訳に用いる翻訳方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010−152420号公報
【非特許文献】
【0004】
【非特許文献1】佐藤理史、長尾真、「実例に基づいた翻訳」、情報処理学会研究報告、1989年1月20日、第89巻、第6号、p.70.9.1-70.9.8
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、原言語構成情報および目的言語構成情報に関連づけられる評価情報を用いない場合に対し、入力文の特性をより反映した目的言語構成情報を選択することができる対訳情報検索装置、またその技術を用いた翻訳装置およびプログラムを提供することにある。
【課題を解決するための手段】
【0006】
請求項1に記載の発明は対訳情報検索装置であって、原言語で入力された文である入力文を取得する入力文取得手段と、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、前記原言語構成情報と前記目的言語構成情報とに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段と、を含むことを特徴とする。
【0007】
請求項2に記載の発明は請求項1に記載の発明において、前記評価情報は前記各原言語構成情報と、当該原言語構成情報に対応する目的言語構成情報との対応関係を示す言語間対応情報を含み、前記目的言語構成情報選択手段は、前記選択された原言語構成情報と前記言語間対応情報とを用いて生成した翻訳文の生成確率に基づいて、1つの前記目的言語構成情報を選択する、ことを特徴とする。
【0008】
請求項3に記載の発明は請求項1または2に記載の発明において、前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の属性と前記目的言語構成情報とを関連づけた情報を含み、前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列の属性と、前記原言語構成情報に含まれる前記可変項目の前記属性と前記目的言語構成情報とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択する、ことを特徴とする。
【0009】
請求項4に記載の発明は請求項3に記載の発明において、前記入力文を形態素解析し複数の単語と当該単語の品詞情報とを取得する形態素解析手段をさらに有し、前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の品詞と前記目的言語構成情報とを関連づけた情報を含み、前記目的言語構成情報選択手段は、前記入力文の単語の品詞情報と前記選択された原言語構成情報に含まれる前記可変項目の品詞とを関連づけた前記情報に基づいて、1つの前記目的言語構成情報を選択する、ことを特徴とする。
【0010】
請求項5に記載の発明は請求項3または4に記載の発明において、前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の語彙体系と前記目的言語情報とを関連づけた情報を含み、前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列と、前記語彙体系と前記目的言語とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択する、ことを特徴とする。
【0011】
請求項6に記載の発明は請求項3から5のいずれかに記載の発明において、前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の用例情報と前記目的言語構成情報を関連づけた情報を含み、前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列と、前記用例情報と前記目的言語構成情報とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択する、ことを特徴とする。
【0012】
請求項7に記載の発明は請求項1から6のいずれかに記載の発明において、前記評価情報は前記複数の原言語構成情報のいずれかに適合する原言語の例文とそれぞれ前記複数の目的言語構成情報のいずれかに適合する目的言語の例文とからなる複数の対訳例文を含み、前記目的言語構成情報選択手段は、前記選択された原言語構成情報に適合する前記例文と、前記選択された原言語構成情報に対応する目的言語構成情報に適合する前記例文とからなる対訳例文の数に基づいて、1つの前記目的言語構成情報を選択する、ことを特徴とする。
【0013】
請求項8に記載の発明は翻訳装置であって、原言語で入力された文である入力文を取得する入力文取得手段と、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、前記原言語構成情報のいずれかと前記目的言語情報のいずれかとに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段と、前記選択された目的言語構成情報と、当該目的言語構成情報に対応する前記選択された原言語構成情報と、に基づいて、前記入力文の翻訳文を出力する翻訳文出力手段と、を含むことを特徴とする。
【0014】
請求項9に記載の発明は、原言語で入力された文である入力文を取得する入力文取得手段、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段、前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、前記原言語構成情報と前記目的言語構成情報とに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段、としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0015】
請求項1,9に記載の発明によれば、原言語構成情報および目的言語構成情報に関連づけられた評価情報を用いない場合に比べて、入力文の特性をより反映した目的言語構成情報を選択することができる。
【0016】
請求項2に記載の発明によれば、本構成を有しない場合より、入力文により適合する目的言語構成情報を選択することができる。
【0017】
請求項3に記載の発明によれば、入力文の文字列の属性により目的言語構成情報が異なる場合に、入力文に適合する目的言語構成情報を選択することができる。
【0018】
請求項4に記載の発明によれば、入力文の句の品詞により目的言語構成情報が異なる場合に、入力文に適合する目的言語構成情報を選択することができる。
【0019】
請求項5に記載の発明によれば、入力文の句の語彙体系により翻訳の仕方が異なる場合に、入力文に適合する原言語構成情報を選択することができる。
【0020】
請求項6に記載の発明によれば、原言語構成情報の可変項目に対応する入力文の句により翻訳の仕方が異なる場合に、入力文に適合する目的言語構成情報を選択することができる。
【0021】
請求項7に記載の発明によれば、原言語構成情報と目的言語構成情報の組み合わせに適合する対訳例文の数がその組み合わせにより異なる場合に、入力文に適合する目的言語構成情報を選択することができる。
【0022】
請求項8に記載の発明によれば、原言語構成情報および目的言語構成情報に関連づけられた評価情報を用いない場合に比べて、入力文の特性をより反映した翻訳をすることができる。
【図面の簡単な説明】
【0023】
【図1】本発明の実施形態に係る翻訳装置の構成の一例を示す図である。
【図2】本発明の実施形態に係る翻訳装置が実現する機能を示す機能ブロック図である。
【図3】原言語による入力文が対訳例文パターンにより翻訳される例を示す図である。
【図4】1つの例文パターンのデータ構造を示す図である。
【図5】対訳例文パターンの一例を示す図である。
【図6】原言語構成情報選択部の処理フローの一例を示す図である。
【図7】距離計算部の処理フローの一例を示す図である。
【図8】距離計算部の計算過程の例を示す図である。
【図9A】写像抽出部の処理フローの一例を示す図である。
【図9B】写像抽出部の処理フローの一例を示す図である。
【図9C】写像抽出部の処理フローの一例を示す図である。
【図10】選択された原言語構成情報に対し複数の対訳例文パターンが存在する場合の対訳例文パターンの一例を示す図である。
【図11】目的言語構成情報選択部の処理フローの一例を示す図である。
【図12A】第1の評価尺度での評価値を計算する処理フローを示す図である。
【図12B】第2の評価尺度での評価値を計算する処理フローを示す図である。
【図12C】第3の評価尺度での評価値を計算する処理フローを示す図である。
【図12D】第4の評価尺度での評価値を計算する処理フローを示す図である。
【図12E】第5の評価尺度での評価値を計算する処理フローを示す図である。
【図13】語彙体系の例を示す図である。
【図14】対訳例文の例を示す図である。
【図15】図11に示す候補から目的言語例文パターンを選択する過程の例を説明する図である。
【図16】第4の評価尺度の計算で生成される訳文の一例を示す図である。
【発明を実施するための形態】
【0024】
以下、本発明の実施形態について図面に基づき詳細に説明する。図1は、本発明の実施形態に係る翻訳装置1の構成の一例を示す図である。同図に示すように、翻訳装置1は、CPU11と、記憶部12と、通信部13と、入出力部14とを含んでいる。翻訳装置1は例えばパーソナルコンピュータやサーバなどによって構成されている。
【0025】
CPU11は、記憶部12に格納されているプログラムに従って動作する。なお、上記プログラムは、CD−ROMやDVD−ROM等の情報記録媒体に格納されて提供されるものであってもよいし、インターネット等のネットワークを介して提供されるものであってもよい。
【0026】
記憶部12は、RAMやROM等のメモリ素子およびハードディスクドライブ等によって構成されている。記憶部12は、上記プログラムを格納する。また、記憶部12は、各部から入力される情報や演算結果を格納する。
【0027】
通信部13は、他の装置と通信接続するための通信手段等で構成されている。通信部13は、CPU11の制御に基づいて、他の装置から受信した情報をCPU11や記憶部12に入力し、他の装置に情報を送信する。
【0028】
入出力部14は、モニタ等の表示出力手段と、キーボード、マウス等の入力手段とを制御する手段などによって構成されている。入出力部14は、CPU11の制御に基づいて、画像データ等をモニタ等に対して出力し、キーボードやマウスより操作者からの情報を取得する。
【0029】
図2は、本発明の実施形態に係る翻訳装置1が実現する機能を示す機能ブロック図である。翻訳装置1は機能的に、入力文取得部51と、形態素解析部52と、原言語構成情報候補検索部53と、原言語構成情報選択部54と、目的言語構成情報選択部55と、翻訳文出力部56と、辞書部57と、を含む。原言語構成情報選択部54は、機能的に距離計算部61と、写像抽出部62と、最適写像選択部63と、を含む。これらの機能はCPU11が記憶部12に格納されたプログラムを実行し、通信部13および入出力部14を制御することによって実現される。
【0030】
ここで、本実施形態にかかる翻訳装置1は、対訳情報を用いて翻訳を行う。対訳情報は、原言語の文のパターンを示す原言語例文パターンと、翻訳の目的となる目的言語の文のパターンを示す目的言語例文パターンと、を含む対訳例文パターンを含む。図3は、原言語による入力文が対訳例文パターンにより翻訳される例を示す図である。対訳例文パターンの記載で[v]としている部分は、それに該当する1または複数の単語が可変である可変項目を示す。図3の例は、入力文として「彼は電車に乗る。」が入力されると、翻訳文として、図3の翻訳文に示される文が得られることを示している。その過程では、翻訳装置1はその入力文に適合する原言語例文パターンである「[v]は[v]に乗る。」を含む最適な対訳例文パターンを検索し、その対訳例文パターンの目的言語例文パターンである「[v]坐[v]」の[v]の部分に、原言語例文パターンの[v]に該当する入力文の単語を翻訳した言葉を当てはめて翻訳文を得ている。このような翻訳の手法をパターンベース翻訳という。原言語例文パターンおよび目的言語例文パターンのどちらも、可変となる文字列と固定的な文字列との組み合わせを用いて文を表現する点は変わらないので、以下ではまとめて例文パターンと呼ぶ。
【0031】
翻訳装置1のうち、入力文取得部51と、形態素解析部52と、原言語構成情報候補検索部53と、原言語構成情報選択部54と、目的言語構成情報選択部55と、は上述の対訳例文パターンを検索する処理を行っている。これらにより構成される部分を対訳情報検索装置として利用してもよい。
【0032】
図4は1つの例文パターンのデータ構造を示す図である。例文パターンは、ある言語の文の構成を示す情報である。例文パターンは、それぞれがその文を構成する文字列のうち1または複数の文字列に対応する複数の項目を含んでおり、その項目は、固定項目と可変項目とに分けられる。固定項目は、文の対応する文字列として、その固定項目ごとに定められた固定的な文字列である固定文字列を示し、可変項目は、文の対応する文字列として、文字数を含めて可変の文字列を示す。なお、上述の文字列は、複数の単語からなる句または1つの単語を表す。1つの例文パターンは、1または複数の固定項目と、1または複数の可変項目とを含んでいる。そして、本図では固定項目や可変項目は、文の先頭に対応させるものから順に並んでいる。
【0033】
可変項目は、位置情報と、タイプ情報と、変数情報と、語彙体系情報と、用例情報と、を含む。固定項目は、位置情報と、タイプ情報と、固定内容と、品詞情報と、サブ構造情報とを含む。位置情報は固定項目と可変項目との両方に含まれており、文の中で表れる順番を通番で示す。タイプ情報は可変項目か固定項目かを示す情報であり、固定項目であれば「f」、可変項目であれば「v」となる。変数情報は可変項目の品詞を示す情報であり、例えば、「NP」であれば名詞の変数であることを、「AP」であれば形容詞の変数であることを、「DP」であれば副詞の変数であることを示す。語彙体系情報は、可変項目に入る単語の語彙体系を示す情報である。用例情報は例文パターンの可変項目に入る単語の用例を示す情報である。固定内容は固定項目の文字列を示す情報であり、品詞情報は固定項目に設定される単語の品詞を示す情報である。例えば品詞情報が「61」ならその固定項目が格助詞であることを示す。サブ構造情報は固定項目が複数の単語で構成される場合に、そのそれぞれの単語の情報を示す。
【0034】
ここで、例文パターンのなかで最も特徴的である情報である、可変項目の存在を示す情報と、固定項目の固定内容の情報とを言語構成情報と呼ぶ。具体的には可変項目の位置情報およびタイプ情報と、固定項目の位置情報、タイプ情報および固定内容とに対応する。以下では原言語例文パターンに含まれる言語構成情報を原言語構成情報と、目的言語例文パターンに含まれる言語構成情報を目的言語構成情報と呼ぶ。
【0035】
図5は、対訳例文パターンの一例を示す図である。対訳例文パターンは、原言語例文パターンと、目的言語例文パターンと、アライメント情報とを含む。本図に示す例文パターンでは、固定項目および可変項目どうしの区切りをスペースで、固定項目および可変項目に含まれる情報間の区切りを「/」で示している。また、図5では位置情報は固定項目および可変項目の並び順により表し、個々の可変項目や固定項目の中には記していない。例えば、原言語例文パターンの1番目の項目の「v/NP/人/」はその項目が可変項目であり、可変項目は品詞が名詞の変数であり、語彙体系は「人」であり、用例は設定されていないことを示し、原言語例文パターンの5番目の項目の「f/改選する/89/属性変化[改選/17/する/47/]」は、その項目が固定項目であり、文字列が「改選する」であり、それがサ変動詞(89)でありサブ構造として、「改選」と「する」からなり属性変化していることを示している。
【0036】
アライメント情報は、原言語の可変項目と目的言語の可変項目との対応関係、および原言語の固定項目と目的言語の固定項目との対応関係を示す言語間対応情報である。図5では、「3:」は対応付けが3つあることを示し、「1−1;」は原言語例文パターンの1番目の項目と目的言語例文パターンの1番目の項目とが対応していることを示し、「501,502−2;」原言語例文パターンの5番目の項目の1番目のサブ項目と2番目のサブ項目とは、目的言語例文パターンの2番目の項目に対応することを示す。ここで「501」は原言語例文パターンの5番目の項目の1番目のサブ項目を示している。
【0037】
辞書部57は、CPU11、記憶部12を中心として実現される。辞書部57は、複数の対訳例文パターン、単語辞書、例文対訳辞書、等を記憶する。
【0038】
以下では上述の対訳例文パターンを用いて翻訳を行う処理をより具体的に説明する。入力文取得部51は、CPU11、記憶部12、通信部13、入出力部14を中心として実現される。入力文取得部51は、入出力部14を介して取得するキーボードの操作情報や、記憶部12から取得する情報、またはネットワークを介して接続されたクライアントから受信した情報から、原言語で入力された文である入力文の情報を取得する。
【0039】
形態素解析部52は、CPU11、記憶部12を中心として実現される。形態素解析部52は入力文を形態素解析し、入力文を構成する複数の単語とそれらの単語の品詞情報とを取得する。例えば、「彼は電車に乗る」を形態素解析すると、形態素解析部52は「彼」、「は」、「電車」、「に」、「乗る」の5つの単語を取得し、それぞれの単語について「名詞」、「格助詞」、「名詞」、「格助詞」、「動詞」といった品詞情報も取得する。
【0040】
原言語構成情報候補検索部53は、CPU11、記憶部12を中心として実現される。原言語構成情報候補検索部53は、辞書部57に記憶されている複数の対訳例文パターンから、候補となる原言語構成情報を検索する。次の原言語構成情報選択部54はこれらの候補から原言語構成情報を選択する。なお、原言語構成情報の候補を検索すれば、その原言語構成情報を含む原言語例文パターンおよびその原言語例文パターンを含む対訳例文パターンも特定される。
【0041】
上述の検索処理をより具体的に記すと、原言語構成情報候補検索部53は、入力文と原言語構成情報の固定項目との類似度Simと、カバー率Covとがそれぞれある閾値を超えた原言語構成情報を候補として検索する。原言語構成情報候補検索部53は、入力文の文字列のBi−gram(S)と、原言語構成情報の文字列のBi−gram(A)とを求め、それらにより類似度Simおよびカバー率Covを計算する。類似度Simおよびカバー率Covは以下の式で求められる。
【0042】
Sim=(2×|S∩A|)/(|S|+|A|)
【0043】
Cov=|S∩A|/|S|
【0044】
ここで、|S|は入力文の文字列に含まれるBi−gramの数であり、|A|は、原言語構成情報の文字列のBi−gramの数であり、|S∩A|は、入力文と原言語構成情報とで共通するBi−gramの数である。
【0045】
原言語構成情報選択部54は、CPU11、記憶部12を中心として実現される。原言語構成情報選択部54は、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む原言語構成情報のうちから、その入力文に対応する原言語構成情報を選択する。より具体的には、原言語構成情報候補検索部53が検索した複数の原言語構成情報の候補から、入力文に最も近い原言語構成情報を選択し、さらに入力文に含まれる文字列と原言語構成情報の可変項目および固定項目との対応関係を示す写像情報を取得する。なお、原言語構成情報を選択すると、その原言語構成情報を含む原言語例文パターンや例文対訳パターンも実質的に選択される。なお、入力文に最も近い原言語構成情報が複数ある場合などは、原言語構成情報選択部54は複数の原言語構成情報を選択してもよい。
【0046】
図6は、原言語構成情報選択部54の処理フローの一例を示す図である。はじめに、原言語構成情報選択部54に含まれる距離計算部61は、各候補となる原言語構成情報と、入力文との距離を求める(ステップS101)。この処理は、原言語構成情報選択部54に含まれる距離計算部61が行う。以下ではステップS101の処理について距離計算部61のフローを示しながら説明する。
【0047】
距離計算部61は、CPU11、記憶部12を中心として実現される。図7は距離計算部61の処理フローの一例を示す図である。図7では、入力文と候補となる1つの原言語構成情報との距離を計算する処理フローのみを示す。実際にはこれらの処理は、候補となる原言語構成情報の数だけ繰り返される。距離計算部61は、はじめに、形態素解析部52により分割された入力文の単語(その数をmとする)を、順にデータ列s1〜smに格納する(ステップS111)。次に、候補となる1つの原言語構成情報の可変項目および固定項目(それらをあわせた数をnとする)のそれぞれについて、可変項目であるか否かの情報および固定項目の場合の固定内容の文字列の情報を位置情報の小さいものから順にデータ列a1〜anに格納する(ステップS112)。なお、以下ではs0およびa0も登場するが、これらは入力文および原言語構成情報の先頭であることを示し、これらは空文字列に相当する。
【0048】
入力文と原言語構成情報との距離は、入力文の各単語と原言語構成情報の可変項目および固定項目との間の対応関係に依存するものとする。入力文と原言語構成情報との距離は、その入力文と原言語構成情報との間で存在しうる複数の対応関係のそれぞれについて求められる変換重みのなかで最小なものを距離とする。ある対応関係における変換重みは、可変項目および固定項目とそれに対応する単語との重みや、単語と項目が対応しない場合の重みを積算したものである。より具体的には、例えば、ai(iは1からn)がsj(jは1からm)と対応するとした場合に、aiとsjとが同じ単語であれば編集が不要なので編集重みが0、aiとsjとが異なる単語であれば置換が必要なので編集重みがp、aiに対応するsjが無ければ入力文に単語の挿入が必要なので編集重みがq、反対にsjに対応するaiが無ければ入力文から単語の削除が必要なので編集重みがrであるとして求められる重みを積算する。ここで、p、q、rは正の定数である。また、対応関係については、原言語構成情報も入力文の単語も並び順が破壊されないという条件と、可変項目は入力文の複数の単語に対応しうるという条件を満たすものとする。前者の条件の例は、例えばaiとsjとが対応する場合、a(i+1)とs(j−1)とは対応することはないといったことである。後者の条件は可変項目が複数の単語からなる句であってもよいことから生じる。前者の条件から、原言語構成情報のうちa1からaiと入力文のうちs1からsjとの間での全ての対応関係における最小の距離d(i,j)は、d(i−1,j−1)、d(i−1,j)、d(i,j−1)の全てと、aiとsjとの関係がわかれば求められる。以下では上述の法則を利用した計算方法について説明する。
【0049】
距離計算部61は、距離の値が格納され、(n+1)×(m+1)の2次元配列dと、d(i−1,j−1)、d(i−1,j)、d(i,j−1)のうちどれを用いて計算するとd(i,j)が最小の距離となるかを示すn×mの配列PathFlagとを初期化する(ステップS113)。配列dは、d(0,0)からd(n,m)まであり、d(i,j)は部分文字列a1
a2…aiとs1 s2…sj間の距離を表す。d(i,0)にはi×qが、d(0,j)にはj×rが代入される。配列PathFlagはPathFlag(1,1)からPathFlag(n,m)まである。次に、変数iおよびjに1を代入し(ステップS114)、繰返し処理をはじめる。距離計算部61は、a1からaiとs1からsjとの間での最小の距離d(i,j)を求め、d(i−1,j−1)、d(i−1,j)、d(i,j−1)のうちどれを用いて計算すると最小となるかをPathFlag(i,j)に格納する(ステップS115)。d(i,j)は以下の方法で計算される。
【0050】
aiが可変項目の場合:
d(i,j)=min{d(i−1,j−1)+w(ai,sj),d(i−1,j)+q,d(i,j−1)}
【0051】
aiが固定項目の場合:
d(i,j)=min{d(i−1,j−1)+w(ai,sj),d(i−1,j)+q,d(i,j−1)+r}
【0052】
ここで、w(ai,sj)は、aiが可変項目の場合は、例えば0であり、aiが固定項目であれば例えばaiとsjとが等しければ0、等しくなければpである。また、d(i−1,j−1)、d(i−1,j)、d(i,j−1)のうち距離が最小となるものが複数ある場合は、その全ての情報をPathFlag(i,j)に格納する。
【0053】
次に距離計算部61はjを1増やし(ステップS116)、jがm以下であれば(ステップS117のY)ステップS115から繰り返す。jがm以下でなければ(ステップS117のN)iを1増やし(ステップS118)、iがn以下か判定する(ステップS119)。iがn以下であれば(ステップS119のY)、ステップS115から繰り返す。iがn以下でなければ(ステップS119のN)、距離としての変数d(n,m)と配列PathFlagとを原言語例文パターンに関連づけて記憶し(ステップS120)、処理を終了する。
【0054】
図8は、距離計算部の計算過程の例を示す図である。図8の表の各セルの値は配列dの各セルの値を表し、矢印は左上、左、上のうちどのセルから計算すると距離が最小となるかを表している。この例では、入力文が「私は富士ゼロックスの社員です」、原言語構成情報の候補が、「[v]は[v]です」である場合について最小の距離を計算した例を示している。ここで、この例ではp=q=r=1としている。この表によれば、配列PathFlagが最小の距離を計算する場合の入力文の単語と、可変項目および固定項目との関係を示すことがわかる。
【0055】
ステップS101の処理により原言語構成情報の各候補と入力文との距離が求められると、原言語構成情報選択部54は原言語構成情報の候補のうちから距離が最小となる原言語構成情報を選択する(ステップS102)。ここで、選択される原言語構成情報は、必ずしも1つとは限らない。仮に距離が最小となる原言語構成情報の種類が1つであったとしても、例えば原言語構成情報が同じである複数の対訳例文パターンが存在する場合には、その対訳例文パターンの数の原言語構成情報が選択されてよい。
【0056】
次に、原言語構成情報選択部54は、選択された原言語構成情報の固定項目および可変項目の各項目と入力文の文字列との対応関係(以下最小写像と呼ぶ)を求める(ステップS103)。ステップS103の処理は、原言語構成情報選択部54に含まれる写像抽出部62が行う。以下では写像抽出部62の処理フローとともにこの処理内容について説明する。
【0057】
写像抽出部62は、CPU11、記憶部12を中心として実現される。図9Aから9Cは写像抽出部62の処理フローの一例を示す図である。はじめに、写像抽出部62は、選択された原言語構成情報に関連づけて記憶された配列PathFlagを取得し、さらにその原言語構成情報に含まれる可変項目および固定項目の情報をそれぞれ位置情報の順に格納したデータ列a1〜anを取得する(ステップS131)。この可変項目および固定項目の情報は具体的には、可変項目であるか否かの情報および固定項目の場合の固定内容の文字列の情報である。次に、選択された原言語構成情報の各可変項目および固定項目に対応する1または複数の単語を記憶するn個のリストからなる配列Matを初期化し、(n,m)と、0と、配列Matをスタックにpushする(ステップS132)。
【0058】
次に、写像抽出部62はスタックからpopし、値を変数組(i,j)と、変数uと、配列Matとに格納する(ステップS133)。変数組(i,j)が(0,0)であれば(ステップS134のY)、最小写像が求まっているので最小写像のリストFsetに配列Matを追加し(ステップS135)、残りのスタックがあれば(ステップS136のY)再びステップS133から繰り返す。残りのスタックが無ければ(ステップS136のN)処理は終了する。ステップS134で変数組(i,j)が(0,0)でない場合は(ステップS134のN)、変数iが0であるか判定する(ステップS137)。変数iが0であれば(ステップS137のY)、入力文のj番目の単語は脱落しているのでMat(0)のリストにその単語を追加し(ステップS138)、変数組(i,j−1)と、0と、配列Matをpushし(ステップS139)、ステップS133の処理から繰り返す。
【0059】
ステップS137で変数iが0でなければ(ステップS137のN)、aiが固定項目か判定する(ステップS140)。aiが固定項目であれば(ステップS140のY)、PathFlag(i,j)について判定を行う(ステップS141)。PathFlag(i,j)が、d(i,j)をd(i−1,j−1)から求めたことを示せば(ステップS141のY)、Mat(i)のリストにj番目の単語を追加し(ステップS142)、変数組(i−1,j−1)と、0と、配列Matをpushする(ステップS143)。以下ではPathFlag(i,j)が、d(i,j)をd(i−1,j−1)から求めたことを示すことを「(i−1,j−1)経由」と記載する。またd(i,j−1)やd(i−1,j)の場合はそれぞれ「(i,j−1)経由」、「(i−1,j)経由」と記す。ステップS141で(i−1,j−1)経由でない場合(ステップS141のN)およびステップS143の処理後は、PathFlag(i,j)が(i,j−1)経由か判定する(ステップS144)。(i,j−1)経由であれば(ステップS144のY)、挿入であるのでMat(i)のリストにj番目の単語を追加し(ステップS145)、変数組(i,j−1)と、0と、配列Matをpushする(ステップS146)。ステップS141で(i,j−1)経由でない場合(ステップS144のN)およびステップS146の処理後は、ステップS153の処理に移る。次に、ステップS140でaiが可変項目であれば(ステップS140のN)、PathFlag(i,j)について(i−1,j−1)経由か判定する(ステップS147)。(i−1,j−1)経由であれば(ステップS147のY)、Mat(i)のリストにj番目から(j+u)番目の単語を追加し(ステップS148)、変数組(i−1,j−1)と、0と、配列Matをpushする(ステップS149)。ステップS147で(i−1,j−1)経由でない場合(ステップS147のN)およびステップS149の処理後は、PathFlag(i,j)が(i,j−1)経由か判定する(ステップS150)。(i,j−1)経由であれば(ステップS150のY)、uを1増やし(ステップS151)、変数組(i,j−1)と、変数uと、配列Matをpushする(ステップS152)。ステップS150で(i,j−1)経由でない場合(ステップS150のN)およびステップS152の処理後は、ステップS153の処理に移る。
【0060】
ステップS153ではPathFlag(i,j)が(i−1,j)経由か判定する。(i−1,j)経由であれば(ステップS153のY)、脱落であるので、Mat(i)のリストを空にし(ステップS154)、変数組(i−1,j)と、0と、配列Matをpushする(ステップS155)。ステップS153で(i−1,j)経由でない場合(ステップS153のN)およびステップS155の処理後は、ステップS133の処理から繰り返す。これらの処理により、写像のリストFsetが取得される。なお、スタックを使うことにより、写像が複数ある場合でもそれらが求められる。
【0061】
ステップS103の処理で写像が求められた後では、原言語構成情報選択部54は写像が複数あるか確認し、複数の写像がある場合には、それらの写像から1つの写像を選択する(ステップS104)。ステップS104の処理は、最適写像選択部63が行う。最適写像選択部63は、CPU11、記憶部12を中心として実現される。最適写像選択部63は、写像が複数ある場合に、各写像について、可変項目の単語により構成される句を、いくつかの基準により評価し、それらの評価を総合的に判断して1つの写像を選択する。その評価の基準としては、例えば、その句が辞書に存在するか、その句に動詞、助詞、助動詞が含まれるか、などがある。
【0062】
目的言語構成情報選択部55は、CPU11、記憶部12を中心として実現される。目的言語構成情報選択部55は、選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれがその文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、原言語構成情報と目的言語構成情報とに関連づけられる評価情報に基づいて選択する。ここで、評価情報は、対訳例文パターンのうち原言語構成情報の部分を除いた部分を示す。対訳例文パターンは原言語例文パターンと目的言語例文パターンを含むので、それによって原言語目的情報および目的言語情報と関連づけられている。また、原言語例文パターンにおける可変項目の変数情報(品詞情報)や語彙体系や用例情報、そして対訳例文パターンにおける言語間対応情報や対訳例文情報なども原言語構成情報に関連づけられている。可変項目の変数情報(品詞情報)や語彙体系や用例情報は可変項目の属性を示す情報である。なお、目的言語構成情報を選択することは、実質的に目的言語例文パターンも選択することおよび対訳例文パターンも選択することと同じである。
【0063】
目的言語構成情報選択部55は、選択された原言語構成情報を含む複数の目的言語情報および対訳例文パターンが存在する場合に、選択された原言語構成情報に対応する複数の目的言語構成情報から1つの目的言語構成情報および対訳例文パターンを選択する。図10は、選択された原言語構成情報に対し複数の対訳例文パターンが存在する場合の対訳例文パターンの一例を示す図である。本図の例では、入力文として、「彼は電車に乗る」が与えられ、「[v]は[v]に乗る」という原言語構成情報([v]は可変項目を示す)が選択された場合に、その原言語構成情報を含む3つの対訳例文パターンが存在することを示している。1つ目は、人が乗り物に座って乗る意味の場合の対訳例文パターンであり、2つ目は、人が調子やリズムに乗るような意味の場合の対訳例文パターンであり、3つ目は、人が動物などにまたがって乗る意味の場合の対訳例文パターンである。本図では理解の容易のため、アライメント情報を示す代わりに、原言語例文パターンおよび目的言語例文パターンの可変情報の変数情報に共通の数字をつけることにより、原言語例文パターンと目的言語例文パターンとの間での可変項目の対応関係を示している。他の表記は、対訳例文パターンのデータ構造を説明した図5の例と同じ表記法である。
【0064】
目的言語構成情報選択部55は、選択された原言語構成情報を含む対訳例文パターンのセットを取得し、その対訳例文パターンのそれぞれについて、5つの評価尺度のそれぞれでの評価値Sep1からSep5を計算し、それらの値に重み付けして和を取った総合評価値SepPに基づいて対訳例文パターンを選択する。図11は、目的言語構成情報選択部55の処理フローの一例を示す図である。また、図12Aから図12Eは、順に、第1の評価尺度での評価値Sep1を計算する処理フロー、第2の評価尺度での評価値Sep2を計算する処理フロー、第3の評価尺度での評価値Sep3を計算する処理フロー、第4の評価尺度での評価値Sep4を計算する処理フロー、第5の評価尺度での評価値Sep5を計算する処理フローを示す図である。なお、図12Aから図12Dは1つの対訳例文パターンに対する処理のみを記載している。第1から第3の評価尺度における評価値Sep1からSep3を計算する処理については、目的言語構成情報選択部55は原言語構成情報の可変項目に対応する入力文の文字列の属性と、原言語構成情報に含まれる可変項目の属性と目的言語構成情報とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択するといえる。
【0065】
第1の評価尺度における評価値Sep1の計算(ステップS171)について説明する。目的言語構成情報選択部55は、入力文の単語の品詞情報と選択された原言語構成情報に含まれる可変項目の品詞と目的言語情報とを関連づけた情報に基づいて、1つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部55は、ある対訳例文パターンに含まれる原言語例文パターンの可変項目(その数をhとする)の情報を取得し、SP1からSPhに格納し、各可変項目の処理結果を記憶する変数FS1〜FShを初期化する(ステップS211)。次に、SP1からSPhのそれぞれに対応する入力文の文字列(1または複数の単語)から中心単語を取得し、変数SW1からSWhに格納する(ステップS212)。ここで、中心単語は、可変項目に対応する1または複数の単語のうち、他の固定項目や可変項目との繋がりが生じる1つの単語であり、日本語では最後の単語である。次に、目的言語構成情報選択部55は、変数iに1を代入する(ステップS213)。
【0066】
目的言語構成情報選択部55は、可変項目のうちi番目のものであるSPiに品詞集合の情報(変数情報)が設定されているか確認し(ステップS214)、設定されていなければ(ステップS214のN)変数FSiに1を代入し(ステップS215)、設定されていれば(ステップS214のY)、その品詞集合にSWiの品詞が含まれているか判断する(ステップS216)。ここで、SWiの品詞は形態素解析部52の処理結果から取得する。SWiの品詞が含まれていれば(ステップS216のY)、変数FSiに1を代入し(ステップS215)、含まれていなければ(ステップS216のN)、変数FSiに0を代入する(ステップS217)。変数FSiに何らかの値を代入したら変数iを1増やし(ステップS218)、iの値がh以下なら(ステップS219のY)ステップS214から繰り返す。iの値がhを超えたら(ステップS219のN)、FS1からFShの平均を取得し、それをこの対訳例文パターンにおける第1の評価尺度での評価値Sep1とする(ステップS220)。ステップS211からステップS220の処理は、選択された対訳例文パターン全てに対して行われる。
【0067】
例えば図10の例で、入力文として「彼は電車に乗る」が取得された場合には、原言語構成情報の可変項目に対応する単語である「彼」および「電車」はどちらも名詞であり、対訳例文パターン1から3のどれもそれらの可変項目は名詞の変数とされているので、評価値Sep1は1となる。
【0068】
第2の評価尺度における評価値Sep2の計算(ステップS172)について説明する。目的言語構成情報選択部55は、原言語構成情報の可変項目に対応する入力文の文字列と、語彙体系と目的言語とを関連づけた情報とに基づいて、1つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部55は、ある対訳例文パターンに含まれる原言語例文パターンの可変項目(その数をhとする)の情報をSP1からSPhに格納し、変数FS1〜FShを初期化する(ステップS231)。次に、SP1からSPhのそれぞれに対応する入力文の文字列(1または複数の単語)から中心単語を取得し、変数SW1からSWhに格納する(ステップS232)。次に、目的言語構成情報選択部55は、変数iに1を代入する(ステップS233)。
【0069】
目的言語構成情報選択部55は、可変項目のうちi番目のものであるSPiに語彙体系情報が設定されているか確認し(ステップS234)、設定されていなければ(ステップS234のN)変数FSiに1を代入し(ステップS235)、設定されていれば(ステップS234のY)、その語彙体系が示す語彙体系にSWiの単語が含まれているか判断する(ステップS236)。SWiがその語彙体系に含まれていれば(ステップS236のY)、変数FSiに1を代入し(ステップS235)、含まれていなければ(ステップS236のN)、変数FSiに0を代入する(ステップS237)。変数FSiに何らかの値を代入したら変数iを1増やし(ステップS238)、iの値がh以下なら(ステップS239のY)ステップS234から繰り返す。iの値がhを超えたら(ステップS239のN)、FS1からFShの平均を取得し、それをこの対訳例文パターンにおける第2の評価尺度での評価値Sep2とする(ステップS240)。ステップS231からステップS240の処理は、選択された対訳例文パターン全てに対して行われる。
【0070】
図13は、語彙体系の例を示す図である。例えば図10の例で、入力文として「彼は電車に乗る」が取得された場合には、原言語構成情報の可変項目の1番目に対応する単語である「彼」は人物の語彙体系に含まれ、2番目に対応する「電車」は図13に示すように「乗り物」の語彙体系に含まれる。よって、それらの語彙体系の情報が設定されている対訳例文パターン1と3では評価値Sep2は1であり、前者に対する「人物」の語彙体系情報のみが設定されている対訳例文パターンでは評価値Sep2は0,5となる。
【0071】
第3の評価尺度における評価値Sep3の計算(ステップS173)について説明する。目的言語構成情報選択部55は、原言語構成情報の可変項目に対応する入力文の文字列と、前記用例情報と前記目的言語構成情報とを関連づけた情報とに基づいて、1つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部55は、ある対訳例文パターンに含まれる原言語例文パターンの可変項目(その数をhとする)の情報をSP1からSPhに格納し、変数FS1〜FShを初期化する(ステップS251)。次に、SP1からSPhのそれぞれに対応する入力文の文字列(1または複数の単語)から中心単語を取得し、変数SW1からSWhに格納する(ステップS252)。次に、目的言語構成情報選択部55は、変数iに1を代入する(ステップS253)。
【0072】
目的言語構成情報選択部55は、SPiの用例情報が設定されているか確認し(ステップS254)、用例情報が設定されていなければ(ステップS254のN)、変数FSiに1を代入する(ステップS255)。用例情報が設定されていれば(ステップS254のY)、SPiの用例情報から用例の集合SPEを取得する(ステップS256)。次に目的言語構成情報選択部55はSWiとSPEとの類似度SimWを計算し、変数FSiに格納する(ステップS256)。SimWを求める際には、まず用例の集合に含まれる個々の用例の単語とSWiとの類似度Simを求める。この類似度Simは、例えばSWiのBi−gramと、用例の単語の文字列のBi−gramとから原言語構成情報候補検索部53と同じ計算方法で求められる。用例の集合に含まれる個々の用例の数をtとし、j番目の用例とSWiとの類似度をSim(j)とすると、以下の式で求められる。
【0073】
SimW=max{sim(1),sim(2),…,sim(t)}
【0074】
なお、SimWは以下の式で求めてもよい。
【0075】
SimW={sim(1)+sim(2)+…+sim(t)}/t
【0076】
変数FSiに何らかの値をセットしたら変数iを1増やし(ステップS258)、iの値がh以下なら(ステップS259のY)ステップS254から繰り返す。iの値がhを超えたら(ステップS259のN)、FS1からFShの平均を取得し、それをこの対訳例文パターンにおける第3の評価尺度での評価値Sep3とする(ステップS260)。ステップS251からステップS260の処理は、選択された対訳例文パターン全てに対して行われる。
【0077】
第4の評価尺度における評価値Sep4の計算(ステップS174)について説明する。目的言語構成情報選択部55は、選択された原言語構成情報と言語間対応情報とを用いて生成した翻訳文の生成確率に基づいて、1つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部55は、ある対訳例文パターンに含まれる原言語例文パターンの可変項目(その数をhとする)のそれぞれに対応する入力文の文字列(1または複数の単語)から中心単語を取得し、配列SW1からSWhに格納する(ステップS271)。
【0078】
次に目的言語構成情報選択部55は、辞書部57に記憶される単語辞書を用いて、SW1からSWhのそれぞれの訳語リストを求め、それぞれTW1からTWhに格納する(ステップS272)。ここで、単語辞書は原言語と目的言語とで1対多の関係を持ちうる。よって、TW1からTWhのそれぞれは複数の訳語を含んでよい。目的言語構成情報選択部55は、TW1からTWhの訳語リストのそれぞれから1つの訳語を選択する全ての組み合わせを求める(ステップS273)。これは、目的言語の可変項目に代入する訳語の組み合わせを求めることに相当する。そして、各組み合わせに含まれる訳語のそれぞれを、目的言語例文パターンの可変項目のうち対応するものに代入し、固定項目とあわせて訳文を生成する(ステップS274)。可変項目の訳語は中心単語の訳語のみであり、この訳文は本来の翻訳文より簡易的なものである。そして、各組み合わせについて生成された訳文のそれぞれについて、単語のNグラムモデルを用いて、訳文の生成確率を生成する(ステップS275)。その生成確率のうち最大のものをこの対訳例文パターンにおける第4の評価尺度での評価値Sep4とする(ステップS276)。ステップS271からステップS276の処理は、選択された対訳例文パターン全てに対して行われる。
【0079】
図10の例で、入力文として「彼は電車に乗る」が取得された場合には、対訳例文パターン1、対訳例文パターン2、対訳例文パターン3により生成される訳文は、図16に示すようになる。なお、Nグラムモデルにおける(N−1)個の単語からN個目の単語の出現確率を示す情報は、辞書部57に記憶されている。
【0080】
第5の評価尺度における評価値Sep5の計算(ステップS175)について説明する。ここでは、評価情報として、原言語例文パターンと目的言語例文パターンとの対応関係だけでなく、辞書部57に記憶された例文対訳辞書も用いる。例文対訳辞書は複数の対訳例文を含む。個々の対訳例文は、複数の原言語構成情報のいずれかに適合する原言語の例文と複数の目的言語構成情報のいずれかに適合する目的言語の例文とからなる。図14は、対訳例文の例を示す図である。対訳例文に含まれる原言語の例文および目的言語の例文は文字列であり、形態素解析の結果の情報は含まなくてよい。また対訳例文と原言語構成情報や目的言語構成情報との関連について、予め記憶してもよい。
【0081】
目的言語構成情報選択部55は、選択された原言語構成情報に適合する原言語の例文と、選択された原言語構成情報に対応する目的言語構成情報に適合する目的言語の例文とからなる対訳例文の数に基づいて、1つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部55は、選択された原言語構成情報を含む対訳例文パターンのセットのうちから、順に1つの対訳例文パターンを取得する(ステップS291)。次に、例文対訳辞書から、選択された原言語構成情報に適合する原言語の例文を含む対訳例文の集合BSSを取得し(ステップS292)、例文対訳辞書から、取得された例文パターンの目的言語構成情報に適合する目的言語の例文を含む対訳例文の集合BSTを取得する(ステップS293)。次に、集合BSSと、集合BSTとで共通する対訳例文の数を求め、その数を記憶する(ステップS294)。そして、全ての対訳例文パターンが取得されていなければ(ステップS295のN)ステップS291から処理を繰り返す。全ての対訳例文パターンが取得されれば(ステップS295のY)、各対訳例文パターンにおける対訳例文の数の最大値が1になるように正規化した値を求め、その各対訳例文パターンにおける第5の評価尺度における評価値Sep5として記憶する(ステップS296)。評価値Sep5は具体的には、具体的には全対訳例文パターンにおける対訳例文の数の和で各対訳例文パターンにおける対訳例文の数を割った値である。
【0082】
第1から第5の評価尺度での評価値Sep1からSep5が計算されたら、目的言語構成情報選択部55はそれらから各対訳例文パターンの総合評価値SepPを計算する(ステップS176)。総合評価値SepPは、評価値Sep1からSep5を重み付けして足しあわせた値であり、Sep1からSep5に対する重みをk1からk5(k1,・・・k5)とすると、以下に式で求められる。
【0083】
SepP=k1×FS1+k2×FS2+k3×FS3+k4×FS4+k5×FS5
【0084】
次に、目的言語構成情報選択部55は総合評価値SepPが最大となる1つの対訳例文パターンを選択する。この選択された対訳例文パターンには1つの目的言語情報が含まれ、1つの目的言語情報が選択されている。
【0085】
図15は、図11に示す候補から目的言語例文パターンを選択する過程の例を説明する図である。図15の例では、k1=k2=k3=k5=0.15、k4=0.4であるとして総合評価値SepPを計算している。ここで、k1からk5の値は、他の実験的に求めた値でもよい。
【0086】
翻訳文出力部56は、CPU11、記憶部12、通信部13、入出力部14を中心として実現される。翻訳文出力部56は、選択された目的言語構成情報と、その目的言語構成情報に対応する選択された原言語構成情報と、に基づいて、入力文の翻訳文を入出力部14に接続された出力手段、通信部13およびネットワークを介して接続されたクライアントや、記憶部12に出力する。具体的には、原言語構成情報が含む可変項目のそれぞれに対応する入力文の単語を単語辞書により翻訳して訳語を生成し、それを目的言語例文パターンの可変項目に代入し、位置情報が示す順に可変項目に代入された訳語と固定内容の文字列とを出力することで翻訳文が出力される。ある可変項目に複数の単語からなる句が対応する場合は、その句の内容に適合する原言語例文パターンおよび対訳例文パターンを選択して訳語を翻訳する。
【0087】
本実施形態にかかる翻訳装置1は、必ずしも文を翻訳することしか行わないわけではない。例えば翻訳支援システムの一部であってもよい。
【符号の説明】
【0088】
1 翻訳装置、11 CPU、12 記憶部、13 通信部、14 入出力部、51 入力文取得部、52 形態素解析部、53 原言語構成情報候補検索部、54 原言語構成情報選択部、55 目的言語構成情報選択部、56 翻訳文出力部、57 辞書部、61 距離計算部、62 写像抽出部、63 最適写像選択部、Sep1,Sep2,Sep3,Sep4,Sep5 評価値、SepP 総合評価値。
【技術分野】
【0001】
本発明は対訳情報検索装置、翻訳装置及びプログラムに関する。
【背景技術】
【0002】
特許文献1には、ある言語で入力された文を他の言語に翻訳する際に、入力された文に対応する対訳情報を選択し、翻訳を行う翻訳装置が開示されている。ここで、対訳情報は、対訳例文パターンを含み、対訳例文パターンは、原言語の文の可変項目と固定項目とを示す原言語構成情報と、翻訳の目的となる目的言語の文の可変項目と固定項目とを示す目的言語構成情報と、を含む。非特許文献1には、入力された文に類似する対訳例文を選択し、翻訳に用いる翻訳方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010−152420号公報
【非特許文献】
【0004】
【非特許文献1】佐藤理史、長尾真、「実例に基づいた翻訳」、情報処理学会研究報告、1989年1月20日、第89巻、第6号、p.70.9.1-70.9.8
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、原言語構成情報および目的言語構成情報に関連づけられる評価情報を用いない場合に対し、入力文の特性をより反映した目的言語構成情報を選択することができる対訳情報検索装置、またその技術を用いた翻訳装置およびプログラムを提供することにある。
【課題を解決するための手段】
【0006】
請求項1に記載の発明は対訳情報検索装置であって、原言語で入力された文である入力文を取得する入力文取得手段と、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、前記原言語構成情報と前記目的言語構成情報とに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段と、を含むことを特徴とする。
【0007】
請求項2に記載の発明は請求項1に記載の発明において、前記評価情報は前記各原言語構成情報と、当該原言語構成情報に対応する目的言語構成情報との対応関係を示す言語間対応情報を含み、前記目的言語構成情報選択手段は、前記選択された原言語構成情報と前記言語間対応情報とを用いて生成した翻訳文の生成確率に基づいて、1つの前記目的言語構成情報を選択する、ことを特徴とする。
【0008】
請求項3に記載の発明は請求項1または2に記載の発明において、前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の属性と前記目的言語構成情報とを関連づけた情報を含み、前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列の属性と、前記原言語構成情報に含まれる前記可変項目の前記属性と前記目的言語構成情報とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択する、ことを特徴とする。
【0009】
請求項4に記載の発明は請求項3に記載の発明において、前記入力文を形態素解析し複数の単語と当該単語の品詞情報とを取得する形態素解析手段をさらに有し、前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の品詞と前記目的言語構成情報とを関連づけた情報を含み、前記目的言語構成情報選択手段は、前記入力文の単語の品詞情報と前記選択された原言語構成情報に含まれる前記可変項目の品詞とを関連づけた前記情報に基づいて、1つの前記目的言語構成情報を選択する、ことを特徴とする。
【0010】
請求項5に記載の発明は請求項3または4に記載の発明において、前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の語彙体系と前記目的言語情報とを関連づけた情報を含み、前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列と、前記語彙体系と前記目的言語とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択する、ことを特徴とする。
【0011】
請求項6に記載の発明は請求項3から5のいずれかに記載の発明において、前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の用例情報と前記目的言語構成情報を関連づけた情報を含み、前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列と、前記用例情報と前記目的言語構成情報とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択する、ことを特徴とする。
【0012】
請求項7に記載の発明は請求項1から6のいずれかに記載の発明において、前記評価情報は前記複数の原言語構成情報のいずれかに適合する原言語の例文とそれぞれ前記複数の目的言語構成情報のいずれかに適合する目的言語の例文とからなる複数の対訳例文を含み、前記目的言語構成情報選択手段は、前記選択された原言語構成情報に適合する前記例文と、前記選択された原言語構成情報に対応する目的言語構成情報に適合する前記例文とからなる対訳例文の数に基づいて、1つの前記目的言語構成情報を選択する、ことを特徴とする。
【0013】
請求項8に記載の発明は翻訳装置であって、原言語で入力された文である入力文を取得する入力文取得手段と、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、前記原言語構成情報のいずれかと前記目的言語情報のいずれかとに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段と、前記選択された目的言語構成情報と、当該目的言語構成情報に対応する前記選択された原言語構成情報と、に基づいて、前記入力文の翻訳文を出力する翻訳文出力手段と、を含むことを特徴とする。
【0014】
請求項9に記載の発明は、原言語で入力された文である入力文を取得する入力文取得手段、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段、前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、前記原言語構成情報と前記目的言語構成情報とに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段、としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0015】
請求項1,9に記載の発明によれば、原言語構成情報および目的言語構成情報に関連づけられた評価情報を用いない場合に比べて、入力文の特性をより反映した目的言語構成情報を選択することができる。
【0016】
請求項2に記載の発明によれば、本構成を有しない場合より、入力文により適合する目的言語構成情報を選択することができる。
【0017】
請求項3に記載の発明によれば、入力文の文字列の属性により目的言語構成情報が異なる場合に、入力文に適合する目的言語構成情報を選択することができる。
【0018】
請求項4に記載の発明によれば、入力文の句の品詞により目的言語構成情報が異なる場合に、入力文に適合する目的言語構成情報を選択することができる。
【0019】
請求項5に記載の発明によれば、入力文の句の語彙体系により翻訳の仕方が異なる場合に、入力文に適合する原言語構成情報を選択することができる。
【0020】
請求項6に記載の発明によれば、原言語構成情報の可変項目に対応する入力文の句により翻訳の仕方が異なる場合に、入力文に適合する目的言語構成情報を選択することができる。
【0021】
請求項7に記載の発明によれば、原言語構成情報と目的言語構成情報の組み合わせに適合する対訳例文の数がその組み合わせにより異なる場合に、入力文に適合する目的言語構成情報を選択することができる。
【0022】
請求項8に記載の発明によれば、原言語構成情報および目的言語構成情報に関連づけられた評価情報を用いない場合に比べて、入力文の特性をより反映した翻訳をすることができる。
【図面の簡単な説明】
【0023】
【図1】本発明の実施形態に係る翻訳装置の構成の一例を示す図である。
【図2】本発明の実施形態に係る翻訳装置が実現する機能を示す機能ブロック図である。
【図3】原言語による入力文が対訳例文パターンにより翻訳される例を示す図である。
【図4】1つの例文パターンのデータ構造を示す図である。
【図5】対訳例文パターンの一例を示す図である。
【図6】原言語構成情報選択部の処理フローの一例を示す図である。
【図7】距離計算部の処理フローの一例を示す図である。
【図8】距離計算部の計算過程の例を示す図である。
【図9A】写像抽出部の処理フローの一例を示す図である。
【図9B】写像抽出部の処理フローの一例を示す図である。
【図9C】写像抽出部の処理フローの一例を示す図である。
【図10】選択された原言語構成情報に対し複数の対訳例文パターンが存在する場合の対訳例文パターンの一例を示す図である。
【図11】目的言語構成情報選択部の処理フローの一例を示す図である。
【図12A】第1の評価尺度での評価値を計算する処理フローを示す図である。
【図12B】第2の評価尺度での評価値を計算する処理フローを示す図である。
【図12C】第3の評価尺度での評価値を計算する処理フローを示す図である。
【図12D】第4の評価尺度での評価値を計算する処理フローを示す図である。
【図12E】第5の評価尺度での評価値を計算する処理フローを示す図である。
【図13】語彙体系の例を示す図である。
【図14】対訳例文の例を示す図である。
【図15】図11に示す候補から目的言語例文パターンを選択する過程の例を説明する図である。
【図16】第4の評価尺度の計算で生成される訳文の一例を示す図である。
【発明を実施するための形態】
【0024】
以下、本発明の実施形態について図面に基づき詳細に説明する。図1は、本発明の実施形態に係る翻訳装置1の構成の一例を示す図である。同図に示すように、翻訳装置1は、CPU11と、記憶部12と、通信部13と、入出力部14とを含んでいる。翻訳装置1は例えばパーソナルコンピュータやサーバなどによって構成されている。
【0025】
CPU11は、記憶部12に格納されているプログラムに従って動作する。なお、上記プログラムは、CD−ROMやDVD−ROM等の情報記録媒体に格納されて提供されるものであってもよいし、インターネット等のネットワークを介して提供されるものであってもよい。
【0026】
記憶部12は、RAMやROM等のメモリ素子およびハードディスクドライブ等によって構成されている。記憶部12は、上記プログラムを格納する。また、記憶部12は、各部から入力される情報や演算結果を格納する。
【0027】
通信部13は、他の装置と通信接続するための通信手段等で構成されている。通信部13は、CPU11の制御に基づいて、他の装置から受信した情報をCPU11や記憶部12に入力し、他の装置に情報を送信する。
【0028】
入出力部14は、モニタ等の表示出力手段と、キーボード、マウス等の入力手段とを制御する手段などによって構成されている。入出力部14は、CPU11の制御に基づいて、画像データ等をモニタ等に対して出力し、キーボードやマウスより操作者からの情報を取得する。
【0029】
図2は、本発明の実施形態に係る翻訳装置1が実現する機能を示す機能ブロック図である。翻訳装置1は機能的に、入力文取得部51と、形態素解析部52と、原言語構成情報候補検索部53と、原言語構成情報選択部54と、目的言語構成情報選択部55と、翻訳文出力部56と、辞書部57と、を含む。原言語構成情報選択部54は、機能的に距離計算部61と、写像抽出部62と、最適写像選択部63と、を含む。これらの機能はCPU11が記憶部12に格納されたプログラムを実行し、通信部13および入出力部14を制御することによって実現される。
【0030】
ここで、本実施形態にかかる翻訳装置1は、対訳情報を用いて翻訳を行う。対訳情報は、原言語の文のパターンを示す原言語例文パターンと、翻訳の目的となる目的言語の文のパターンを示す目的言語例文パターンと、を含む対訳例文パターンを含む。図3は、原言語による入力文が対訳例文パターンにより翻訳される例を示す図である。対訳例文パターンの記載で[v]としている部分は、それに該当する1または複数の単語が可変である可変項目を示す。図3の例は、入力文として「彼は電車に乗る。」が入力されると、翻訳文として、図3の翻訳文に示される文が得られることを示している。その過程では、翻訳装置1はその入力文に適合する原言語例文パターンである「[v]は[v]に乗る。」を含む最適な対訳例文パターンを検索し、その対訳例文パターンの目的言語例文パターンである「[v]坐[v]」の[v]の部分に、原言語例文パターンの[v]に該当する入力文の単語を翻訳した言葉を当てはめて翻訳文を得ている。このような翻訳の手法をパターンベース翻訳という。原言語例文パターンおよび目的言語例文パターンのどちらも、可変となる文字列と固定的な文字列との組み合わせを用いて文を表現する点は変わらないので、以下ではまとめて例文パターンと呼ぶ。
【0031】
翻訳装置1のうち、入力文取得部51と、形態素解析部52と、原言語構成情報候補検索部53と、原言語構成情報選択部54と、目的言語構成情報選択部55と、は上述の対訳例文パターンを検索する処理を行っている。これらにより構成される部分を対訳情報検索装置として利用してもよい。
【0032】
図4は1つの例文パターンのデータ構造を示す図である。例文パターンは、ある言語の文の構成を示す情報である。例文パターンは、それぞれがその文を構成する文字列のうち1または複数の文字列に対応する複数の項目を含んでおり、その項目は、固定項目と可変項目とに分けられる。固定項目は、文の対応する文字列として、その固定項目ごとに定められた固定的な文字列である固定文字列を示し、可変項目は、文の対応する文字列として、文字数を含めて可変の文字列を示す。なお、上述の文字列は、複数の単語からなる句または1つの単語を表す。1つの例文パターンは、1または複数の固定項目と、1または複数の可変項目とを含んでいる。そして、本図では固定項目や可変項目は、文の先頭に対応させるものから順に並んでいる。
【0033】
可変項目は、位置情報と、タイプ情報と、変数情報と、語彙体系情報と、用例情報と、を含む。固定項目は、位置情報と、タイプ情報と、固定内容と、品詞情報と、サブ構造情報とを含む。位置情報は固定項目と可変項目との両方に含まれており、文の中で表れる順番を通番で示す。タイプ情報は可変項目か固定項目かを示す情報であり、固定項目であれば「f」、可変項目であれば「v」となる。変数情報は可変項目の品詞を示す情報であり、例えば、「NP」であれば名詞の変数であることを、「AP」であれば形容詞の変数であることを、「DP」であれば副詞の変数であることを示す。語彙体系情報は、可変項目に入る単語の語彙体系を示す情報である。用例情報は例文パターンの可変項目に入る単語の用例を示す情報である。固定内容は固定項目の文字列を示す情報であり、品詞情報は固定項目に設定される単語の品詞を示す情報である。例えば品詞情報が「61」ならその固定項目が格助詞であることを示す。サブ構造情報は固定項目が複数の単語で構成される場合に、そのそれぞれの単語の情報を示す。
【0034】
ここで、例文パターンのなかで最も特徴的である情報である、可変項目の存在を示す情報と、固定項目の固定内容の情報とを言語構成情報と呼ぶ。具体的には可変項目の位置情報およびタイプ情報と、固定項目の位置情報、タイプ情報および固定内容とに対応する。以下では原言語例文パターンに含まれる言語構成情報を原言語構成情報と、目的言語例文パターンに含まれる言語構成情報を目的言語構成情報と呼ぶ。
【0035】
図5は、対訳例文パターンの一例を示す図である。対訳例文パターンは、原言語例文パターンと、目的言語例文パターンと、アライメント情報とを含む。本図に示す例文パターンでは、固定項目および可変項目どうしの区切りをスペースで、固定項目および可変項目に含まれる情報間の区切りを「/」で示している。また、図5では位置情報は固定項目および可変項目の並び順により表し、個々の可変項目や固定項目の中には記していない。例えば、原言語例文パターンの1番目の項目の「v/NP/人/」はその項目が可変項目であり、可変項目は品詞が名詞の変数であり、語彙体系は「人」であり、用例は設定されていないことを示し、原言語例文パターンの5番目の項目の「f/改選する/89/属性変化[改選/17/する/47/]」は、その項目が固定項目であり、文字列が「改選する」であり、それがサ変動詞(89)でありサブ構造として、「改選」と「する」からなり属性変化していることを示している。
【0036】
アライメント情報は、原言語の可変項目と目的言語の可変項目との対応関係、および原言語の固定項目と目的言語の固定項目との対応関係を示す言語間対応情報である。図5では、「3:」は対応付けが3つあることを示し、「1−1;」は原言語例文パターンの1番目の項目と目的言語例文パターンの1番目の項目とが対応していることを示し、「501,502−2;」原言語例文パターンの5番目の項目の1番目のサブ項目と2番目のサブ項目とは、目的言語例文パターンの2番目の項目に対応することを示す。ここで「501」は原言語例文パターンの5番目の項目の1番目のサブ項目を示している。
【0037】
辞書部57は、CPU11、記憶部12を中心として実現される。辞書部57は、複数の対訳例文パターン、単語辞書、例文対訳辞書、等を記憶する。
【0038】
以下では上述の対訳例文パターンを用いて翻訳を行う処理をより具体的に説明する。入力文取得部51は、CPU11、記憶部12、通信部13、入出力部14を中心として実現される。入力文取得部51は、入出力部14を介して取得するキーボードの操作情報や、記憶部12から取得する情報、またはネットワークを介して接続されたクライアントから受信した情報から、原言語で入力された文である入力文の情報を取得する。
【0039】
形態素解析部52は、CPU11、記憶部12を中心として実現される。形態素解析部52は入力文を形態素解析し、入力文を構成する複数の単語とそれらの単語の品詞情報とを取得する。例えば、「彼は電車に乗る」を形態素解析すると、形態素解析部52は「彼」、「は」、「電車」、「に」、「乗る」の5つの単語を取得し、それぞれの単語について「名詞」、「格助詞」、「名詞」、「格助詞」、「動詞」といった品詞情報も取得する。
【0040】
原言語構成情報候補検索部53は、CPU11、記憶部12を中心として実現される。原言語構成情報候補検索部53は、辞書部57に記憶されている複数の対訳例文パターンから、候補となる原言語構成情報を検索する。次の原言語構成情報選択部54はこれらの候補から原言語構成情報を選択する。なお、原言語構成情報の候補を検索すれば、その原言語構成情報を含む原言語例文パターンおよびその原言語例文パターンを含む対訳例文パターンも特定される。
【0041】
上述の検索処理をより具体的に記すと、原言語構成情報候補検索部53は、入力文と原言語構成情報の固定項目との類似度Simと、カバー率Covとがそれぞれある閾値を超えた原言語構成情報を候補として検索する。原言語構成情報候補検索部53は、入力文の文字列のBi−gram(S)と、原言語構成情報の文字列のBi−gram(A)とを求め、それらにより類似度Simおよびカバー率Covを計算する。類似度Simおよびカバー率Covは以下の式で求められる。
【0042】
Sim=(2×|S∩A|)/(|S|+|A|)
【0043】
Cov=|S∩A|/|S|
【0044】
ここで、|S|は入力文の文字列に含まれるBi−gramの数であり、|A|は、原言語構成情報の文字列のBi−gramの数であり、|S∩A|は、入力文と原言語構成情報とで共通するBi−gramの数である。
【0045】
原言語構成情報選択部54は、CPU11、記憶部12を中心として実現される。原言語構成情報選択部54は、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む原言語構成情報のうちから、その入力文に対応する原言語構成情報を選択する。より具体的には、原言語構成情報候補検索部53が検索した複数の原言語構成情報の候補から、入力文に最も近い原言語構成情報を選択し、さらに入力文に含まれる文字列と原言語構成情報の可変項目および固定項目との対応関係を示す写像情報を取得する。なお、原言語構成情報を選択すると、その原言語構成情報を含む原言語例文パターンや例文対訳パターンも実質的に選択される。なお、入力文に最も近い原言語構成情報が複数ある場合などは、原言語構成情報選択部54は複数の原言語構成情報を選択してもよい。
【0046】
図6は、原言語構成情報選択部54の処理フローの一例を示す図である。はじめに、原言語構成情報選択部54に含まれる距離計算部61は、各候補となる原言語構成情報と、入力文との距離を求める(ステップS101)。この処理は、原言語構成情報選択部54に含まれる距離計算部61が行う。以下ではステップS101の処理について距離計算部61のフローを示しながら説明する。
【0047】
距離計算部61は、CPU11、記憶部12を中心として実現される。図7は距離計算部61の処理フローの一例を示す図である。図7では、入力文と候補となる1つの原言語構成情報との距離を計算する処理フローのみを示す。実際にはこれらの処理は、候補となる原言語構成情報の数だけ繰り返される。距離計算部61は、はじめに、形態素解析部52により分割された入力文の単語(その数をmとする)を、順にデータ列s1〜smに格納する(ステップS111)。次に、候補となる1つの原言語構成情報の可変項目および固定項目(それらをあわせた数をnとする)のそれぞれについて、可変項目であるか否かの情報および固定項目の場合の固定内容の文字列の情報を位置情報の小さいものから順にデータ列a1〜anに格納する(ステップS112)。なお、以下ではs0およびa0も登場するが、これらは入力文および原言語構成情報の先頭であることを示し、これらは空文字列に相当する。
【0048】
入力文と原言語構成情報との距離は、入力文の各単語と原言語構成情報の可変項目および固定項目との間の対応関係に依存するものとする。入力文と原言語構成情報との距離は、その入力文と原言語構成情報との間で存在しうる複数の対応関係のそれぞれについて求められる変換重みのなかで最小なものを距離とする。ある対応関係における変換重みは、可変項目および固定項目とそれに対応する単語との重みや、単語と項目が対応しない場合の重みを積算したものである。より具体的には、例えば、ai(iは1からn)がsj(jは1からm)と対応するとした場合に、aiとsjとが同じ単語であれば編集が不要なので編集重みが0、aiとsjとが異なる単語であれば置換が必要なので編集重みがp、aiに対応するsjが無ければ入力文に単語の挿入が必要なので編集重みがq、反対にsjに対応するaiが無ければ入力文から単語の削除が必要なので編集重みがrであるとして求められる重みを積算する。ここで、p、q、rは正の定数である。また、対応関係については、原言語構成情報も入力文の単語も並び順が破壊されないという条件と、可変項目は入力文の複数の単語に対応しうるという条件を満たすものとする。前者の条件の例は、例えばaiとsjとが対応する場合、a(i+1)とs(j−1)とは対応することはないといったことである。後者の条件は可変項目が複数の単語からなる句であってもよいことから生じる。前者の条件から、原言語構成情報のうちa1からaiと入力文のうちs1からsjとの間での全ての対応関係における最小の距離d(i,j)は、d(i−1,j−1)、d(i−1,j)、d(i,j−1)の全てと、aiとsjとの関係がわかれば求められる。以下では上述の法則を利用した計算方法について説明する。
【0049】
距離計算部61は、距離の値が格納され、(n+1)×(m+1)の2次元配列dと、d(i−1,j−1)、d(i−1,j)、d(i,j−1)のうちどれを用いて計算するとd(i,j)が最小の距離となるかを示すn×mの配列PathFlagとを初期化する(ステップS113)。配列dは、d(0,0)からd(n,m)まであり、d(i,j)は部分文字列a1
a2…aiとs1 s2…sj間の距離を表す。d(i,0)にはi×qが、d(0,j)にはj×rが代入される。配列PathFlagはPathFlag(1,1)からPathFlag(n,m)まである。次に、変数iおよびjに1を代入し(ステップS114)、繰返し処理をはじめる。距離計算部61は、a1からaiとs1からsjとの間での最小の距離d(i,j)を求め、d(i−1,j−1)、d(i−1,j)、d(i,j−1)のうちどれを用いて計算すると最小となるかをPathFlag(i,j)に格納する(ステップS115)。d(i,j)は以下の方法で計算される。
【0050】
aiが可変項目の場合:
d(i,j)=min{d(i−1,j−1)+w(ai,sj),d(i−1,j)+q,d(i,j−1)}
【0051】
aiが固定項目の場合:
d(i,j)=min{d(i−1,j−1)+w(ai,sj),d(i−1,j)+q,d(i,j−1)+r}
【0052】
ここで、w(ai,sj)は、aiが可変項目の場合は、例えば0であり、aiが固定項目であれば例えばaiとsjとが等しければ0、等しくなければpである。また、d(i−1,j−1)、d(i−1,j)、d(i,j−1)のうち距離が最小となるものが複数ある場合は、その全ての情報をPathFlag(i,j)に格納する。
【0053】
次に距離計算部61はjを1増やし(ステップS116)、jがm以下であれば(ステップS117のY)ステップS115から繰り返す。jがm以下でなければ(ステップS117のN)iを1増やし(ステップS118)、iがn以下か判定する(ステップS119)。iがn以下であれば(ステップS119のY)、ステップS115から繰り返す。iがn以下でなければ(ステップS119のN)、距離としての変数d(n,m)と配列PathFlagとを原言語例文パターンに関連づけて記憶し(ステップS120)、処理を終了する。
【0054】
図8は、距離計算部の計算過程の例を示す図である。図8の表の各セルの値は配列dの各セルの値を表し、矢印は左上、左、上のうちどのセルから計算すると距離が最小となるかを表している。この例では、入力文が「私は富士ゼロックスの社員です」、原言語構成情報の候補が、「[v]は[v]です」である場合について最小の距離を計算した例を示している。ここで、この例ではp=q=r=1としている。この表によれば、配列PathFlagが最小の距離を計算する場合の入力文の単語と、可変項目および固定項目との関係を示すことがわかる。
【0055】
ステップS101の処理により原言語構成情報の各候補と入力文との距離が求められると、原言語構成情報選択部54は原言語構成情報の候補のうちから距離が最小となる原言語構成情報を選択する(ステップS102)。ここで、選択される原言語構成情報は、必ずしも1つとは限らない。仮に距離が最小となる原言語構成情報の種類が1つであったとしても、例えば原言語構成情報が同じである複数の対訳例文パターンが存在する場合には、その対訳例文パターンの数の原言語構成情報が選択されてよい。
【0056】
次に、原言語構成情報選択部54は、選択された原言語構成情報の固定項目および可変項目の各項目と入力文の文字列との対応関係(以下最小写像と呼ぶ)を求める(ステップS103)。ステップS103の処理は、原言語構成情報選択部54に含まれる写像抽出部62が行う。以下では写像抽出部62の処理フローとともにこの処理内容について説明する。
【0057】
写像抽出部62は、CPU11、記憶部12を中心として実現される。図9Aから9Cは写像抽出部62の処理フローの一例を示す図である。はじめに、写像抽出部62は、選択された原言語構成情報に関連づけて記憶された配列PathFlagを取得し、さらにその原言語構成情報に含まれる可変項目および固定項目の情報をそれぞれ位置情報の順に格納したデータ列a1〜anを取得する(ステップS131)。この可変項目および固定項目の情報は具体的には、可変項目であるか否かの情報および固定項目の場合の固定内容の文字列の情報である。次に、選択された原言語構成情報の各可変項目および固定項目に対応する1または複数の単語を記憶するn個のリストからなる配列Matを初期化し、(n,m)と、0と、配列Matをスタックにpushする(ステップS132)。
【0058】
次に、写像抽出部62はスタックからpopし、値を変数組(i,j)と、変数uと、配列Matとに格納する(ステップS133)。変数組(i,j)が(0,0)であれば(ステップS134のY)、最小写像が求まっているので最小写像のリストFsetに配列Matを追加し(ステップS135)、残りのスタックがあれば(ステップS136のY)再びステップS133から繰り返す。残りのスタックが無ければ(ステップS136のN)処理は終了する。ステップS134で変数組(i,j)が(0,0)でない場合は(ステップS134のN)、変数iが0であるか判定する(ステップS137)。変数iが0であれば(ステップS137のY)、入力文のj番目の単語は脱落しているのでMat(0)のリストにその単語を追加し(ステップS138)、変数組(i,j−1)と、0と、配列Matをpushし(ステップS139)、ステップS133の処理から繰り返す。
【0059】
ステップS137で変数iが0でなければ(ステップS137のN)、aiが固定項目か判定する(ステップS140)。aiが固定項目であれば(ステップS140のY)、PathFlag(i,j)について判定を行う(ステップS141)。PathFlag(i,j)が、d(i,j)をd(i−1,j−1)から求めたことを示せば(ステップS141のY)、Mat(i)のリストにj番目の単語を追加し(ステップS142)、変数組(i−1,j−1)と、0と、配列Matをpushする(ステップS143)。以下ではPathFlag(i,j)が、d(i,j)をd(i−1,j−1)から求めたことを示すことを「(i−1,j−1)経由」と記載する。またd(i,j−1)やd(i−1,j)の場合はそれぞれ「(i,j−1)経由」、「(i−1,j)経由」と記す。ステップS141で(i−1,j−1)経由でない場合(ステップS141のN)およびステップS143の処理後は、PathFlag(i,j)が(i,j−1)経由か判定する(ステップS144)。(i,j−1)経由であれば(ステップS144のY)、挿入であるのでMat(i)のリストにj番目の単語を追加し(ステップS145)、変数組(i,j−1)と、0と、配列Matをpushする(ステップS146)。ステップS141で(i,j−1)経由でない場合(ステップS144のN)およびステップS146の処理後は、ステップS153の処理に移る。次に、ステップS140でaiが可変項目であれば(ステップS140のN)、PathFlag(i,j)について(i−1,j−1)経由か判定する(ステップS147)。(i−1,j−1)経由であれば(ステップS147のY)、Mat(i)のリストにj番目から(j+u)番目の単語を追加し(ステップS148)、変数組(i−1,j−1)と、0と、配列Matをpushする(ステップS149)。ステップS147で(i−1,j−1)経由でない場合(ステップS147のN)およびステップS149の処理後は、PathFlag(i,j)が(i,j−1)経由か判定する(ステップS150)。(i,j−1)経由であれば(ステップS150のY)、uを1増やし(ステップS151)、変数組(i,j−1)と、変数uと、配列Matをpushする(ステップS152)。ステップS150で(i,j−1)経由でない場合(ステップS150のN)およびステップS152の処理後は、ステップS153の処理に移る。
【0060】
ステップS153ではPathFlag(i,j)が(i−1,j)経由か判定する。(i−1,j)経由であれば(ステップS153のY)、脱落であるので、Mat(i)のリストを空にし(ステップS154)、変数組(i−1,j)と、0と、配列Matをpushする(ステップS155)。ステップS153で(i−1,j)経由でない場合(ステップS153のN)およびステップS155の処理後は、ステップS133の処理から繰り返す。これらの処理により、写像のリストFsetが取得される。なお、スタックを使うことにより、写像が複数ある場合でもそれらが求められる。
【0061】
ステップS103の処理で写像が求められた後では、原言語構成情報選択部54は写像が複数あるか確認し、複数の写像がある場合には、それらの写像から1つの写像を選択する(ステップS104)。ステップS104の処理は、最適写像選択部63が行う。最適写像選択部63は、CPU11、記憶部12を中心として実現される。最適写像選択部63は、写像が複数ある場合に、各写像について、可変項目の単語により構成される句を、いくつかの基準により評価し、それらの評価を総合的に判断して1つの写像を選択する。その評価の基準としては、例えば、その句が辞書に存在するか、その句に動詞、助詞、助動詞が含まれるか、などがある。
【0062】
目的言語構成情報選択部55は、CPU11、記憶部12を中心として実現される。目的言語構成情報選択部55は、選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれがその文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、原言語構成情報と目的言語構成情報とに関連づけられる評価情報に基づいて選択する。ここで、評価情報は、対訳例文パターンのうち原言語構成情報の部分を除いた部分を示す。対訳例文パターンは原言語例文パターンと目的言語例文パターンを含むので、それによって原言語目的情報および目的言語情報と関連づけられている。また、原言語例文パターンにおける可変項目の変数情報(品詞情報)や語彙体系や用例情報、そして対訳例文パターンにおける言語間対応情報や対訳例文情報なども原言語構成情報に関連づけられている。可変項目の変数情報(品詞情報)や語彙体系や用例情報は可変項目の属性を示す情報である。なお、目的言語構成情報を選択することは、実質的に目的言語例文パターンも選択することおよび対訳例文パターンも選択することと同じである。
【0063】
目的言語構成情報選択部55は、選択された原言語構成情報を含む複数の目的言語情報および対訳例文パターンが存在する場合に、選択された原言語構成情報に対応する複数の目的言語構成情報から1つの目的言語構成情報および対訳例文パターンを選択する。図10は、選択された原言語構成情報に対し複数の対訳例文パターンが存在する場合の対訳例文パターンの一例を示す図である。本図の例では、入力文として、「彼は電車に乗る」が与えられ、「[v]は[v]に乗る」という原言語構成情報([v]は可変項目を示す)が選択された場合に、その原言語構成情報を含む3つの対訳例文パターンが存在することを示している。1つ目は、人が乗り物に座って乗る意味の場合の対訳例文パターンであり、2つ目は、人が調子やリズムに乗るような意味の場合の対訳例文パターンであり、3つ目は、人が動物などにまたがって乗る意味の場合の対訳例文パターンである。本図では理解の容易のため、アライメント情報を示す代わりに、原言語例文パターンおよび目的言語例文パターンの可変情報の変数情報に共通の数字をつけることにより、原言語例文パターンと目的言語例文パターンとの間での可変項目の対応関係を示している。他の表記は、対訳例文パターンのデータ構造を説明した図5の例と同じ表記法である。
【0064】
目的言語構成情報選択部55は、選択された原言語構成情報を含む対訳例文パターンのセットを取得し、その対訳例文パターンのそれぞれについて、5つの評価尺度のそれぞれでの評価値Sep1からSep5を計算し、それらの値に重み付けして和を取った総合評価値SepPに基づいて対訳例文パターンを選択する。図11は、目的言語構成情報選択部55の処理フローの一例を示す図である。また、図12Aから図12Eは、順に、第1の評価尺度での評価値Sep1を計算する処理フロー、第2の評価尺度での評価値Sep2を計算する処理フロー、第3の評価尺度での評価値Sep3を計算する処理フロー、第4の評価尺度での評価値Sep4を計算する処理フロー、第5の評価尺度での評価値Sep5を計算する処理フローを示す図である。なお、図12Aから図12Dは1つの対訳例文パターンに対する処理のみを記載している。第1から第3の評価尺度における評価値Sep1からSep3を計算する処理については、目的言語構成情報選択部55は原言語構成情報の可変項目に対応する入力文の文字列の属性と、原言語構成情報に含まれる可変項目の属性と目的言語構成情報とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択するといえる。
【0065】
第1の評価尺度における評価値Sep1の計算(ステップS171)について説明する。目的言語構成情報選択部55は、入力文の単語の品詞情報と選択された原言語構成情報に含まれる可変項目の品詞と目的言語情報とを関連づけた情報に基づいて、1つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部55は、ある対訳例文パターンに含まれる原言語例文パターンの可変項目(その数をhとする)の情報を取得し、SP1からSPhに格納し、各可変項目の処理結果を記憶する変数FS1〜FShを初期化する(ステップS211)。次に、SP1からSPhのそれぞれに対応する入力文の文字列(1または複数の単語)から中心単語を取得し、変数SW1からSWhに格納する(ステップS212)。ここで、中心単語は、可変項目に対応する1または複数の単語のうち、他の固定項目や可変項目との繋がりが生じる1つの単語であり、日本語では最後の単語である。次に、目的言語構成情報選択部55は、変数iに1を代入する(ステップS213)。
【0066】
目的言語構成情報選択部55は、可変項目のうちi番目のものであるSPiに品詞集合の情報(変数情報)が設定されているか確認し(ステップS214)、設定されていなければ(ステップS214のN)変数FSiに1を代入し(ステップS215)、設定されていれば(ステップS214のY)、その品詞集合にSWiの品詞が含まれているか判断する(ステップS216)。ここで、SWiの品詞は形態素解析部52の処理結果から取得する。SWiの品詞が含まれていれば(ステップS216のY)、変数FSiに1を代入し(ステップS215)、含まれていなければ(ステップS216のN)、変数FSiに0を代入する(ステップS217)。変数FSiに何らかの値を代入したら変数iを1増やし(ステップS218)、iの値がh以下なら(ステップS219のY)ステップS214から繰り返す。iの値がhを超えたら(ステップS219のN)、FS1からFShの平均を取得し、それをこの対訳例文パターンにおける第1の評価尺度での評価値Sep1とする(ステップS220)。ステップS211からステップS220の処理は、選択された対訳例文パターン全てに対して行われる。
【0067】
例えば図10の例で、入力文として「彼は電車に乗る」が取得された場合には、原言語構成情報の可変項目に対応する単語である「彼」および「電車」はどちらも名詞であり、対訳例文パターン1から3のどれもそれらの可変項目は名詞の変数とされているので、評価値Sep1は1となる。
【0068】
第2の評価尺度における評価値Sep2の計算(ステップS172)について説明する。目的言語構成情報選択部55は、原言語構成情報の可変項目に対応する入力文の文字列と、語彙体系と目的言語とを関連づけた情報とに基づいて、1つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部55は、ある対訳例文パターンに含まれる原言語例文パターンの可変項目(その数をhとする)の情報をSP1からSPhに格納し、変数FS1〜FShを初期化する(ステップS231)。次に、SP1からSPhのそれぞれに対応する入力文の文字列(1または複数の単語)から中心単語を取得し、変数SW1からSWhに格納する(ステップS232)。次に、目的言語構成情報選択部55は、変数iに1を代入する(ステップS233)。
【0069】
目的言語構成情報選択部55は、可変項目のうちi番目のものであるSPiに語彙体系情報が設定されているか確認し(ステップS234)、設定されていなければ(ステップS234のN)変数FSiに1を代入し(ステップS235)、設定されていれば(ステップS234のY)、その語彙体系が示す語彙体系にSWiの単語が含まれているか判断する(ステップS236)。SWiがその語彙体系に含まれていれば(ステップS236のY)、変数FSiに1を代入し(ステップS235)、含まれていなければ(ステップS236のN)、変数FSiに0を代入する(ステップS237)。変数FSiに何らかの値を代入したら変数iを1増やし(ステップS238)、iの値がh以下なら(ステップS239のY)ステップS234から繰り返す。iの値がhを超えたら(ステップS239のN)、FS1からFShの平均を取得し、それをこの対訳例文パターンにおける第2の評価尺度での評価値Sep2とする(ステップS240)。ステップS231からステップS240の処理は、選択された対訳例文パターン全てに対して行われる。
【0070】
図13は、語彙体系の例を示す図である。例えば図10の例で、入力文として「彼は電車に乗る」が取得された場合には、原言語構成情報の可変項目の1番目に対応する単語である「彼」は人物の語彙体系に含まれ、2番目に対応する「電車」は図13に示すように「乗り物」の語彙体系に含まれる。よって、それらの語彙体系の情報が設定されている対訳例文パターン1と3では評価値Sep2は1であり、前者に対する「人物」の語彙体系情報のみが設定されている対訳例文パターンでは評価値Sep2は0,5となる。
【0071】
第3の評価尺度における評価値Sep3の計算(ステップS173)について説明する。目的言語構成情報選択部55は、原言語構成情報の可変項目に対応する入力文の文字列と、前記用例情報と前記目的言語構成情報とを関連づけた情報とに基づいて、1つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部55は、ある対訳例文パターンに含まれる原言語例文パターンの可変項目(その数をhとする)の情報をSP1からSPhに格納し、変数FS1〜FShを初期化する(ステップS251)。次に、SP1からSPhのそれぞれに対応する入力文の文字列(1または複数の単語)から中心単語を取得し、変数SW1からSWhに格納する(ステップS252)。次に、目的言語構成情報選択部55は、変数iに1を代入する(ステップS253)。
【0072】
目的言語構成情報選択部55は、SPiの用例情報が設定されているか確認し(ステップS254)、用例情報が設定されていなければ(ステップS254のN)、変数FSiに1を代入する(ステップS255)。用例情報が設定されていれば(ステップS254のY)、SPiの用例情報から用例の集合SPEを取得する(ステップS256)。次に目的言語構成情報選択部55はSWiとSPEとの類似度SimWを計算し、変数FSiに格納する(ステップS256)。SimWを求める際には、まず用例の集合に含まれる個々の用例の単語とSWiとの類似度Simを求める。この類似度Simは、例えばSWiのBi−gramと、用例の単語の文字列のBi−gramとから原言語構成情報候補検索部53と同じ計算方法で求められる。用例の集合に含まれる個々の用例の数をtとし、j番目の用例とSWiとの類似度をSim(j)とすると、以下の式で求められる。
【0073】
SimW=max{sim(1),sim(2),…,sim(t)}
【0074】
なお、SimWは以下の式で求めてもよい。
【0075】
SimW={sim(1)+sim(2)+…+sim(t)}/t
【0076】
変数FSiに何らかの値をセットしたら変数iを1増やし(ステップS258)、iの値がh以下なら(ステップS259のY)ステップS254から繰り返す。iの値がhを超えたら(ステップS259のN)、FS1からFShの平均を取得し、それをこの対訳例文パターンにおける第3の評価尺度での評価値Sep3とする(ステップS260)。ステップS251からステップS260の処理は、選択された対訳例文パターン全てに対して行われる。
【0077】
第4の評価尺度における評価値Sep4の計算(ステップS174)について説明する。目的言語構成情報選択部55は、選択された原言語構成情報と言語間対応情報とを用いて生成した翻訳文の生成確率に基づいて、1つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部55は、ある対訳例文パターンに含まれる原言語例文パターンの可変項目(その数をhとする)のそれぞれに対応する入力文の文字列(1または複数の単語)から中心単語を取得し、配列SW1からSWhに格納する(ステップS271)。
【0078】
次に目的言語構成情報選択部55は、辞書部57に記憶される単語辞書を用いて、SW1からSWhのそれぞれの訳語リストを求め、それぞれTW1からTWhに格納する(ステップS272)。ここで、単語辞書は原言語と目的言語とで1対多の関係を持ちうる。よって、TW1からTWhのそれぞれは複数の訳語を含んでよい。目的言語構成情報選択部55は、TW1からTWhの訳語リストのそれぞれから1つの訳語を選択する全ての組み合わせを求める(ステップS273)。これは、目的言語の可変項目に代入する訳語の組み合わせを求めることに相当する。そして、各組み合わせに含まれる訳語のそれぞれを、目的言語例文パターンの可変項目のうち対応するものに代入し、固定項目とあわせて訳文を生成する(ステップS274)。可変項目の訳語は中心単語の訳語のみであり、この訳文は本来の翻訳文より簡易的なものである。そして、各組み合わせについて生成された訳文のそれぞれについて、単語のNグラムモデルを用いて、訳文の生成確率を生成する(ステップS275)。その生成確率のうち最大のものをこの対訳例文パターンにおける第4の評価尺度での評価値Sep4とする(ステップS276)。ステップS271からステップS276の処理は、選択された対訳例文パターン全てに対して行われる。
【0079】
図10の例で、入力文として「彼は電車に乗る」が取得された場合には、対訳例文パターン1、対訳例文パターン2、対訳例文パターン3により生成される訳文は、図16に示すようになる。なお、Nグラムモデルにおける(N−1)個の単語からN個目の単語の出現確率を示す情報は、辞書部57に記憶されている。
【0080】
第5の評価尺度における評価値Sep5の計算(ステップS175)について説明する。ここでは、評価情報として、原言語例文パターンと目的言語例文パターンとの対応関係だけでなく、辞書部57に記憶された例文対訳辞書も用いる。例文対訳辞書は複数の対訳例文を含む。個々の対訳例文は、複数の原言語構成情報のいずれかに適合する原言語の例文と複数の目的言語構成情報のいずれかに適合する目的言語の例文とからなる。図14は、対訳例文の例を示す図である。対訳例文に含まれる原言語の例文および目的言語の例文は文字列であり、形態素解析の結果の情報は含まなくてよい。また対訳例文と原言語構成情報や目的言語構成情報との関連について、予め記憶してもよい。
【0081】
目的言語構成情報選択部55は、選択された原言語構成情報に適合する原言語の例文と、選択された原言語構成情報に対応する目的言語構成情報に適合する目的言語の例文とからなる対訳例文の数に基づいて、1つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部55は、選択された原言語構成情報を含む対訳例文パターンのセットのうちから、順に1つの対訳例文パターンを取得する(ステップS291)。次に、例文対訳辞書から、選択された原言語構成情報に適合する原言語の例文を含む対訳例文の集合BSSを取得し(ステップS292)、例文対訳辞書から、取得された例文パターンの目的言語構成情報に適合する目的言語の例文を含む対訳例文の集合BSTを取得する(ステップS293)。次に、集合BSSと、集合BSTとで共通する対訳例文の数を求め、その数を記憶する(ステップS294)。そして、全ての対訳例文パターンが取得されていなければ(ステップS295のN)ステップS291から処理を繰り返す。全ての対訳例文パターンが取得されれば(ステップS295のY)、各対訳例文パターンにおける対訳例文の数の最大値が1になるように正規化した値を求め、その各対訳例文パターンにおける第5の評価尺度における評価値Sep5として記憶する(ステップS296)。評価値Sep5は具体的には、具体的には全対訳例文パターンにおける対訳例文の数の和で各対訳例文パターンにおける対訳例文の数を割った値である。
【0082】
第1から第5の評価尺度での評価値Sep1からSep5が計算されたら、目的言語構成情報選択部55はそれらから各対訳例文パターンの総合評価値SepPを計算する(ステップS176)。総合評価値SepPは、評価値Sep1からSep5を重み付けして足しあわせた値であり、Sep1からSep5に対する重みをk1からk5(k1,・・・k5)とすると、以下に式で求められる。
【0083】
SepP=k1×FS1+k2×FS2+k3×FS3+k4×FS4+k5×FS5
【0084】
次に、目的言語構成情報選択部55は総合評価値SepPが最大となる1つの対訳例文パターンを選択する。この選択された対訳例文パターンには1つの目的言語情報が含まれ、1つの目的言語情報が選択されている。
【0085】
図15は、図11に示す候補から目的言語例文パターンを選択する過程の例を説明する図である。図15の例では、k1=k2=k3=k5=0.15、k4=0.4であるとして総合評価値SepPを計算している。ここで、k1からk5の値は、他の実験的に求めた値でもよい。
【0086】
翻訳文出力部56は、CPU11、記憶部12、通信部13、入出力部14を中心として実現される。翻訳文出力部56は、選択された目的言語構成情報と、その目的言語構成情報に対応する選択された原言語構成情報と、に基づいて、入力文の翻訳文を入出力部14に接続された出力手段、通信部13およびネットワークを介して接続されたクライアントや、記憶部12に出力する。具体的には、原言語構成情報が含む可変項目のそれぞれに対応する入力文の単語を単語辞書により翻訳して訳語を生成し、それを目的言語例文パターンの可変項目に代入し、位置情報が示す順に可変項目に代入された訳語と固定内容の文字列とを出力することで翻訳文が出力される。ある可変項目に複数の単語からなる句が対応する場合は、その句の内容に適合する原言語例文パターンおよび対訳例文パターンを選択して訳語を翻訳する。
【0087】
本実施形態にかかる翻訳装置1は、必ずしも文を翻訳することしか行わないわけではない。例えば翻訳支援システムの一部であってもよい。
【符号の説明】
【0088】
1 翻訳装置、11 CPU、12 記憶部、13 通信部、14 入出力部、51 入力文取得部、52 形態素解析部、53 原言語構成情報候補検索部、54 原言語構成情報選択部、55 目的言語構成情報選択部、56 翻訳文出力部、57 辞書部、61 距離計算部、62 写像抽出部、63 最適写像選択部、Sep1,Sep2,Sep3,Sep4,Sep5 評価値、SepP 総合評価値。
【特許請求の範囲】
【請求項1】
原言語で入力された文である入力文を取得する入力文取得手段と、
原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、
前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、前記原言語構成情報と前記目的言語構成情報とに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段と、
を含むことを特徴とする対訳情報検索装置。
【請求項2】
前記評価情報は前記各原言語構成情報と、当該原言語構成情報に対応する目的言語構成情報との対応関係を示す言語間対応情報を含み、
前記目的言語構成情報選択手段は、前記選択された原言語構成情報と前記言語間対応情報とを用いて生成した翻訳文の生成確率に基づいて、1つの前記目的言語構成情報を選択する、
ことを特徴とする請求項1に記載の対訳情報検索装置。
【請求項3】
前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の属性と前記目的言語構成情報とを関連づけた情報を含み、
前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列の属性と、前記原言語構成情報に含まれる前記可変項目の前記属性と前記目的言語構成情報とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択する、
ことを特徴とする請求項1または2に記載の対訳情報検索装置。
【請求項4】
前記入力文を形態素解析し複数の単語と当該単語の品詞情報とを取得する形態素解析手段をさらに有し、
前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の品詞と前記目的言語構成情報とを関連づけた情報を含み、
前記目的言語構成情報選択手段は、前記入力文の単語の品詞情報と前記選択された原言語構成情報に含まれる前記可変項目の品詞とを関連づけた前記情報に基づいて、1つの前記目的言語構成情報を選択する、
ことを特徴とする請求項3に記載の対訳情報検索装置。
【請求項5】
前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の語彙体系と前記目的言語情報とを関連づけた情報を含み、
前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列と、前記語彙体系と前記目的言語とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択する、
ことを特徴とする請求項3または4に記載の対訳情報検索装置。
【請求項6】
前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の用例情報と前記目的言語構成情報を関連づけた情報を含み、
前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列と、前記用例情報と前記目的言語構成情報とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択する、
ことを特徴とする請求項3から5のいずれかに記載の対訳情報検索装置。
【請求項7】
前記評価情報は前記複数の原言語構成情報のいずれかに適合する原言語の例文とそれぞれ前記複数の目的言語構成情報のいずれかに適合する目的言語の例文とからなる複数の対訳例文を含み、
前記目的言語構成情報選択手段は、前記選択された原言語構成情報に適合する前記例文と、前記選択された原言語構成情報に対応する目的言語構成情報に適合する前記例文とからなる対訳例文の数に基づいて、1つの前記目的言語構成情報を選択する、
ことを特徴とする請求項1から6のいずれかに記載の対訳情報検索装置。
【請求項8】
原言語で入力された文である入力文を取得する入力文取得手段と、
原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、
前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、前記原言語構成情報のいずれかと前記目的言語情報のいずれかとに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段と、
前記選択された目的言語構成情報と、当該目的言語構成情報に対応する前記選択された原言語構成情報と、に基づいて、前記入力文の翻訳文を出力する翻訳文出力手段と、
を含むことを特徴とする翻訳装置。
【請求項9】
原言語で入力された文である入力文を取得する入力文取得手段、
原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段、
前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、前記原言語構成情報と前記目的言語構成情報とに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段、
としてコンピュータを機能させるためのプログラム。
【請求項1】
原言語で入力された文である入力文を取得する入力文取得手段と、
原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、
前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、前記原言語構成情報と前記目的言語構成情報とに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段と、
を含むことを特徴とする対訳情報検索装置。
【請求項2】
前記評価情報は前記各原言語構成情報と、当該原言語構成情報に対応する目的言語構成情報との対応関係を示す言語間対応情報を含み、
前記目的言語構成情報選択手段は、前記選択された原言語構成情報と前記言語間対応情報とを用いて生成した翻訳文の生成確率に基づいて、1つの前記目的言語構成情報を選択する、
ことを特徴とする請求項1に記載の対訳情報検索装置。
【請求項3】
前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の属性と前記目的言語構成情報とを関連づけた情報を含み、
前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列の属性と、前記原言語構成情報に含まれる前記可変項目の前記属性と前記目的言語構成情報とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択する、
ことを特徴とする請求項1または2に記載の対訳情報検索装置。
【請求項4】
前記入力文を形態素解析し複数の単語と当該単語の品詞情報とを取得する形態素解析手段をさらに有し、
前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の品詞と前記目的言語構成情報とを関連づけた情報を含み、
前記目的言語構成情報選択手段は、前記入力文の単語の品詞情報と前記選択された原言語構成情報に含まれる前記可変項目の品詞とを関連づけた前記情報に基づいて、1つの前記目的言語構成情報を選択する、
ことを特徴とする請求項3に記載の対訳情報検索装置。
【請求項5】
前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の語彙体系と前記目的言語情報とを関連づけた情報を含み、
前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列と、前記語彙体系と前記目的言語とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択する、
ことを特徴とする請求項3または4に記載の対訳情報検索装置。
【請求項6】
前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の用例情報と前記目的言語構成情報を関連づけた情報を含み、
前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列と、前記用例情報と前記目的言語構成情報とを関連づけた情報とに基づいて、1つの前記目的言語構成情報を選択する、
ことを特徴とする請求項3から5のいずれかに記載の対訳情報検索装置。
【請求項7】
前記評価情報は前記複数の原言語構成情報のいずれかに適合する原言語の例文とそれぞれ前記複数の目的言語構成情報のいずれかに適合する目的言語の例文とからなる複数の対訳例文を含み、
前記目的言語構成情報選択手段は、前記選択された原言語構成情報に適合する前記例文と、前記選択された原言語構成情報に対応する目的言語構成情報に適合する前記例文とからなる対訳例文の数に基づいて、1つの前記目的言語構成情報を選択する、
ことを特徴とする請求項1から6のいずれかに記載の対訳情報検索装置。
【請求項8】
原言語で入力された文である入力文を取得する入力文取得手段と、
原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、
前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、前記原言語構成情報のいずれかと前記目的言語情報のいずれかとに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段と、
前記選択された目的言語構成情報と、当該目的言語構成情報に対応する前記選択された原言語構成情報と、に基づいて、前記入力文の翻訳文を出力する翻訳文出力手段と、
を含むことを特徴とする翻訳装置。
【請求項9】
原言語で入力された文である入力文を取得する入力文取得手段、
原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段、
前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む目的言語構成情報のうちから1つの目的言語構成情報を、前記原言語構成情報と前記目的言語構成情報とに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段、
としてコンピュータを機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9A】
【図9B】
【図9C】
【図10】
【図11】
【図12A】
【図12B】
【図12C】
【図12D】
【図12E】
【図13】
【図14】
【図15】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9A】
【図9B】
【図9C】
【図10】
【図11】
【図12A】
【図12B】
【図12C】
【図12D】
【図12E】
【図13】
【図14】
【図15】
【図16】
【公開番号】特開2012−141879(P2012−141879A)
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願番号】特願2011−513(P2011−513)
【出願日】平成23年1月5日(2011.1.5)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願日】平成23年1月5日(2011.1.5)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]