説明

情報処理装置、プログラム、および翻訳テンプレート生成方法

【課題】構文構造が異なった対訳文対から翻訳テンプレートを生成できるようにする。
【解決手段】取得手段1aは、第1の言語文と第2の言語文とを取得する。分割手段1bは、取得した第1および第2の言語文それぞれを、複数の形態素に分割する。カウント手段1cは、取得した第1および第2の言語文から分割された各形態素の出現頻度をカウントする。検出手段1eは、取得した第1の言語文から出現頻度が2以上の形態素を検出し、該検出された形態素の第2の言語における訳語であり、出現頻度が1の形態素を、取得した第2の言語文から検出する。生成手段1fは、取得した第1および第2の言語文それぞれから検出された形態素を変数に置き換える置換処理を行い、該置換処理後の第1および第2の言語文を含む翻訳テンプレートを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は翻訳テンプレートを生成する情報処理装置、プログラム、および翻訳テンプレート生成方法に関する。
【背景技術】
【0002】
コンピュータによる機械翻訳には、翻訳テンプレートが用いられることが多い。翻訳テンプレートとは、それぞれが固定文字列と変数文字列を持つ原言語文と目標言語文の対である。翻訳テンプレートは、例えば機械翻訳システムの保有する翻訳テンプレートデータベースに格納されている。機械翻訳システムに入力文が入力されると、機械翻訳システムにより、原言語文の固定文字列の部分が、入力文と一致するような翻訳テンプレートが検索される。そして機械翻訳システムは、検索で合致した翻訳テンプレートを用いて、入力文の訳文を生成する。例えば機械翻訳システムは、訳文の生成では、検出した翻訳テンプレートの目標言語文の固定文字列をそのまま出力する。そして機械翻訳システムは、検出した翻訳テンプレートの目標言語文における変数文字列の部分に対応する入力文の文字列を対訳辞書などにより翻訳し、変数文字列の部分に出力する。
【0003】
このようにして、翻訳テンプレートを用いた機械翻訳では、固定文字列については、翻訳テンプレートの文字列が、翻訳文としてそのまま利用される。翻訳テンプレートには、例えば特定の技術分野に特有の表現を、固定文字列で含ませておくことができる。そのため、翻訳テンプレートを用いた機械翻訳では、翻訳テンプレートが検索でヒットすれば、対象分野に特有の固有表現を固定文字列として出力することができ、高品質な訳文が得られるようになる。翻訳テンプレートを大量に用意し、入力文に対応する翻訳テンプレートの検索のヒット率を向上させれば、高品質な訳文が得られる割合も高くなる。
【0004】
ここで、翻訳テンプレートの生成を自動化できれば、翻訳テンプレートを大量に用意することが容易となる。そこで、例えば様々な語句に置き換え可能な変数を含む翻訳テンプレートを、対訳文を入力することにより自動的に生成する機械翻訳システムが考えられている。また、対訳文に対して構文解析といった処理を行わず、統計的処理のみで対訳単語を抽出する翻訳パターン生成方法も考えられている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平05−151260号公報
【特許文献2】特開平10−011445号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、従来の翻訳テンプレートの生成技術では、原文と訳文との対(対訳文対)が、構文的に同じ形をしていることが前提となっている。そのため、意味的には対応していても、構文構造が異なった対訳文対から翻訳テンプレートを生成することができない。
【0007】
1つの側面では、本発明は、構文構造が異なった対訳文対から翻訳テンプレートを生成することができる情報処理装置、プログラム、および翻訳テンプレート生成方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
1つの案では、取得手段、分割手段、カウント手段、検出手段、および生成手段を有する情報処理装置が提供される。取得手段は、第1の言語で記述された第1の言語文と、第1の言語文を第2の言語に訳した第2の言語文とを取得する。分割手段は、取得した第1および第2の言語文それぞれを、複数の形態素に分割する。カウント手段は、取得した第1の言語文から分割された各形態素の該第1の言語文内での出現頻度と、取得した第2の言語文から分割された各形態素の該第2の言語文内での出現頻度とをカウントする。検出手段は、取得した第1の言語文から出現頻度が2以上の形態素を検出し、該検出された形態素の第2の言語における訳語であり、出現頻度が1の形態素を、取得した第2の言語文から検出する。生成手段は、取得した第1および第2の言語文それぞれから検出された形態素を変数に置き換え、置き換え後の第1および第2の言語文を含む翻訳テンプレートを生成する。
【発明の効果】
【0009】
1態様によれば、構文構造が異なった対訳文対から翻訳テンプレートを生成することができる。
【図面の簡単な説明】
【0010】
【図1】第1の実施の形態に係る情報処理装置の機能構成例を示す図である。
【図2】第1の実施の形態における翻訳テンプレート生成処理の手順の一例を示すフローチャートである。
【図3】第1の実施の形態による翻訳テンプレート生成例を示す図である。
【図4】第2の実施の形態のシステム構成例を示す図である。
【図5】本実施の形態に用いる翻訳テンプレート生成装置のハードウェアの一構成例を示す図である。
【図6】翻訳テンプレート生成装置の機能を示すブロック図である。
【図7】生成条件記憶部のデータ構造の一例を示す図である。
【図8】対訳文対記憶部のデータ構造の一例を示す図である。
【図9】翻訳テンプレート生成処理の手順の一例を示すフローチャートである。
【図10】形態素解析の第1の例を示す図である。
【図11】対訳単語対の第1の対応付け例を示す図である。
【図12】形態素解析の第2の例を示す図である。
【図13】対訳単語対の第2の対応付け例を示す図である。
【図14】形態素解析の第3の例を示す図である。
【図15】対訳単語対の第3の対応付け例を示す図である。
【図16】形態素解析の第4の例を示す図である。
【図17】対訳単語対の第4の対応付け例を示す図である。
【図18】翻訳テンプレート生成対象判定処理の手順の一例を示すフローチャートである。
【図19】変数部特定の第1の例を示す図である。
【図20】変数部特定の第2の例を示す図である。
【図21】変数部特定の第3の例を示す図である。
【図22】翻訳テンプレートの生成例を示す図である。
【図23】自動翻訳の一例を示す図である。
【図24】第3の実施の形態の翻訳テンプレート生成処理の手順の一例を示すフローチャートである。
【図25】形態素対応付け処理の手順を示すフローチャートである。
【図26】形態素解析の第5の例を示す図である。
【図27】対訳単語対の第5の対応付け例を示す図である。
【図28】形態素列同士の対応付け例を示す図である。
【発明を実施するための形態】
【0011】
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施の形態〕
対訳文対のなかには、意味的には対応していても、原文と訳文とで構文構造が異なるものがある。そのような対訳文対の一例として、原言語の文(原文)で複数回出現する重複表現が目標言語の文(訳文)側では一つにまとめ上げられているような対訳文対がある。このような対訳文対については、原文と訳文との構文構造が異なっていても、有用な翻訳テンプレートを生成することができる。第1の実施の形態では、このことに着目して、翻訳テンプレートを生成するものである。
【0012】
図1は、第1の実施の形態に係る情報処理装置の機能構成例を示す図である。第1の実施の形態に係る情報処理装置1は、取得手段1a、分割手段1b、カウント手段1c、記憶手段1d、検出手段1e、および生成手段1fを有する。
【0013】
取得手段1aは、第1の言語で記述された第1の言語文と、第1の言語文を第2の言語に訳した第2の言語文とを取得する。例えば取得手段1aは、ユーザによって入力された第1の言語文と第2の言語文とを取得する。この場合、例えばユーザは、翻訳テンプレートの生成対象分野に関する内容を記述した第1の言語文と第2の言語文とを入力する。
【0014】
分割手段1bは、取得した第1および第2の言語文それぞれを、複数の形態素に分割する。形態素は、文を構成する最小単位である。例えば分割手段1bは、第1の言語文と第2の言語文との形態素解析を行い、第1および第2の言語文を複数の形態素に分割する。形態素解析とは、自然言語で書かれた文を形態素の列に分割し、各形態素の品詞を判別する処理である。
【0015】
カウント手段1cは、取得した第1の言語文から分割された各形態素の該第1の言語文内での出現頻度をカウントする。またカウント手段1cは、取得した第2の言語文から分割された各形態素の該第2の言語文内での出現頻度をカウントする。カウント手段1cは、例えば各形態素の出現頻度を、記憶手段1dに格納する。
【0016】
記憶手段1dは、第1の言語文と第2の言語文との形態素ごとの出現頻度を記憶する。
検出手段1eは、取得した第1の言語文から出現頻度が2以上の形態素を検出する。また検出手段1eは、第1の言語文から検出された形態素の第2の言語における訳語であり、出現頻度が1の形態素を、取得した第2の言語文から検出する。
【0017】
生成手段1fは、取得した第1および第2の言語文それぞれに対し、検出された形態素を変数に置き換える置換処理を行う。例えば生成手段1fは、取得した第1の言語文または第2の言語文から、連続する複数の形態素が検出された場合、連続する複数の形態素を1つの変数に置き換える。そして生成手段1fは、置換処理後の第1の言語文と第2の言語文とを含む翻訳テンプレートを生成する。
【0018】
なお、取得手段1a、分割手段1b、カウント手段1c、検出手段1e、および生成手段1fは、情報処理装置1が有するCPU(Central Processing Unit)により実現することができる。また、記憶手段1dは、情報処理装置1が有するRAM(Random Access Memory)やハードディスクドライブ(HDD:Hard Disk Drive)などにより実現することができる。
【0019】
また、図1に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。
次に、情報処理装置1により実行される翻訳テンプレート生成処理について説明する。
【0020】
図2は、第1の実施の形態における翻訳テンプレート生成処理の手順の一例を示すフローチャートである。
[ステップS1]取得手段1aは、第1の言語で記述された第1の言語文と、その第1の言語文を第2の言語に訳した第2の言語文とを取得する。取得手段1aは、取得した第1の言語文と第2の言語文とを、例えば分割手段1bに渡す。
【0021】
[ステップS2]分割手段1bは、取得した第1の言語文と第2の言語文との形態素解析を行い、複数の形態素に分割する。分割手段1bは、例えば形態素の配列で表された第1の言語文と第2の言語文とを、カウント手段1cと検出手段1eとに渡す。
【0022】
[ステップS3]カウント手段1cは、各形態素の出現頻度をカウントする。例えばカウント手段1cは、取得した第1の言語文から分割された各形態素の該第1の言語文内での出現頻度をカウントする。またカウント手段1cは、取得した第2の言語文から分割された各形態素の該第2の言語文内での出現頻度をカウントする。そしてカウント手段1cは、例えば各形態素の出現頻度を、記憶手段1dに格納する。
【0023】
[ステップS4]検出手段1eは、取得した第1の言語文から出現頻度が2以上の形態素を検出する。例えば検出手段1eは、記憶手段1dを参照することで、分割手段1bによって形態素に分割された第1の言語文の各形態素の出現頻度を認識する。
【0024】
[ステップS5]検出手段1eは、第1の言語文から検出された形態素の第2の言語における訳語であり、出現頻度が1の形態素を、取得した第2の言語文から検出する。例えば検出手段1eは、第1の言語と第2の言語との対訳辞書に基づいて、第1の言語文から検出された形態素の第2の言語における訳語を判断する。そして検出手段1eは、第1の言語文から検出された形態素の第2の言語における訳語を、分割手段1bによって形態素に分割された第2の言語文の形態素から検索する。さらに検出手段1eは、記憶手段1dを参照することで、第1の言語文から検出された形態素の第2の言語における訳語を示す第2の言語文の形態素の出現頻度を判断する。該当形態素の出現頻度が1であれば、その形態素が検出される。
【0025】
[ステップS6]生成手段1fは、取得した第1および第2の言語文それぞれに対し、検出された形態素を変数に置き換える置換処理を行う。
[ステップS7]生成手段1fは、検出された形態素を変数に置き換える置換処理後の第1の言語文と第2の言語文とを含む翻訳テンプレートを生成し、出力する。
【0026】
このようにして、翻訳テンプレートが生成される。なお、第1の実施の形態に示した技術は、例えばインドヨーロッパ諸語と日本語のように、言語構造の大きく異なる2言語間の翻訳テンプレート生成に対して適用可能である。そこで、言語構造の大きく異なる言語対の例として日本語と英語を取り上げ、日本語と英語の対訳例文からの翻訳テンプレート生成例について、以下に説明する。
【0027】
図3は、第1の実施の形態による翻訳テンプレート生成例を示す図である。
日本語で記述された第1の言語文2と、その第1の言語文2の英訳である第2の言語文3とが取得されると、第1の言語文2と第2の言語文3とが、例えば形態素解析によって複数の形態素に分割される。
【0028】
そして第1の言語文2と第2の言語文3それぞれに関し、各形態素の出現頻度がカウントされる。例えば、第1の言語文2の形態素ごとの出現頻度が設定された出現頻度テーブル4と、第2の言語文3の形態素ごとの出現頻度が設定された出現頻度テーブル5とが生成される。
【0029】
出現頻度テーブル4を参照することで、第1の言語文2の形態素の中から、出現頻度が「2」以上の形態素「電解」、「めっき」が検出される。そして出現頻度テーブル5を参照して、第1の言語文2から検出された形態素「電解」、「めっき」の英語の訳語「electrolytic」、「plating」の出現頻度が判断される。図3の例では、「electrolytic」、「plating」の出現頻度は「1」であるため、第2の言語文3から「electrolytic」と「plating」とが検出される。
【0030】
なお、第1の言語文2から検出された形態素は連続している。そこで、第1の言語文2に対して、抽出された連続する形態素を1つの変数Xiに置換する処理が行われる。また、第2の言語文3から検出された形態素も連続している。そこで、第2の言語文3に対して、抽出された連続する形態素を1つの変数Xtに置換する処理が行われる。
【0031】
そして、置換処理後の第1の言語文6と、置換処理後の第2の言語文7とを含む翻訳テンプレート8が生成される。
このように、対象分野の対訳文対から、このような重複表現のある対訳文対を自動抽出することによって、対訳文対において構文構造が対応していなくても翻訳テンプレートを生成することができる。しかも、大量の対訳例文がなくても、特定の対訳例文から翻訳テンプレートを生成することができる。
【0032】
例えば、特許明細書の文種における「発明の名称」を示す日英文対では、日本語側で「AB装置およびAB方法」のような文字列「AB」が、対応する英語側では“Device and method for AB”のように、1つにまとめあげられている事例が頻出する。対象分野にも依存するが、特許明細書であれば「発明の名称」文対全体の3割程度がこのような事例である。そのため、この特徴を利用して翻訳テンプレートを自動生成することにより、実用的な翻訳テンプレートを容易に生成可能となる。
【0033】
〔第2の実施の形態〕
次に第2の実施の形態について説明する。第2の実施の形態は、翻訳テンプレートを利用した機械翻訳をコンピュータシステムによって実現する自動翻訳システムである。また第2の実施の形態は、多数の対訳文対の中から、翻訳テンプレートの生成対象とすることができる対訳文対を特定し、特定した対訳文対に基づいて翻訳テンプレートを生成するものである。なお、第2の実施の形態では、日本語と英語との間の翻訳に用いる翻訳テンプレートを生成するものとする。以下の説明では、日本語を第1の言語、英語を第2の言語とする。
【0034】
図4は、第2の実施の形態のシステム構成例を示す図である。自動翻訳装置21は、翻訳対象の原文の入力を受け付け、その原文の翻訳文を出力するコンピュータである。自動翻訳装置21には、ネットワーク10を介して翻訳テンプレート生成装置100と端末装置22とが接続されている。端末装置22は、自動翻訳装置21による翻訳サービスの提供を受けるユーザが使用するコンピュータである。
【0035】
翻訳テンプレート生成装置100は、自動翻訳装置21が使用する翻訳テンプレートを生成するコンピュータである。翻訳テンプレートは、第1の言語により記述された第1の言語文と、その第1の言語文の意味を第2の言語で記述した第2の言語文との対である。翻訳テンプレートでは、第1の言語文と第2の言語文とは、それぞれ固定部と変数部とを有する。固定部は、翻訳テンプレートを用いた翻訳において、そのまま利用される文字列を示す部分である。変数部は、対訳辞書を用いた翻訳を行う文字列を示す部分である。
【0036】
翻訳テンプレート生成装置100は、生成した翻訳テンプレートを自動翻訳装置21に送信する。自動翻訳装置21は、翻訳テンプレート生成装置100から取得した翻訳テンプレートを用いて、自動翻訳を行う。
【0037】
なお、図4の例では、自動翻訳装置21と翻訳テンプレート生成装置100が別個の装置であるが、翻訳テンプレート生成装置100の機能を自動翻訳装置21に組み込むことも可能である。
【0038】
図5は、本実施の形態に用いる翻訳テンプレート生成装置のハードウェアの一構成例を示す図である。翻訳テンプレート生成装置100は、CPU101によって装置全体が制御されている。CPU101には、バス108を介してRAM102と複数の周辺機器が接続されている。
【0039】
RAM102は、翻訳テンプレート生成装置100の主記憶装置として使用される。RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。
【0040】
バス108に接続されている周辺機器としては、HDD103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、および通信インタフェース107がある。
【0041】
HDD103は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、翻訳テンプレート生成装置100の二次記憶装置として使用される。HDD103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、二次記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することもできる。
【0042】
グラフィック処理装置104には、モニタ11が接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ11の画面に表示させる。モニタ11としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
【0043】
入力インタフェース105には、キーボード12とマウス13とが接続されている。入力インタフェース105は、キーボード12やマウス13から送られてくる信号をCPU101に送信する。なお、マウス13は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
【0044】
光学ドライブ装置106は、レーザ光などを利用して、光ディスク14に記録されたデータの読み取りを行う。光ディスク14は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク14には、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。
【0045】
通信インタフェース107は、ネットワーク10に接続されている。通信インタフェース107は、ネットワーク10を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
【0046】
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、第1の実施の形態に示した情報処理装置も、図5に示したコンピュータと同様のハードウェアにより実現することができる。
【0047】
図6は、翻訳テンプレート生成装置の機能を示すブロック図である。翻訳テンプレート生成装置100は、情報の記憶機能として、対訳辞書記憶部110、生成条件記憶部120、対訳文対記憶部130、形態素頻度記憶部140、および翻訳テンプレート記憶部150を有する。
【0048】
対訳辞書記憶部110は、第1の言語(日本語)の単語に関する第2の言語(英語)での訳語(対訳辞書)を記憶する。対訳辞書は、対訳文対を構成する第1の言語文と第2の言語文とのそれぞれに含まれる形態素間の対応関係の判断に使用される。例えばRAM102またはHDD103の記憶領域の一部が、対訳辞書記憶部110として使用される。
【0049】
生成条件記憶部120は、対訳文対を翻訳テンプレートの生成対象とする条件(生成条件)を記憶する。生成条件は、例えば対訳文対を構成する各言語文に含まれる形態素の出現頻度を用いて定義される。生成条件に適合する場合には、対訳文対に基づいて、翻訳テンプレートが生成される。例えばRAM102またはHDD103の記憶領域の一部が、生成条件記憶部120として使用される。
【0050】
対訳文対記憶部130は、第1の言語文と、その第1の言語文を第2の言語に翻訳した第2の言語文との対からなる対訳文対を記憶する。例えばRAM102またはHDD103の記憶領域の一部が、対訳文対記憶部130として使用される。
【0051】
形態素頻度記憶部140は、対訳文対を構成する第1の言語文と第2の言語文とのそれぞれに含まれる形態素の出現頻度を記憶する。例えばRAM102またはHDD103の記憶領域の一部が形態素頻度記憶部140として使用される。
【0052】
翻訳テンプレート記憶部150は、生成された翻訳テンプレートを記憶する。例えばRAM102またはHDD103の記憶領域の一部が、翻訳テンプレート記憶部150として使用される。
【0053】
翻訳テンプレート生成装置100は、情報処理機能として、対訳文対取得部161、形態素解析部162、頻度カウント部163、形態素対応付け部164、対訳辞書検索部165、翻訳テンプレート生成対象判定部166、変数部特定部167、翻訳テンプレート生成部168、および翻訳テンプレート出力部169を有する。
【0054】
対訳文対取得部161は、対訳文対を取得する。例えば第1の言語の文章と、その文章の第2の言語による訳文が記載されたファイルの入力を受け付ける。すると、対訳文対取得部161は、日本文と、その文に対応する英文との対を生成し、対訳文対として対訳文対記憶部130に格納する。
【0055】
形態素解析部162は、対訳文対に含まれる第1の言語文と第2の言語文との形態素解析を行う。例えば形態素解析部162は、対訳文対記憶部130に格納されている対訳文対を選択し、選択した対訳文対を構成する日本文と英文との形態素解析を行う。形態素解析部162は、形態素解析の結果として、文ごとの形態素列を生成する。形態素解析部162は、生成した形態素列を、頻度カウント部163に渡す。
【0056】
頻度カウント部163は、形態素解析によって得られた各言語の形態素列において、各形態素の出現回数をカウントする。形態素ごとにカウントした値を、その形態素の出現頻度とする。頻度カウント部163は、各形態素の出現頻度を、形態素頻度記憶部140に格納する。
【0057】
形態素対応付け部164は、形態素解析された対訳文対の各言語文から、両言語間の対訳単語の対応付けを行う。例えば形態素対応付け部164は、対訳部の日本文の単語の対訳を、対訳辞書検索部165に要求する。すると対訳辞書検索部165から対訳の単語が応答される。形態素対応付け部164は、応答された対訳の単語を、英文から検索する。そして形態素対応付け部164は、日本文の単語と、その単語の対訳に当たる英文内の単語とを対応付ける。形態素対応付け部164は、単語間の対応関係を、翻訳テンプレート生成対象判定部166と変数部特定部167とに通知する。
【0058】
対訳辞書検索部165は、対訳辞書記憶部110から、対訳の単語を検索する。例えば対訳辞書検索部165は、形態素対応付け部164から指定された第1の言語の単語の対訳を、対訳辞書記憶部110から検索する。そして対訳辞書検索部165は、検索でヒットした英語の対訳を、形態素対応付け部164に渡す。
【0059】
翻訳テンプレート生成対象判定部166は、生成条件記憶部120の生成条件を参照し、形態素解析が行われた対訳文対が、翻訳テンプレートの生成条件を満たしているかどうかを判定する。ここで生成条件を満たしたか否かの判定結果を、変数部特定部167に渡す。
【0060】
変数部特定部167は、対訳文対が翻訳テンプレートの生成条件を満たしていると判定された場合、形態素対応付け部164の単語間の対応関係の特定結果に基づき、対訳文対における変数部とする文字列を特定する。例えば変数部特定部167は、第1の言語文の2以上の出現頻度の形態素を変数部とする。また変数部特定部167は、第2の言語文中の、第1の言語文において変数部とされた形態素の対訳語の形態素を変数部とする。変数部特定部167は、特定した変数部を翻訳テンプレート生成部168に通知する。
【0061】
翻訳テンプレート生成部168は、対訳文対を構成する各言語文における、変数部特定部167によって変数部と特定された文字列を、変数に置き換える。そして翻訳テンプレート生成部168は、一部を変数に置き換えた対訳文対を、翻訳テンプレートとして翻訳テンプレート記憶部150に格納する。
【0062】
翻訳テンプレート出力部169は、翻訳テンプレート記憶部150に格納された翻訳テンプレートを出力する。例えば翻訳テンプレート出力部169は、ユーザからの入力に応じて、翻訳テンプレートを自動翻訳装置21に送信する。
【0063】
なお、図6に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また図6に示した対訳文対取得部161は、図1に示した第1の実施の形態の取得手段1aの一例である。図6に示した形態素解析部162は、図1に示した第1の実施の形態の分割手段1bの一例である。図6に示した頻度カウント部163は、図1に示した第1の実施の形態のカウント手段1cの一例である。図6に示した形態素頻度記憶部140は、図1に示した記憶手段1dの一例である。図6に示した翻訳テンプレート生成対象判定部166と変数部特定部167とを合わせた機能は、図1に示した第1の実施の形態の検出手段1eの一例である。図6に示した翻訳テンプレート生成部168は、図1に示した第1の実施の形態の生成手段1fの一例である。
【0064】
次に、翻訳テンプレートの生成条件について説明する。
図7は、生成条件記憶部のデータ構造の一例を示す図である。生成条件記憶部120には、対訳文対から翻訳テンプレートを生成する条件を示す生成条件121が格納されている。図7に示す生成条件121は、「第1の言語に出現頻度「2」以上の形態素があり、該当する形態素に対応する第2の言語の形態素は出現頻度が「1」である」ことである。この対訳文対が生成条件121を満たす場合、その対訳文対に基づく翻訳テンプレートが生成される。
【0065】
次に、対訳文対記憶部130に格納される対訳文対について説明する。
図8は、対訳文対記憶部のデータ構造の一例を示す図である。対訳文対記憶部130には、対訳文対テーブル131が格納されている。対訳文対テーブル131には、対訳文対番号、第1の言語文、および第2の言語文の欄が設けられている。
【0066】
対訳文対番号の欄には、対訳文対の識別番号(対訳文対番号)が設定される。
第1の言語文の欄には、対訳文対を構成する第1の言語文が設定される。第2の実施の形態では、第1の言語文として日本文が設定されている。
【0067】
第2の言語文の欄には、対訳文対を構成する第2の言語文が設定される。第2の言語文は、対応する第1の言語文の第2の言語による訳文である。第2の実施の形態では、第2の言語文として英文が設定されている。
【0068】
図8に示すような対訳文対テーブル131に登録されている対訳文対に基づいて、翻訳テンプレートが生成される。以下、翻訳テンプレートの生成処理について説明する。
図9は、翻訳テンプレート生成処理の手順の一例を示すフローチャートである。以下、図9に示す処理をステップ番号に沿って説明する。なお図9に示す処理は、例えばユーザからの翻訳テンプレート作成指示に応じて実行される。
【0069】
[ステップS101]形態素解析部162は、対訳文対記憶部130から未処理の対訳文対を1つ取り出す。例えば形態素解析部162は、対訳文対記憶部130内の未処理の対訳文対のうち、対訳文対番号が最も小さい対訳文対を取り出す。
【0070】
[ステップS102]形態素解析部162は、取り出した対訳文対を構成する第1の言語文と第2の言語文とについて形態素解析を行い、形態素に分解する。形態素解析部162は、分解した形態素を頻度カウント部163に渡す。
【0071】
[ステップS103]頻度カウント部163は、第1の言語文と第2の言語文とのそれぞれの形態素の出現頻度をカウントする。
[ステップS104]頻度カウント部163は、カウントした形態素ごとの出現頻度を形態素頻度記憶部140に格納する。
【0072】
[ステップS105]形態素対応付け部164は、ステップS101で取得した対訳文の第1の言語文の形態素と第2の言語文の形態素とを対応付ける。例えば形態素対応付け部164は、対訳文対の第1の言語文を分割して得られた形態素を順次選択し、その形態素で示される単語の対訳の検索を対訳辞書検索部165に要求する。すると対訳辞書検索部165が、指定された単語の対訳を対訳辞書記憶部110から検索する。対訳辞書検索部165は、検索でヒットした情報から、指定された単語の第2の言語による訳語を抽出し、形態素対応付け部164に渡す。形態素対応付け部164は、選択した第1の言語の形態素で示される単語の訳語を、第2の言語文から分割された形態素の中から検索する。該当する第2の言語の形態素が見つかった場合、対訳辞書検索部165は、第1の言語文内の選択した第1の言語の形態素と、その形態素の訳語である第2の言語文の形態素とを対応付け、対訳単語対とする。
【0073】
[ステップS106]翻訳テンプレート生成対象判定部166は、ステップS101で取り出した対訳文対について、翻訳テンプレート生成対象判定処理を実行する。翻訳テンプレート生成対象判定処理は、対訳文対に基づいて翻訳テンプレートを生成するか否かを反対する処理である。翻訳テンプレート生成対象判定処理の戻り値として、対訳文対に基づいて、翻訳テンプレートを生成するか、しないかの判定結果が得られる。翻訳テンプレート生成対象判定処理の詳細は後述する(図18参照)。
【0074】
[ステップS107]翻訳テンプレート生成対象判定部166は、翻訳テンプレート生成対象判定処理により、ステップS101で取り出した対訳文対が翻訳テンプレートの生成対象に決定されたか否かを判断する。翻訳テンプレートの生成対象に決定した場合、処理をステップS108に進める。また翻訳テンプレート生成対象判定部166は、翻訳テンプレートの生成対象外に決定した場合、処理をステップS101に進める。
【0075】
[ステップS108]変数部特定部167は、対訳文対内の対訳単語対の情報と、各単語(形態素)の出現頻度とに基づいて、第1の言語文と第2の言語文とにおける変数部を特定する。例えば変数部特定部167は、第1の言語文の2以上の出現頻度の形態素を変数部とする。また変数部特定部167は、第2の言語文中の、第1の言語文において変数部とされた形態素の対訳語の形態素を変数部とする。
【0076】
[ステップS109]翻訳テンプレート生成部168は、翻訳テンプレートを生成する。例えば翻訳テンプレート生成部168は、ステップS101で抽出した対訳文対の変数部を変数に置き換えて、翻訳テンプレートとする。翻訳テンプレート生成部168は、生成した翻訳テンプレートを翻訳テンプレート記憶部150に格納する。
【0077】
[ステップS110]形態素解析部162は、未処理の対訳文対があるか否かを判断する。例えば形態素解析部162は、対訳文対記憶部130内の対訳文対を対訳文対番号の小さい順に抽出していき、最後に抽出した対訳文対が対訳文対記憶部130内の対訳文対番号で最後尾の対訳文対であれば、未処理の対訳文対はないと判断する。また、形態素解析部162は、最後に抽出した対訳文対が対訳文対記憶部130内の対訳文対番号で最後尾の対訳文対でなければ、未処理の対訳文対があると判断する。形態素解析部162は、未処理の対訳文対があれば、処理をステップS101に進める。また形態素解析部162は、未処理の対訳文対がなければ、処理を終了する。
【0078】
以下、図10〜図17に、対訳文対ごとの形態素解析および対訳単語対の対応付け例を示す。
図10は、形態素解析の第1の例を示す図である。対訳文対番号「33」の対訳文対30には、「電解めっき装置および電解めっき方法」という第1の言語文31と「device and method for electrolytic plating」という第2の言語文32とが含まれる。
【0079】
第1の言語文31を形態素解析すると、7個の形態素31a,31b,31c,31d,31e,31f,31gに分けられる。第2の言語文32を形態素解析すると、6個の形態素32a,32b,32c,32d,32e,32fに分けられる。
【0080】
形態素が生成されると、各形態素の出現頻度がカウントされる。そして、各形態素の出現頻度が、形態素頻度記憶部140に格納される。形態素頻度記憶部140には、言語文ごとの出現頻度テーブル141,142が設けられている。
【0081】
第1の言語文31の出現頻度テーブル141には、形態素と出現頻度との欄が設けられている。形態素の欄には、第1の言語文31の形態素解析で得られた形態素が設定される。出現頻度の欄には、第1の言語文31内での形態素の出現頻度(出現した回数)が設定される。
【0082】
第2の言語文32の出現頻度テーブル142には、形態素と出現頻度との欄が設けられている。形態素の欄には、第2の言語文32の形態素解析で得られた形態素が設定される。出現頻度の欄には、第2の言語文32内での形態素の出現頻度(出現した回数)が設定される。
【0083】
なお形態素の出現頻度のカウント方法として、出現頻度テーブル141,142を利用することができる。例えば頻度カウント部163は、各言語文の形態素解析で得られた形態素を、その言語文に対応する出現頻度テーブルに順次登録する。そのときの形態素の出現頻度は、初期値「1」とする。言語文から得られたすべての形態素の登録が終了すると、頻度カウント部163は、出現頻度テーブルのエントリを形態素の文字列でソートする。すると、同じ文字列の形態素は、連続したエントリとなる。そこで頻度カウント部163は、出現頻度テーブル上で上下に隣接するエントリ間の形態素を比較し、同じ文字列であれば、エントリを統合(マージ)する。頻度カウント部163は、エントリの統合では、一方のエントリを削除し、削除したエントリの出現頻度の値を、他方のエントリの出現頻度に加算する。頻度カウント部163は、このような比較と統合を、統合できなくなくなるまで繰り返す。これにより、ある1つの単語を表す形態素のエントリは、出現頻度テーブル内で1つとなり、そのエントリには、その形態素の正しい出現頻度が設定される。
【0084】
形態素解析により生成された形態素は、形態素対応付け部164により、対訳単語間の対応付けが行われる。
図11は、対訳単語対の第1の対応付け例を示す図である。図11の例では、対訳文対30の第1の言語文31を形態素解析で分解して得られる形態素と、対訳文対30の第2の言語文32を形態素解析で分解して得られる形態素との対応付け例を示している。
【0085】
例えば対訳辞書記憶部110に格納された対訳辞書111には、第1の言語文31の形態素31aの文字列「電解」の訳語が「electrolytic」であることが示されている。そこで、第1の言語文31の形態素31aは、「electrolytic」とう文字列である形態素32eに対応付けられている。同様に第1の言語文31の他の形態素も、その形態素の文字列の意味に対応する第2の言語における意味を有する第2の言語文の形態素に対応付けられている。
【0086】
図12は、形態素解析の第2の例を示す図である。対訳文対番号「45」の対訳文対40の第1の言語文41の内容は「農薬使用基準作成方法、農薬使用基準作成装置及び農薬使用基準作成プログラム」である。また対訳文対40の第2の言語文42の内容は「method, device and program for forming agricultural chemical use reference」である。
【0087】
第1の言語文41を形態素解析すると、16個の形態素41a,41b,41c,41d,41e,41f,41g,41h,41i,41j,41k,41l,41m,41n,41o,41pに分けられる。第2の言語文42を形態素解析すると、10個の形態素42a,42b,42c,42d,42e,42f,42g,42h,42i,42jに分けられる。形態素が生成されると、各形態素の出現頻度がカウントされる。そして、各形態素の出現頻度が、形態素頻度記憶部140の言語文ごとの出現頻度テーブル143,144に設定される。
【0088】
図13は、対訳単語対の第2の対応付け例を示す図である。図13の例では、対訳文対40の第1の言語文41を形態素解析で分解して得られる形態素と、対訳文対40の第2の言語文42を形態素解析で分解して得られる形態素との対応付け例を示している。
【0089】
図14は、形態素解析の第3の例を示す図である。対訳文対番号「51」の対訳文対50の第1の言語文51の内容は「建物組立方法」である。また対訳文対50の第2の言語文52の内容は「method for assembling building」である。
【0090】
第1の言語文51を形態素解析すると、3個の形態素51a,51b,51cに分けられる。第2の言語文52を形態素解析すると、4個の形態素52a,52b,52c,52dに分けられる。形態素が生成されると、各形態素の出現頻度がカウントされる。そして、各形態素の出現頻度が、形態素頻度記憶部140の言語文ごとの出現頻度テーブル145,146に設定される。
【0091】
図15は、対訳単語対の第3の対応付け例を示す図である。図15の例では、対訳文対50の第1の言語文51を形態素解析で分解して得られる形態素と、対訳文対50の第2の言語文52を形態素解析で分解して得られる形態素との対応付け例を示している。
【0092】
図16は、形態素解析の第4の例を示す図である。対訳文対番号「82」の対訳文対60の第1の言語文61の内容は「材料圧縮装置、および、材料圧縮方法」である。また対訳文対60の第2の言語文62の内容は「device and method for compressing material」である。
【0093】
第1の言語文61を形態素解析すると、7個の形態素61a,61b,61c,61d,61e,61f,61gに分けられる。第2の言語文62を形態素解析すると、6個の形態素62a,62b,62c,62d,62e,62fに分けられる。形態素が生成されると、各形態素の出現頻度がカウントされる。そして、各形態素の出現頻度が、形態素頻度記憶部140の言語文ごとの出現頻度テーブル147,148に設定される。
【0094】
図17は、対訳単語対の第4の対応付け例を示す図である。図17の例では、対訳文対60の第1の言語文61を形態素解析で分解して得られる形態素と、対訳文対60の第2の言語文62を形態素解析で分解して得られる形態素との対応付け例を示している。
【0095】
図10〜図17に示したような対訳文対の形態素ごとの出現頻度、および形態素の対応付け結果に基づいて、その対訳文対を翻訳テンプレート生成対象とするか否かの判定処理が行われる。
【0096】
図18は、翻訳テンプレート生成対象判定処理の手順の一例を示すフローチャートである。以下、図18に示す処理をステップ番号に沿って説明する。
[ステップS121]翻訳テンプレート生成対象判定部166は、ステップS101(図9参照)で取り出した対訳文対の第1の言語文に出現頻度が「2」以上の形態素があるか否かを判断する。例えば、翻訳テンプレート生成対象判定部166は、形態素頻度記憶部140内の第1の言語文の出現頻度テーブルを参照し、出現頻度の欄に「2」以上の値が設定されたレコードの有無を判断する。該当するレコードがあれば、翻訳テンプレート生成対象判定部166は、出現頻度が「2」以上の形態素があると判断する。翻訳テンプレート生成対象判定部166は、該当する形態素があれば、処理をステップS122に進める。また翻訳テンプレート生成対象判定部166は、該当する形態素がなければ、処理をステップS124に進める。
【0097】
[ステップS122]翻訳テンプレート生成対象判定部166は、第1の言語文内の出現頻度が「2」以上の形態素に対応する第2の言語文の形態素は、出現頻度が「1」か否かを判断する。例えば翻訳テンプレート生成対象判定部166は、形態素対応付け部164から対訳単語対の対応付け結果を取得し、第1の言語文内の出現頻度が「2」以上の形態素に対応付けられた第2の言語文内の形態素を判断する。そして翻訳テンプレート生成対象判定部166は、形態素頻度記憶部140内の第2の言語文の出現頻度テーブルを参照し、第1の言語文内の出現頻度が「2」以上の形態素に対応付けられた第2の言語文内の形態素の出現頻度が「1」か否かを判断する。該当する形態素の出現頻度が「1」であれば、翻訳テンプレート生成対象判定部166は、処理をステップS123に進める。該当する形態素の出現頻度が「2」以上であれば、翻訳テンプレート生成対象判定部166は、処理をステップS124に進める。
【0098】
[ステップS123]翻訳テンプレート生成対象判定部166は、ステップS101(図9参照)で取り出した対訳文対を、翻訳テンプレートの生成対象と決定する。その後、翻訳テンプレート生成対象判定処理が終了する。
【0099】
[ステップS124]翻訳テンプレート生成対象判定部166は、ステップS101(図9参照)で取り出した対訳文対を、翻訳テンプレートの生成対象外と決定する。その後、翻訳テンプレート生成対象判定処理が終了する。
【0100】
このようにして、対訳文対ごとに翻訳テンプレートの生成の有無が決定される。例えば、図10に示した対訳文対30の場合、第1の言語文31に出現頻度「2」の2つの形態素「電解」、「めっき」がある。図11に示した対応付けによると、「電解」に対応する第2の言語文32内の形態素は「electrolytic」である。また「めっき」に対応する第2の言語文32内の形態素は「plating」である。図10を参照すると、第2の言語文32の「electrolytic」と「plating」との出現頻度は共に「1」である。その結果、対訳文対30は、翻訳テンプレートの生成対象に決定される。同様に、図12、図13に示した対訳文対40,60も、翻訳テンプレートの生成対象に決定される。
【0101】
図14に示した対訳文対50の場合、第1の言語文51に出現頻度「2」の形態素が存在しない。そのため対訳文対50に基づく翻訳テンプレートの生成は行わないと決定される。
【0102】
翻訳テンプレートの生成対象に決定された対訳文対30,40,60それぞれについて、変数部が特定される。図19〜図21に変数部特定例を示す。
図19は、変数部特定の第1の例を示す図である。図19には、対訳文対30を構成する第1の言語文31と第2の言語文32に関する、変数部と固定部との特定処理が示されている。
【0103】
第1の言語文31では、出現頻度が「2」以上なのは、「電解」と「めっき」の形態素31a,31b,31e,31fである。この例では、「電解」と「めっき」との形態素が隣接しており、出現頻度が「2」以上の隣接する形態素の組が2セット出現している。これらの形態素31a,31b,31e,31fに対応する第2の言語文32内の形態素は、形態素32e,32fである。そこで第1の言語文31の形態素31a,31b,31e,31fが変数部に特定される。変数部以外の形態素31c,31d,31gは、固定部に特定される。また第2の言語文32の形態素32e,32fが変数部に特定される。変数部以外の形態素32a,32b,32c,32dは、固定部に特定される。
【0104】
図20は、変数部特定の第2の例を示す図である。図20には、対訳文対40を構成する第1の言語文41と第2の言語文42とに関する、変数部と固定部との特定処理が示されている。
【0105】
第1の言語文41では、出現頻度が「2」以上なのは、「農薬」、「使用」、「基準」、「作成」の形態素41a,41b,41c,41d,41f,41g,41h,41i,41l,41m,41n,41oである。この例では、「農薬」、「使用」、「基準」、および「作成」の形態素が隣接しており、出現頻度が「2」以上の隣接する形態素の組が、3セット出現している。これらの形態素41a,41b,41c,41d,41f,41g,41h,41i,41l,41m,41n,41oに対応する第2の言語文42内の形態素は、形態素42f,42g,42h,42i,42jである。そこで第1の言語文41の形態素41a,41b,41c,41d,41f,41g,41h,41i,41l,41m,41n,41oが変数部に特定される。変数部以外の形態素41e,41j,41k,41pは、固定部に特定される。また第2の言語文42の形態素42f,42g,42h,42i,42jが変数部に特定される。変数部以外の形態素42a,42b,42c,42d,42eは、固定部に特定される。
【0106】
図21は、変数部特定の第3の例を示す図である。図21には、対訳文対60を構成する第1の言語文61と第2の言語文62とに関する、変数部と固定部との特定処理が示されている。
【0107】
第1の言語文61では、出現頻度が「2」以上なのは、「圧縮」、「材料」の形態素61a,61b,61e,61fである。この例では、「圧縮」と「材料」との形態素が隣接しており、出現頻度が「2」以上の隣接する形態素の組が2セット出現している。これらの形態素61a,61b,61e,61fに対応する第2の言語文62内の形態素は、形態素62e,62fである。そこで第1の言語文61の形態素61a,61b,61e,61fが変数部に特定される。変数部以外の形態素61c,61d,61gは、固定部に特定される。また第2の言語文62の形態素62e,62fが変数部に特定される。変数部以外の形態素62a,62b,62c,62dは、固定部に特定される。
【0108】
図19〜図21に示すように、対訳文対の形態素が固定部と変数部とに分けられると、変数部を所定の変数に置き換えることで、翻訳テンプレートが生成される。なお、第2の実施の形態では、変数部が連続する複数の形態素(形態素列)の場合、形態素列を纏めて1つの変数に置き換える。これにより、翻訳テンプレートの構造が簡略化され、自動翻訳時の処理効率が向上する。
【0109】
図22は、翻訳テンプレートの生成例を示す図である。図22に示すように、対訳文対30,40,60の変数部の変数化を行うことで、翻訳テンプレート71〜73が生成される。なお図22の例では、対訳文対30,40,60の変数部を下線で示している。
【0110】
生成された翻訳テンプレート71〜73では、対訳文対30,40,60それぞれの第1の言語文の変数部は、変数Xiに置き換えられている。また生成された翻訳テンプレート71〜73では、対訳文対30,40,60それぞれの第2の言語文の変数部は、変数Xtに置き換えられている。
【0111】
生成された翻訳テンプレート71〜73は、翻訳テンプレート記憶部150に格納される。そして翻訳テンプレート記憶部150に格納された翻訳テンプレートは、翻訳テンプレート出力部169により、例えば自動翻訳装置21に送信される。
【0112】
自動翻訳装置21は、受け取った翻訳テンプレートをHDDなどの記憶媒体に格納する。そして自動翻訳装置21は、例えば端末装置22から翻訳対象の原文を含む翻訳要求を受信すると、翻訳テンプレートを用いて原文を自動翻訳する。
【0113】
図23は、自動翻訳の一例を示す図である。例えば翻訳対象として、第1の言語による原文81が自動翻訳装置21に入力される。図23の例では、原文81の内容は、「箱形成装置、および、箱形成方法」である。
【0114】
自動翻訳装置21は、入力された原文81を検索条件として、予め保持している翻訳テンプレート群82の中から、原文81の第2の言語への翻訳に使用可能な翻訳テンプレートを検索する(ステップS131)。例えば自動翻訳装置21は、翻訳テンプレート群82に含まれる各翻訳テンプレートの第1の言語文における変数を任意の1以上の文字列とみなした場合に、原文81とマッチする第1の言語文を検索する。このとき、第1の言語文の複数の箇所に同じ変数が設定されている場合、原文81の対応する複数の箇所には同じ文字列が記載されていることが、原文81とマッチする第1の言語文の条件となる。図23の例では、原文81で検索を行うと、「Xi装置、および、Xi方法」という第1の言語文が設定された翻訳テンプレートがマッチする。
【0115】
自動翻訳装置21は、検索でマッチした翻訳テンプレートの第2の言語文を用いて、訳文84を生成する(ステップS132)。例えば自動翻訳装置21は、原文81から、検出された翻訳テンプレートの第1の言語文の変数に対応する部分(変数部)の文字列を抽出する。自動翻訳装置21は、抽出した文字列に対応する第2の言語による訳語を、対訳辞書83を用いて特定する。そして自動翻訳装置21は、検出した翻訳テンプレートの第2の言語文の変数の位置に、特定した訳語を挿入し、訳文84とする。
【0116】
例えば図23の例では、原文81の「箱形成」の文字列が変数部となる。一方、対訳辞書83には、第1の言語「箱」の第2の言語の訳語が「box」であり、第1の言語「形成」の第2の言語の訳語が「forming」であることが示されている。そこで検出された翻訳テンプレートの第2の言語文「device and method for Xt」の変数が、「箱形成」に対応する文字列「forming box」に置き換えられる。変数を具体的な文字列に置き換えた結果が、訳文84となる。訳文84は、翻訳を依頼した端末装置22に送信される。
【0117】
以上説明したように、第2の実施の形態では、対訳文対において構文構造が対応していなくても翻訳テンプレートを生成することができる。
すなわち、対訳文対の第1の言語文で複数回出現する重複表現が、第2の言語文では一つにまとめ上げられている場合、第1の言語文と第2の言語文とでは、構文構造が対応しなくなる。その一方で、所定の分野の対訳文対の中で、第1の言語文で複数回出現する重複表現が、第2の言語文では一つにまとめ上げられている場合には、適切な翻訳テンプレートを生成することができるという特徴がある。第2の実施の形態では、このことに着目して、対象分野の対訳文対から、このような重複表現のある対訳文対を自動抽出することによって、特定の対訳例文から翻訳テンプレートを生成することができる。しかも、1つの対訳文対から、適切な翻訳テンプレートを生成することができるため、大量の対訳例文がなくても多数の翻訳テンプレートを生成可能である。
【0118】
第1の言語文で複数回出現する重複表現が、第2の言語文では一つにまとめ上げられるような翻訳文は、現実に多く存在する。例えば、日本国特許明細書における「発明の名称」と、その発明の名称の翻訳文とからなる対訳文対に基づいて、翻訳テンプレートを生成したところ、翻訳テンプレートの生成条件を満たすのが全体の3割程度であった。この3割の対訳文対から翻訳テンプレートを生成したところ、9割以上の高い確率で、自動翻訳で使用可能な適切な翻訳テンプレートが生成できた。
【0119】
このように、構文的な対応のない対訳例文からでも翻訳テンプレートを自動的に生成することができるようになったことで、有用な大量の翻訳テンプレートを容易に生成できる。大量の翻訳テンプレートを自動翻訳装置21に登録しておけば、自動翻訳装置21における翻訳テンプレートのヒット率が向上する。その結果、信頼性の高い自動翻訳が可能となる。
【0120】
〔第3の実施の形態〕
次に第3の実施の形態について説明する。第3の実施の形態は、第1の言語文の変数部の形態素に示される単語の訳語が、第2の言語文から見つからない場合であっても、適切な翻訳テンプレートを生成できるようにしたものである。すなわち第3の実施の形態では、単語対応の欠損があっても、翻訳テンプレートを生成できる。
【0121】
なお第3の実施の形態のシステム構成は、図4、図5に示した第2の実施の形態の構成と同様である。また第3の実施の形態の翻訳テンプレート生成装置の機能構成は、図6に示した第2の実施の形態の機能構成と同様である。ただし第3の実施の形態では、機能構成の一部の要素について、その機能が第2の実施の形態と異なる。そこで、図4〜図6に示した要素の符号を用いて、第3の実施の形態における第2の実施の形態との相違点を説明する。
【0122】
図24は、第3の実施の形態の翻訳テンプレート生成処理の手順の一例を示すフローチャートである。この処理は、ステップS105aの処理を除き、図9に示した第2の実施の形態の処理と同様である。
【0123】
ステップS105aでは、形態素対応付け部164が形態素対応付け処理を行う。このとき形態素対応付け部164は、対訳辞書を参照しただけでは対応付けができない形態素間を、隣接する形態素の対応関係を利用して対応付ける。
【0124】
図25は、形態素対応付け処理の手順を示すフローチャートである。以下、図25に示す処理をステップ番号に沿って説明する。
[ステップS201]形態素対応付け部164は、対訳辞書を用いて、第1の言語文の形態素と、その形態素で示される単語の訳語である第2の言語文の形態素とを対応付ける。
【0125】
[ステップS202]形態素対応付け部164は、第1の言語文のすべての形態素が、第2の言語文のいずれかの形態素に対応付けられたか否かを判断する。すべての形態素が対応付けられた場合、形態素対応付け部164は処理を終了する。少なくとも1つの形態素が対応付けられていない場合、形態素対応付け部164は処理をステップS203に進める。
【0126】
[ステップS203]形態素対応付け部164は、第1の言語文から出現頻度が「2」以上で、同頻度の隣接する形態素(形態素列)を検出する。
[ステップS204]形態素対応付け部164は、ステップS203で検出した形態素列内の一部の形態素にステップS201の処理により対応付けられている、第2の言語文の形態素を特定する。
【0127】
[ステップS205]形態素対応付け部164は、ステップS203で検出した形態素列内の形態素のうち、ステップS204で特定した形態素に隣接する、対応付けが行われていない形態を検出する。そして、形態素対応付け部164は、ステップS204で特定した形態素と検出した形態素とを合わせた形態素列を、ステップS203で検出した形態素列に対する第2の言語文側の対応部分とする。
【0128】
[ステップS206]形態素対応付け部164は、ステップS203で検出した第1の言語文の形態素列と、ステップS205で対応部分に決定された第2の言語文の形態素列とを対応付ける。その後、形態素対応付け処理を終了する。
【0129】
このようにして、対訳辞書だけでは対応付けられない形態素間の対応付けが可能となる。以下、第3の実施の形態による形態素の対応付け例について説明する。
図26は、形態素解析の第5の例を示す図である。対訳文対番号「105」の対訳文対90の第1の言語文91の内容は「空気調和装置、および空気調和方法」である。また対訳文対90の第2の言語文92の内容は「device and method for air conditioning」である。
【0130】
第1の言語文91を形態素解析すると、7個の形態素91a,91b,91c,91d,91e,91f,91gに分けられる。第2の言語文92を形態素解析すると、6個の形態素92a,92b,92c,92d,92e,92fに分けられる。形態素が生成されると、各形態素の出現頻度がカウントされる。そして、各形態素の出現頻度が、形態素頻度記憶部140の言語文ごとの出現頻度テーブル149a,149bに設定される。
【0131】
図27は、対訳単語対の第5の対応付け例を示す図である。図27の例では、対訳文対90の第1の言語文91を形態素解析で分解して得られる形態素と、対訳文対90の第2の言語文92を形態素解析で分解して得られる形態素との対応付け例を示している。この例では、対訳辞書111に、第1の言語「調和」の訳文として、第2の言語「harmony」が設定されている。しかし、第2の言語文92には、「harmony」の形態素は含まれていない。そのため第1の言語文91の「調和」の形態素91b,91fには、第2の言語文92の形態素が対応付けられていない。
【0132】
このような場合、図25のステップS203〜S206の処理による形態素列同士の対応付けが行われる。
図28は、形態素列同士の対応付け例を示す図である。第1の言語文91には、頻度が「2」以上であり、同頻度の連続する形態素列として、「空気」と「調和」との形態素列が含まれている。該当する形態素列に含まれる形態素91a,91b,91e,91fのうち、「空気」の形態素91a,91eについては、第2の言語文92の「air」の形態素92eに対応付けられている。
【0133】
第2の言語文92の「air」の形態素92eの隣には、「conditioning」という形態素92fがある。この形態素92fは、第1の言語文91内のいずれの形態素にも対応付けられていない。そこで、第2の言語文92の「air」の形態素92eと「conditioning」の形態素92fとを合わせた形態素列が、第1の言語文の「空気」と「調和」とを合わせた形態素列に対応付けられる。
【0134】
このようにして、対訳辞書に載っていない訳語であっても、隣接する形態素の対応関係を参照することで、形態素間の適切な対応付けが可能となる。特に、技術用語には、一般的な対訳辞書に載っていない訳語が多数存在し、その技術分野に特化した対訳辞書であっても網羅しきれない場合がある。このような、特定の技術分野でのみ使用される訳語であっても、第3の実施の形態を用いれば、原語の形態素と訳語の形態素とを正しく対応付けることができる。適切な対応付けを行うことで、翻訳テンプレート生成時の変数部を適切に判断できるようになる。その結果、品質の高い翻訳テンプレートが生成可能となる。
【0135】
〔その他の実施の形態〕
上記第1〜第3の実施の形態に示した技術は、翻訳テンプレート生成技術の1つであり、翻訳テンプレート生成装置100は、他の翻訳テンプレート生成技術と第1〜第3の実施の形態に示した翻訳テンプレート生成技術とを併用することができる。様々な翻訳テンプレート生成技術を併用することで、より多くの翻訳テンプレートが生成可能となる。
【0136】
なお、上記の各実施の形態に示した処理機能は、コンピュータによって実現することができる。その場合、翻訳テンプレート生成装置が有する機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD、DVD−RAM、CD−ROM/RWなどがある。光磁気記録媒体には、MO(Magneto-Optical disc)などがある。
【0137】
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
【0138】
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
【0139】
また、上記の処理機能の少なくとも一部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現することもできる。
【0140】
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
【0141】
以上の実施の形態に開示された技術には、以下の付記に示す技術が含まれる。
(付記1) 第1の言語で記述された第1の言語文と、前記第1の言語文を第2の言語に訳した第2の言語文とを取得する取得手段と、
前記取得した第1および第2の言語文それぞれを、複数の形態素に分割する分割手段と、
前記取得した第1の言語文から分割された各形態素の該第1の言語文内での出現頻度と、前記取得した第2の言語文から分割された各形態素の該第2の言語文内での出現頻度とをカウントするカウント手段と、
前記取得した第1の言語文から出現頻度が2以上の形態素を検出し、該検出された形態素の前記第2の言語における訳語であり、出現頻度が1の形態素を、前記取得した第2の言語文から検出する検出手段と、
前記取得した第1および第2の言語文それぞれから検出された形態素を変数に置き換え、置き換え後の第1および第2の言語文を含む翻訳テンプレートを生成する生成手段と、
を有する情報処理装置。
【0142】
(付記2) 前記検出手段は、前記取得した第1の言語文において出現頻度が2以上で連続する複数の形態素のうちの一部の形態素について、前記第2の言語における訳語が前記取得した第2の言語文内に検出できない場合、該複数の形態素のうちの該一部の形態素以外の形態素の前記第2の言語における訳語であり、出現頻度が1の該第2の言語文内の形態素と、該形態素に隣接し、該第1の言語文に含まれるいずれの形態素の訳語にも該当しない形態素とを、該第2の言語文から検出する、
ことを特徴とする付記1記載の情報処理装置。
【0143】
(付記3) 前記取得手段は、前記第1の言語で記述された第1の言語文と、該第1の言語文を前記第2の言語に訳した第2の言語文との対からなる複数の対訳文対が記憶された記憶手段から、対訳文対を順次取得し、
前記検出手段は、前記取得した対訳文対の第1の言語文から出現頻度が2以上の形態素が検出でき、かつ該検出された形態素の前記第2の言語における訳語であり、出現頻度が1の形態素が、前記取得した対訳文対の第2の言語文から検出できた場合、前記取得した対訳文対を翻訳テンプレートの生成対象に決定し、
前記生成手段は、翻訳テンプレートの生成対象に決定された対訳文対に基づいて、翻訳テンプレートを生成する、
ことを特徴とする付記1または2のいずれかに記載の情報処理装置。
【0144】
(付記4) 前記生成手段は、前記取得した第1または第2の言語文から、連続する複数の形態素が検出された場合、該連続する複数の形態素を1つの変数に置き換えることを特徴とする付記1乃至3のいずれかに記載の情報処理装置。
【0145】
(付記5) コンピュータに、
第1の言語で記述された第1の言語文と、前記第1の言語文を第2の言語に訳した第2の言語文とを取得し、
前記取得した第1および第2の言語文それぞれを、複数の形態素に分割し、
前記取得した第1の言語文から分割された各形態素の該第1の言語文内での出現頻度と、前記取得した第2の言語文から分割された各形態素の該第2の言語文内での出現頻度とをカウントし、
前記取得した第1の言語文から出現頻度が2以上の形態素を検出し、
前記取得した第1の言語文から検出された形態素の前記第2の言語における訳語であり、出現頻度が1の形態素を、前記取得した第2の言語文から検出し、
前記取得した第1および第2の言語文それぞれから検出された形態素を変数に置き換え、置き換え後の第1および第2の言語文を含む翻訳テンプレートを生成する、
処理を実行させるプログラム。
【0146】
(付記6) コンピュータが、
第1の言語で記述された第1の言語文と、前記第1の言語文を第2の言語に訳した第2の言語文とを取得し、
前記取得した第1および第2の言語文それぞれを、複数の形態素に分割し、
前記取得した第1の言語文から分割された各形態素の該第1の言語文内での出現頻度と、前記取得した第2の言語文から分割された各形態素の該第2の言語文内での出現頻度とをカウントし、
前記取得した第1の言語文から出現頻度が2以上の形態素を検出し、
前記取得した第1の言語文から検出された形態素の前記第2の言語における訳語であり、出現頻度が1の形態素を、前記取得した第2の言語文から検出し、
前記取得した第1および第2の言語文それぞれから検出された形態素を変数に置き換え、置き換え後の第1および第2の言語文を含む翻訳テンプレートを生成する、
翻訳テンプレート生成方法。
【符号の説明】
【0147】
1 情報処理装置
1a 取得手段
1b 分割手段
1c カウント手段
1d 記憶手段
1e 検出手段
1f 生成手段

【特許請求の範囲】
【請求項1】
第1の言語で記述された第1の言語文と、前記第1の言語文を第2の言語に訳した第2の言語文とを取得する取得手段と、
前記取得した第1および第2の言語文それぞれを、複数の形態素に分割する分割手段と、
前記取得した第1の言語文から分割された各形態素の該第1の言語文内での出現頻度と、前記取得した第2の言語文から分割された各形態素の該第2の言語文内での出現頻度とをカウントするカウント手段と、
前記取得した第1の言語文から出現頻度が2以上の形態素を検出し、該検出された形態素の前記第2の言語における訳語であり、出現頻度が1の形態素を、前記取得した第2の言語文から検出する検出手段と、
前記取得した第1および第2の言語文それぞれから検出された形態素を変数に置き換え、置き換え後の第1および第2の言語文を含む翻訳テンプレートを生成する生成手段と、
を有する情報処理装置。
【請求項2】
前記検出手段は、前記取得した第1の言語文において出現頻度が2以上で連続する複数の形態素のうちの一部の形態素について、前記第2の言語における訳語が前記取得した第2の言語文内に検出できない場合、該複数の形態素のうちの該一部の形態素以外の形態素の前記第2の言語における訳語であり、出現頻度が1の該第2の言語文内の形態素と、該形態素に隣接し、該第1の言語文に含まれるいずれの形態素の訳語にも該当しない形態素とを、該第2の言語文から検出する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項3】
前記取得手段は、前記第1の言語で記述された第1の言語文と、該第1の言語文を前記第2の言語に訳した第2の言語文との対からなる複数の対訳文対が記憶された記憶手段から、対訳文対を順次取得し、
前記検出手段は、前記取得した対訳文対の第1の言語文から出現頻度が2以上の形態素が検出でき、かつ該検出された形態素の前記第2の言語における訳語であり、出現頻度が1の形態素が、前記取得した対訳文対の第2の言語文から検出できた場合、前記取得した対訳文対を翻訳テンプレートの生成対象に決定し、
前記生成手段は、翻訳テンプレートの生成対象に決定された対訳文対に基づいて、翻訳テンプレートを生成する、
ことを特徴とする請求項1または2のいずれかに記載の情報処理装置。
【請求項4】
コンピュータに、
第1の言語で記述された第1の言語文と、前記第1の言語文を第2の言語に訳した第2の言語文とを取得し、
前記取得した第1および第2の言語文それぞれを、複数の形態素に分割し、
前記取得した第1の言語文から分割された各形態素の該第1の言語文内での出現頻度と、前記取得した第2の言語文から分割された各形態素の該第2の言語文内での出現頻度とをカウントし、
前記取得した第1の言語文から出現頻度が2以上の形態素を検出し、
前記取得した第1の言語文から検出された形態素の前記第2の言語における訳語であり、出現頻度が1の形態素を、前記取得した第2の言語文から検出し、
前記取得した第1および第2の言語文それぞれから検出された形態素を変数に置き換え、置き換え後の第1および第2の言語文を含む翻訳テンプレートを生成する、
処理を実行させるプログラム。
【請求項5】
コンピュータが、
第1の言語で記述された第1の言語文と、前記第1の言語文を第2の言語に訳した第2の言語文とを取得し、
前記取得した第1および第2の言語文それぞれを、複数の形態素に分割し、
前記取得した第1の言語文から分割された各形態素の該第1の言語文内での出現頻度と、前記取得した第2の言語文から分割された各形態素の該第2の言語文内での出現頻度とをカウントし、
前記取得した第1の言語文から出現頻度が2以上の形態素を検出し、
前記取得した第1の言語文から検出された形態素の前記第2の言語における訳語であり、出現頻度が1の形態素を、前記取得した第2の言語文から検出し、
前記取得した第1および第2の言語文それぞれから検出された形態素を変数に置き換え、置き換え後の第1および第2の言語文を含む翻訳テンプレートを生成する、
翻訳テンプレート生成方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate


【公開番号】特開2013−45235(P2013−45235A)
【公開日】平成25年3月4日(2013.3.4)
【国際特許分類】
【出願番号】特願2011−181613(P2011−181613)
【出願日】平成23年8月23日(2011.8.23)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】