説明

翻訳支援装置、翻訳支援方法及びプログラム

【課題】
英語から日本語に人手で翻訳を行う作業者が行う必要のある入力操作を可能な限り少なくすることによって、作業の効率化及び省力化を図ることである。
【解決手段】第1言語文書解析手段は、翻訳辞書部を用いて第1言語文書を解析し形態素解析情報及び係り受け解析情報を求める。第2言語文書解析手段は、翻訳辞書部を用いて第1言語文書のうち翻訳者により第2言語に翻訳された文を解析し形態素解析情報及び係り受け解析情報を求める。訳語リスト作成手段は、第1言語文書の中に含まれる単語のうち内容語を抽出し、翻訳者により翻訳された文中から第1言語の内容語に対応する第2言語の内容語を抽出し、第1言語と第2言語との内容語を対応付けた訳語リストを作成する。訳語予測手段は、翻訳者が翻訳しようとする第1言語の文に含まれる内容語が訳語リストにあるときはそれに対応する第2言語の内容語を導き出し表示装置に表示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、自然言語文書を翻訳する際に翻訳を支援する翻訳支援装置、翻訳支援方法及びプログラムに関する。
【背景技術】
【0002】
翻訳文書の作成支援が一般に普及するようになった一方で、プロの翻訳者の中には機械翻訳を使うべきではないとする者も少なくない。翻訳文書の作成支援は、あえて簡単化すると、単語の置き換えであるが、そうした翻訳者にとっては、翻訳は単語の置き換えではなく、原文のメッセージを他の言語で伝えることであるとしており、原文の言語と翻訳対象言語とのそれぞれの構造、発想や言い回しを理解していないと、メッセージは正しく伝えられないからである。また、たとえ、内容語に関して、単語が正しく置き換えられていても、機械翻訳による機能語の部分の訳は、自然でないことが少なくないからである。
【0003】
一方、翻訳を必要とする文書の量は増加しており、翻訳者が効率的に訳文を入力できるようにする方策の必要は高まっている。英語の訳文の入力を支援するものとして、予め作成した日本語文を画面に表示しながら対応する英文を作成するようにしたものがある。これは、日本語文をもとに、英文に必要な単語の候補を画面に順次表示し、単語の一部を入力すると目的の英単語を表示したり、日本語の読みをローマ字入力すると対応する訳語が表示されるものである。
【0004】
また、言語対とは無関係に、指定した辞書に登録されている単語のみ、訳語に置き換えるようにしたものもある。この置き換え前処理は、指定したユーザ辞書や専門用語辞書の登録語だけを、原文中から探して訳語に置き換え、用語の統一だけを自動的に行い、訳文は自分で作りたいという方に便利なものであるが、置き換わらなかった部分については原文のままであり、第1言語と第2言語が混在した状態になる。
【0005】
さらに、翻訳の作業効率を上げるものとして、同じような文は、まとめて翻訳するようにしたものがある。翻訳対象文をすでに翻訳されている別の文書(文書A)との比較を行い、第1言語の文が文書Aの中の文と同じものは、翻訳せず、文書Aの該当する訳文で置き換えるものである。これは、現在翻訳しようとする文書の中にどれくらい類似した文が存在するかはわからない。
【0006】
指定した辞書を用いる場合は、第1言語の語と対応する第2言語の語との対が予め辞書に登録されている必要がある。また、実際の翻訳を行う場合、読み手や用途によって訳語を調整させたり、注目している文書内では、ある訳を用いたいということが発生する。さらに、辞書に登録するほどの訳ではないが同一文書ではある一定の訳を用いたいという場合もある。このような場合には、第1言語の語と対応する第2言語の語との対を単に記憶した辞書だけでは不十分であった。
【0007】
たとえ、置き換えたい第1言語の語と第2言語の語の対が辞書に登録されているとしても、第1言語の語の並びを保持したまま、置き換えを行うため、第1言語の構造と第2言語の構造の違いから、第2言語にしたときに、第1言語のままの順序で通じることは多くないので、カット&ペーストを繰り返し行わなければならず、作業がかえって煩雑である。
【0008】
また、日本語の入力予測に関しては、翻訳固有の現象に注目したものはなく、あくまでも前出した変換結果を用いるのみであった。つまり、前出した変換結果であっても、注目している第1言語の文の語の構成からして、可能性が低い変換を排除するということがなかった。したがって、必ずしも最適な候補が提示されているわけではなかった。
【0009】
さらに、作業者は、多くの場合、前から順番に翻訳していくため、後続部分に同様な文が出現すると、前に行った翻訳作業と同様のことを行う必要があった。一貫性のためには、類似した文は、まとめて翻訳することが効率的であるが、その観点がなかった。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特許第2907840号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
英語から日本語に人手で翻訳を行う作業者が行う必要のある入力操作を可能な限り少なくすることによって、作業の効率化及び省力化が図ることができるようにすることである。
【課題を解決するための手段】
【0012】
実施形態の翻訳支援装置は、訳語リスト作成手段は、第1言語文書の中に含まれる単語のうち内容語を抽出するとともに翻訳者により翻訳された文中から第1言語の内容語に対応する第2言語の内容語を抽出し第1言語の内容語と第2言語の内容語とを対応付けた訳語リストを作成し記憶装置に記憶する。訳語予測手段は、翻訳者がこれから翻訳しようとする第1言語の文に含まれる内容語が前記訳語リストにあるときはその第1言語の内容語に対応する第2言語の内容語を導き出し表示装置に表示する。
【図面の簡単な説明】
【0013】
【図1】実施形態に係る翻訳支援装置の実施例1の機能ブロック図。
【図2】実施形態に係る翻訳支援装置のハードウェア構成を示すブロック構成図。
【図3】実施形態に係る翻訳支援装置の実施例1の処理内容の一例を示すフローチャート。
【図4】実施例1での翻訳対象となる第1言語文書の一例の説明図。
【図5】図4に示した第1言語文書の第1文目の翻訳の一例の説明図。
【図6A】図4に示した第1言語文書の1文目の第1言語解析手段による解析結果のうち形態素解析情報(その1)の説明図。
【図6B】図4に示した第1言語文書の1文目の第1言語解析手段による解析結果のうち形態素解析情報(その2)の説明図。
【図6C】図4に示した第1言語文書の1文目の第1言語解析手段による解析結果のうち形態素解析情報(その3)の説明図。
【図6D】図4に示した第1言語文書の1文目の第1言語解析手段による解析結果のうち係り受け解析情報の説明図。
【図6E】図4に示した第1言語文書の1文目の第1言語解析手段による解析結果のうち係り受け解析情報のツリー構造図。
【図7A】図5に示した第2言語文書の1文目の訳文の第2言語解析手段による解析結果の形態素解析情報(その1)の説明図。
【図7B】図5に示した第2言語文書の1文目の訳文の第2言語解析手段による解析結果の形態素解析情報(その2)の説明図。
【図7C】図5に示した第2言語文書の1文目の訳文の第2言語解析手段による解析結果の形態素解析情報(その3)の説明図。
【図7D】図5に示した第2言語文書の1文目の訳文の第2言語解析手段による解析結果の形態素解析情報(その4)の説明図。
【図7E】図5に示した第2言語文書の1文目の訳文の第2言語解析手段による解析結果の係り受け解析情報の説明図。
【図7F】図5に示した第2言語文書の1文目の訳文の第2言語解析手段による解析結果の係り受け解析情報のツリー構造図。
【図8】訳語リスト記憶部に記憶される訳語リストの一例の説明図。
【図9】表示装置に表示される実施例1での翻訳画面の一例の説明図。
【図10】実施形態に係る翻訳支援装置の実施例1の処理内容の他の一例を示すフローチャート。
【図11】実施形態に係る翻訳支援装置の実施例2の機能ブロック図。
【図12】実施形態に係る翻訳支援装置の実施例2の処理内容の一例を示すフローチャート。
【図13】実施例2での翻訳対象となる第1言語文書の一例の説明図。
【図14A】表示装置に表示される実施例2での翻訳画面(その1)の一例の説明図。
【図14B】表示装置に表示される実施例2での翻訳画面(その2)の一例の説明図。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態を説明する。図1は、実施形態に係る翻訳支援装置11の実施例1の機能ブロック図、図2は実施形態に係る翻訳支援装置のハードウェア構成を示すブロック構成図である。翻訳支援装置11は、例えば一般的なコンピュータに翻訳支援プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
【0015】
演算制御装置12は翻訳支援に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には翻訳支援プログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置17である表示装置18に表示・出力され、また、通信制御装置19を介して通信ネットワークに出力される。
【0016】
出力装置17としては、表示装置18や通信制御装置19だけではなく、印字機等の印刷装置、磁気テープ、磁気ディスク、光ディスク等のコンピュータ可読媒体への出力装置を採用することもできる。
【0017】
入力装置20は演算制御装置12に情報を入力するものであり、例えば、マウス21、キーボード22、ディスクドライブ23、通信制御装置19から構成され、例えば、マウス21やキーボード22は表示装置18を介して演算制御装置12に各種指令を入力し、キーボード22、ディスクドライブ23、通信制御装置19は翻訳支援対象の文書を入力する。
【0018】
すなわち、ディスクドライブ23は翻訳対象の文書のファイルを記憶媒体に入出力するものであり、通信制御装置19は翻訳支援装置11をインターネットやLANなどの通信ネットワークに接続するものである。通信制御装置19はLANカードやモデムなどの装置であり、通信制御装置19を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置12に送受信される。さらに、演算制御装置12の演算結果や翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)24が設けられている。
【0019】
図1は本発明の実施形態に係る翻訳支援装置11の機能構成の一例を示す機能ブロック図である。図1に示す演算制御装置12内の各機能ブロックは、上述の翻訳支援プログラム15を構成する各プログラムに対応する。すなわち、プロセッサ13が翻訳支援プログラム15を構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ22の記憶領域に対応する。
【0020】
図1において、入力装置20は、翻訳対象となる文書の電子データや操作指令を入力するものであり、ユーザの入力操作に基づく(対訳)の入力が可能である。入力装置20から入力される文書は、翻訳対象となる第1言語文書である。また、入力装置20は、入力処理部26を介して制御部27に対して各種コマンドを与える。なお、翻訳対象となる文書の電子データを入力する入力装置20としては、OCR(光学式文字読み取り装置)や、磁気テープ、磁気ディスク、光ディスク等、コンピュータ可読媒体からの読み込み装置を採用することも可能である。
【0021】
入力処理部26は、入力装置20によって入力された翻訳対象となる第1言語文書を入力処理して取り込み、制御部27を介して記憶装置25の文書記憶部28に記憶される。
【0022】
制御部27は、入力処理部26、出力処理部29、第1言語解析手段30、第2言語解析手段31、訳語リスト作成手段32、訳語予測手段33を制御するとともに、記憶装置25とのデータの授受の制御も行う。
【0023】
第1言語解析手段30は、入力装置20によって入力され文書記憶部28に記憶された翻訳対象となる第1言語文書を記憶装置25の翻訳辞書部34を用いて解析し、第1言語文書の形態素解析情報及び係り受け解析情報を求め、求めた第1言語文書の形態素解析情報及び係り受け解析情報を解析情報記憶部35に第1言語解析情報として格納する。
【0024】
第2言語解析手段31は、翻訳辞書部34を用いて第1言語文書のうち翻訳者により第2言語に翻訳された文を解析し、形態素解析情報及び係り受け解析情報を求め、求めた第2言語文書の形態素解析情報及び係り受け解析情報を解析情報記憶部35に第2言語解析情報として格納する。
【0025】
訳語リスト作成手段32は、解析情報記憶部35に格納された第1言語解析情報に基づいて、第1言語文書の中に含まれる第1言語の単語(内容語)を抽出し、かつ、第1言語の単語に対応する第2言語の単語を抽出する。そして、抽出された第1言語の単語と第2言語の単語との対と、その第2言語の単語を翻訳者が入力した際に用いたキー操作の情報から構成される訳語リストを作成する。この訳語リストの内容は訳語リスト記憶部36に記憶される。また、その訳語リストの内容は、現在翻訳している箇所に応じて、制御部27及び出力処理部29を介して表示装置18に表示・出力される。
【0026】
訳語予測手段33は訳語リストおよび注目している第1言語の文の単語構成より第2言語の文に用いられる可能性の高い単語を導き出すものである。
【0027】
出力処理部29は、制御部27を介して供給された(対訳)文書、注目している第1言語の文に関連する訳語リストを表示装置18に出力処理する。これにより、表示装置18の表示画面上に翻訳情報画面が表示される。また、出力処理部29は制御部27への各種コマンドに対する制御部27からの応答を表示する。
【0028】
なお、図2では出力装置として表示装置18のみを示しているが、表示装置18だけではなく、印字機等の印刷装置、磁気テープ、磁気ディスク、光ディスク等のコンピュータ可読媒体への出力装置や、他のメディアに文書を送信する通信制御装置等を採用することもできる。
【0029】
翻訳辞書部34は、訳語リスト作成手段32が翻訳対象となる第1言語文書を解析する際に用いる各種辞書データを格納している。翻訳辞書部34は、第1言語から第2言語への翻訳を行うための辞書、及び第2言語から第1言語への翻訳を行うための辞書を格納している。
【0030】
第1言語から第2言語への翻訳を行うための辞書は、語尾等に変化のある第1言語の単語・熟語をその原形に変換するための第1言語活用変化辞書34a、第1言語を解析するための文法が記憶された第1言語解析文法辞書34b、第1言語の単語・熟語に対応する第2言語の訳語がその品詞情報と共に記憶される第1言語単語・熟語辞書34cであり、第2言語から第1言語への翻訳を行うための辞書は、語尾等に変化のある第2言語の単語・熟語をその原形に変換するための第2言語活用変化辞書34h、第2言語を解析するための文法が記憶された第2言語解析文法辞書34i、第2言語の単語・熟語に対応する第1言語の訳語がその品詞情報と共に記憶される第2言語単語・熟語辞書34jである。ここでは、有用と思われる辞書を挙げているが、必ずしもすべてを使用する必要はない。
【0031】
以下、英語を第1言語とし日本語を第2言語とした場合を例にとり説明する。図3は、実施形態に係る翻訳支援装置の処理内容の一例を示すフローチャートである。まず、制御部27は、入力された翻訳対象となる第1言語の文書を記憶する(S1)。すなわち、入力装置20から入力処理部26を介して入力された第1言語の文書を記憶装置25の文書記憶部28に記憶する。
【0032】
次に、制御部27は第1言語解析手段30を起動する。第1言語解析手段30は、文書記憶部28から翻訳対象の第1言語文書を読み出し、第1言語文書の各文をそれぞれ形態素に分割し、品詞等の属性情報を得る(S2)。これは、翻訳対象となる第1言語文書の各文の統語的特徴を得るためである。
【0033】
この場合、第1言語解析手段30は、翻訳辞書部34の第1言語から第2言語への翻訳を行うための辞書、具体的には第1言語活用変化辞書34aと第1言語解析文法辞書34bとの照合により、各単語につき、品詞、原形、属性が付与され、また、各形態素がどのような関係を有するかを示す文構造(係り受け関係)を得る。
【0034】
次に、第1言語解析手段30は、解析で得た形態素に対して翻訳辞書部34内に定義している訳語情報を得る(S3)。この場合、第1言語解析手段30は、第1言語単語・熟語辞書34cを用いて、それぞれの形態素に対して、翻訳辞書部34内に定義している訳語情報を得る。
【0035】
次に、制御部27は第2言語解析手段31を起動し、すでに翻訳が終わった文に対応する訳文に対し同様のことを行う。すなわち、翻訳者による翻訳の際のキー情報を得るとともに第1言語文書のうち翻訳された文を得る(S4)。そして、翻訳者により翻訳された第2言語の文を形態素に分割し品詞等の属性情報を得るとともに入力した際に用いたキー情報を得る(S5)。すなわち、第2言語解析手段31は、翻訳辞書部34の第2言語から第1言語への翻訳を行うための辞書、具体的には第2言語活用変化辞書34hと第2言語解析文法辞書34iとの照合により、各単語につき、品詞、原形、属性、読みが付与され、また、各形態素がどのような関係を有するかを示す文構造(係り受け関係)を得る。ここで第1言語文書の解析との違いは、第2言語文書の解析においては、翻訳者が入力の際に用いたキー操作の情報を得る点である。
【0036】
次に、第2言語解析手段31は、第2言語の形態素に対して翻訳辞書部34内に定義している第1言語の情報を得る(S6)。すなわち、第2言語単語・熟語辞書34jを用いて、それぞれの形態素に対して、翻訳辞書部34内に定義している訳語情報を得る。
【0037】
いま、翻訳対象となる第1言語文書として、図4に示すような第1言語文書が入力されたとする。この文書は、3文からなり、連続した文である。また、翻訳者は、このうち、最初の1文目を訳し終え、2番目の文の翻訳に入ろうとしている時点にあるものとする。また、この1文目は翻訳者により図5に示す日本語文に翻訳されたとする。
【0038】
図6A乃至図6Eは、図4に示した第1言語文書の1文目の第1言語解析手段30による解析結果の説明図であり、図6A乃至図6Cは形態素解析情報の説明図、図6Dは係り受け解析情報の説明図、図6Eは係り受け解析情報のツリー構造図である。
【0039】
図7A乃至図7Fは、図5に示した第2言語文書の1文目の訳文の第2言語解析手段31による解析結果の説明図であり、図7A乃至図7Dは形態素解析情報の説明図、図7Eは係り受け解析情報の説明図、図7Fは係り受け解析情報のツリー構造図である。
【0040】
図6A乃至図6E、図7A乃至図7Fのいずれにおいても、その形態素解析情報の訳語の欄には、訳語が複数存在する場合、頻度が高い順に格納されている。英単語は、同じ綴りで複数の品詞を持つものがあり、辞書引き段階では、すべて取り出している。例えば、図6Aの番号10、11のsurfaceは名詞と動詞とがあるが、ここで注目している文では、前後関係から名詞の可能性が高く、可能性の高い名詞が上位に挙がっている。可能性の低い品詞は番号にアポストロフィが付与されている。この場合、訳語を取得しない。
【0041】
また、図6A乃至図6E、図7A乃至図7Fのいずれにおいても、名詞句3、名詞句4、名詞句5はそれ自体さらに内部構造を持つが、ここでは簡略化のために図示していない。図7A乃至図7Dの「読み[入力キー]」の欄は、辞書から得られる「読み」の情報および翻訳者が当該の語を入力した際に用いたキーを示している。ここでは、ローマ字入力を使用している場合を示している。また、変換を行う際に、スペースキーを押すが、それについては、表示を省略している。例えば、1番目の「翻訳」の入力キーのHONNYAKUはHキー、Oキー、Nキー、Nキー、Yキー、Aキー、Kキー、Uキー、そしてスペースを押して(必要に応じて複数回押す)、「翻訳」を得たことを意味する。なお、ワープロには現在、文字を打っている最中にTABキーを押すと、予測変換機能が働いて、変換候補から選ぶことができるようになっているが、この機能込みにすると、説明が複雑になるため、ここでは、一般の予測変換機能は使用していないものとして、以下、説明する。
【0042】
図6A乃至図6E、図7A乃至図7Fに示したこれら各種の情報は、制御部27により記憶装置25の解析情報記憶部35に記憶される。
次に、訳語リスト作成手段32は、訳語リストを作成するために、翻訳されている第2言語の文と対応する第1言語の文の間で対応関係をとる。具体的には、第1言語の文中の構造的な纏まりの各形態素を抽出し、第2言語の文中の構造的な纏まりの各要素を抽出する(S7)。
【0043】
そして、訳語リスト作成手段32は、第1言語の構造的な纏まりの各形態素の訳語候補のいずれかと、構造的に対応する第2言語の語が内容語に関して一致しているか、あるいは、第1言語の構造的な纏まりの各形態素の訳語候補のいずれかと、構造的に対応する第2言語の語が内容語に関して一致しているかを判定する(S8)。
【0044】
図4の第一文の中の内容語は、以下の塗りつぶし以外の部分である。
【0045】
「The translation data includes plural translation components, each having surface data representative of the order of occurrence of language units in the component; dependency data related to the semantic relationship between language units in the component; and link data linking dependency data of language components of the source language with corresponding dependency data of language components of the target language.」
対応する図5の文の内容語は、以下の取り消し線以外の部分である。
【0046】
「翻訳データは、複数の翻訳要素(各要素はその要素の生起順序を表す表層データを有する)、要素の中の言語単位同士の意味的関係に関連する依存関係データ、および原言語の言語要素の依存関係データを目標言語の言語要素に対応する依存関係データを関連づける関連づけデータを含む。」
照合の手順として、ステップS2からステップS6で得られた係り受け関係や句構造より、構造的に纏まりをなしている単位ごとに照合を行う。今回の一例では、第1言語、第2言語ともに、大きくは、主語、述語、目的語の3つからなる構造を持っており、目的語の名詞句は、3つの名詞句からなっている。そこで、第1言語の主語と第2言語の主語とが一致する可能性が高いと予想される。
【0047】
そこで、主語に関して見てみると、第1言語側の主語の「translation data」のtranslationの訳語には、「翻訳、訳、言い換え、変質、変容、変換」が、dataの訳語には、「データ、情報、資料」がある。一方、第2言語側の主語の「翻訳データ」において、「翻訳」の訳語には、”translation, rendition”が、「データ」の訳語には”data”がある。これにより、translation=翻訳、data=データが単語レベルで対応することがわかる。こうして、名詞句として、纏まりになっている原語「translation data」、訳語「翻訳データ」として対応づけられる。この一例では、このように第1言語から第2言語の方向、第2言語から第1言語の方向の両方向から一致することが確認できる。ここで、一方向だけ一致すればよいとしてもよいし、条件を厳しくして、両方向とも一致することを必須としてもよい。
【0048】
訳語リスト作成手段32は、ステップS8の判定で一致した部分について訳語リストに加える(S9)。そして、訳語リスト作成手段32は、すべての照合が終わったか否かを判定し(S10)、すべての照合が終わっていないときはステップS7に戻る。すなわち、照合していない残りの部分についても、同様に照合を行い(S7〜S9)、一致すれば訳語リストに加え、一致しなければ棄却する。
【0049】
図8は、訳語リスト記憶部36に記憶される訳語リストの一例の説明図である。図8に示すように、第1言語の文字列と第2言語の文字列とが一対となって記憶されている。実際には、訳語リストには、内部的にはこれ以外に読みや入力キー、派生語の情報を持っている。以上のステップS2〜ステップS9の操作は、翻訳者が一文を翻訳し終えるごとに行う。こうして訳語リストの中に対訳が蓄積されていく。
【0050】
いま、翻訳者が図4の第1番目の文の翻訳を終え、翻訳者が第2文目の翻訳に取り掛かろうとする段階であるとする。訳語予測手段33は、未翻訳の文について、訳語リストに存在する文字列と一致するものを抽出する(S11)。そして、訳語リストを各文の該当する部分に表示する(S12)。
【0051】
翻訳者は、翻訳作業にあたり、図9に示すような翻訳画面が提供されているとする。すなわち、表示装置18には、図9に示すような翻訳画面が表示され、翻訳者はこの翻訳画面を用いて翻訳作業を行うものであるとする。
【0052】
原文欄は、翻訳対象とする文が一文ごとに区切って表示されている。訳文作成領域欄は、翻訳者が原文に対する訳文を入力していく領域である。その右の訳文リスト欄は訳文作成にあたり、使う可能性の高い訳語のリストを挙げている。一番右の関連語欄は、完全一致ではないが、同一文書ですでに翻訳した部分で、語源的に関連のある派生語とその際に使った訳語を列挙するための領域である。説明の分かりやすさのため、マッチした語については、下線が付してある。
【0053】
例えば、第二文目では、「surface data」、「source language」、「target language」の3語が、第三文目では「dependency data」、「link data」、「target language」の3語があることがわかる。そこで、訳語予測手段33は、第二文の訳語リスト欄に「surface data」、「source language」、「target language」の3語を表示し、第三文の訳語リスト欄に「dependency data」、「link data」、「target language」の3語を表示する。
【0054】
この画面では、訳語リストに番号が付与されており、翻訳者はこの番号を打つだけで、訳文作成領域に該当する日本語を入力することができる。つまり、1ストロークで日本語の単語を入力できる。図9の例では、訳語リストは、対応する原文の最初に出た出現順序で表示しているが、アルファベット順にしてもよい。この例でいうと、「source language」、「surface data」、「target data」の順序で提示する。
【0055】
訳語予測手段33は、原文にある語の頻度を参照して、使われる可能性の高い訳語を優先的に訳語リスト欄に表示する。例えば、第2文目の翻訳の際に、訳文作成領域に表層データが用いられたら、この文には、「surface data」は一度しか用いられてないため、この文にはもはや「surface data」は使われないとの予想ができる。そのため、訳語予測手段33は、その時点で「surface data:表層データ」は削除するか、別の領域に移動するようにする。一方、「source language」は、原文には二度用いられているので、訳語予測手段33は、訳文作成領域に「原言語」を用いても、それがまだ1回である場合は、訳語リストに残す。
【0056】
図9のように訳語リストに番号を付与するのではなく、語頭の部分の該当するローマ字のキーを打った際に、後続部分の予測をするようにしてもよい。つまり、「表層データ」が訳文作成領域にまだ用いられていない時点では、「HYOUSOU」あるいは、もっと短く「HYOU」が押されたら、「表層データ」の可能性がある。これは、図7Bの18番にあるとおり、「表層」を入力する際、翻訳者は、「HYOUSOU」というキーを用いたことが解析情報記憶部35に残されているからである。
【0057】
しかし、「表層データ」がすでに用いていたらその可能性はないといってよいであろう。仮に、訳語リストに他に読みが「ひょう」で始まるものとして、「表現形態」が存在するとし、こちらの「表現形態」はまだ用いられていないとすると、「表現形態」が候補の上位に上がってくる。
【0058】
訳語リストを入力する方法として、番号を用いる方法を用いるにせよ、冒頭部分のローマ字表記を用いる方法を用いるにせよ、訳語リストにない部分(図9で下線が付与されていない部分)の翻訳は手入力になる。
【0059】
この場合、例えば、2文目の翻訳のときに、YOUというキー入力があった場合、第1文で、componentと要素の対応がとれているとする。しかし、第2文では、componentは出現していない。従って、第2文の訳文作成領域に、YOUという入力があっても、YOU自体では「要素」を候補に挙げない。ところが、翻訳を加味していない現状の入力予測機能では、「YOU」というキーを打っただけで、「要素」が候補として挙がってきてしまう。
【0060】
次に、関連語欄について説明する。関連語は、一字一句一致はしていないが、派生語であったり、共通部分を持つ単語列を挙げる箇所である。派生語同士であれば、第2言語でも派生元の訳に用いた表現と類似した語を派生語の訳に対しても用いる可能性が高いという考慮からである。
【0061】
共通部分をもつ単語列とは、headが同一で、その修飾部分が一つが片方の一部分である場合をいう。例えば、第2文に、source language textがあり、第3文には、source textがある。これらは、双方ともtextであり、前者はsource languageが、後者はsourceがtextをそれぞれ修飾している。また、sourceはsource languageの一部分である。source textを翻訳する際に、source language textの訳が参考になることは間違いない。このことから、訳語予測手段33は、共通部分をもつ単語列を関連語とし関連語欄に表示する。ここでは、第2文で、source language textを原言語テキストと翻訳した場合、第3文の関連語欄に表示される内容を示している。このような語の抽出は、人間では網羅的に行うことが難しいが、機械ではこの点において優れている。
【0062】
また、派生語に関しては、以下の例を用いることができる。第2文ではanalyzeが用いられ、第3文にはその名詞形であるanalysisが用いられている。お互いが派生語の関係にあることは、第1言語文書の形態素解析情報の派生語の欄を参照することによってわかる。第2文では翻訳完了後にanalyzeと「分析する」の対応がとれたとすると、第3文目のanalysisは「分解」、「解析」ではなく、「分析」と訳す可能性が高い。むしろ、そう訳すべきといってもよい。実際、第2文目と第3文目の関係個所の前後をみると、前者はanalyze the source language text、後者は、analysis of the source textとなっており、後者は前者を名詞的に表現したものにすぎないことがわかる。従って、analyzeとanalysisの訳語を一致させることが必要である。そこで、翻訳者がこの関連語欄の語の冒頭と一致するローマ字表記と一致するキーが入力されると、その単語であると訳語予測手段33は判断する。すなわち、第3文目の訳語作成領域に、BUN(第2文目の訳文の入力の際、「分析する」は「BUNSEKISURU」というキーを用いて、入力されたことが、解析情報記憶部35に記憶されている)という入力があると、訳語予測手段33は「分析」を候補として挙げる。
【0063】
さて、翻訳者が翻訳を進めていく度に訳語リストは増加し、それにつれて、訳語リスト欄に表示されるリストも増える。文によっては、訳語リストの語でほとんど文が完成してしまうものもある。訳語リストにはない語が多く使われている文には、翻訳者は、相対的により多くの時間を費やす。このため、作業の目安として、内容語に関して、どの程度訳語リストでカバーされているかを計算し、翻訳者に提示することも可能である。
【0064】
例えば、図9の例を用いると、第1文目の翻訳が終わった時点では、内容語が18単語ある第2文目では、”used(2回), analyze , text (2回), generate”が新規語であり、これらはのべ6語であるから、{(18−6)/18}*100で、約67%となる。一方、第3文目では、内容語が12単語あり、このうち、訳語リストでカバーされていない語は、同じくのべ6語であるから、50%となる。関連語も考慮すればこの割合は75%になる。また、第2文目が終われば、第3文目のカバー率は、さらに上昇する。こういった数値が示されれば、翻訳者はカバー率の高いものから作業を進めることも、逆に低いものから作業を進めるということが可能になる。
【0065】
以上の説明では、第1言語文書の一文の翻訳が終わった時点で、訳語リストを更新するようにしたが、訳文作成領域でかな漢字変換の入力が確定した時点で訳語リストを更新するようにしてもよい。
【0066】
この場合、第2言語文書解析手段31は、翻訳者により第2言語に翻訳された文に代えて、翻訳者により第2言語に翻訳された部分までの文字列を解析することになる。そして、訳語リスト作成手段32は、翻訳者により翻訳された部分までの文字列中から第1言語の内容語に対応する第2言語の内容語を抽出し、第1言語の内容語と第2言語の内容語とを対応付けた訳語リストを作成する。
【0067】
図10は、その場合の実施形態に係る翻訳支援装置の処理内容の一例を示すフローチャートである。まず、制御部27は、入力された翻訳対象となる第1言語の文書を記憶する(S1)。すなわち、入力装置20から入力処理部26を介して入力された第1言語の文書を記憶装置25の文書記憶部28に記憶する。
【0068】
次に、制御部27は第1言語解析手段30を起動する。第1言語解析手段30は、文書記憶部28から翻訳対象の第1言語文書を読み出し、第1言語文書の各文をそれぞれ形態素に分割し、品詞等の属性情報を得る(S2)。この場合、第1言語解析手段30は、翻訳辞書部34の第1言語から第2言語への翻訳を行うための辞書、具体的には第1言語活用変化辞書34aと第1言語解析文法辞書34bとの照合により、各単語につき、品詞、原形、属性が付与され、また、各形態素がどのような関係を有するかを示す文構造(係り受け関係)を得る。
【0069】
次に、第1言語解析手段30は、解析で得た形態素に対して翻訳辞書部34内に定義している訳語情報を得る(S3)。この場合、第1言語解析手段30は、第1言語単語・熟語辞書34cを用いて、それぞれの形態素に対して、翻訳辞書部34内に定義している訳語情報を得る。
【0070】
次に、第2言語解析手段31は、翻訳者による翻訳の際のキー情報を得るとともに訳文作成領域でかな漢字変換が確定されたことを確認する(S4)。訳文作成領域でかな漢字変換が確定されたことを確認すると、第2言語解析手段31は、第2言語の文字列のかな漢字変換が確定した部分までを形態素に分解し品詞等の属性情報を得るとともに入力した際に用いたキー情報を得る(S5)。
【0071】
この場合、文はまだ完成していないので、一文が終わった時点で翻訳リストを更新する図3に示した一例と異なり、各形態素がどのような関係を有するかを示す文構造(係り受け関係)を得ることはできない。例えば、こ「HONNYAKUDE-TAHA,」が入力され、「翻訳データは、」で変換が確定されると、この「翻訳データは、」が形態素解析の対象となる。
【0072】
そして、第2言語解析手段31は、第2言語の形態素に対して翻訳辞書部34内に定義している第1言語の情報を得る(S6)。すなわち、第2言語単語・熟語辞書34jを用いて、それぞれの形態素に対して、翻訳辞書部34内に定義している訳語情報を得る。ここで第1言語文書の解析との違いは、第2言語文書の解析においては、翻訳者が入力の際に用いたキー操作の情報を得る点である。ステップS2〜S6で得られたこれら各種の情報は、制御部27により、解析情報記憶部35に記憶される。
【0073】
次に、訳語リスト作成手段32は、訳語リストを作成するために、変換が確定した第2言語の文字列と対応する箇所を第1言語の文の中から抽出し、その内容語同士の対応をとる。すなわち、照合の手順として、ステップS2〜ステップS6で得られた係り受け関係や句構造より、構造的に纏まりをなしている単位ごとに照合を行う。図4及び図5の例では、第1言語、第2言語とも、大きくは、主語、述語、目的語の3つからなる構造を持っており、目的語の名詞句は3つの名詞句からなっている。
【0074】
そこで、訳語リスト作成手段32は、第2言語の注目している文字列の各形態素の訳語候補のいずれかと、第1言語の単語例が内容語に関して一致しているか、この第1言語の各形態素の訳語候補のいずれかと、注目している第2言語の語が内容語に関して一致しているかを判定する(S7)。
【0075】
例えば、第2言語の注目している文字列である「翻訳データは、」について、「翻訳データは、」の文字列のうち、「翻訳データ」が内容語である。これは、第1言語の「translation data」と一致しそうであるということがわかり、さらに調べると辞書情報からtranslationの訳語候補に「翻訳」があり、dataの訳語候補に、「データ」があることがわかる。従って、この対応関係の信頼性は高いものと判断できるので、この対は、訳語リストに追加される。
【0076】
すなわち、ステップS7の判定で、第2言語の注目している文字列の各形態素の訳語候補のいずれかと第1言語の単語例が内容語に関して一致しているとき、または、この第1言語の各形態素の訳語候補のいずれかと注目している第2言語の語が内容語に関して一致しているときは、一致した部分について翻訳リストに加える(S8)。
【0077】
そして、文書末か否かを判定し(S9)、文書末であるときは処理を終了する。文書末でないときは、未翻訳の後続の文と翻訳中の文の未翻訳部分について、訳語リストに存在する文字列と一致するものを抽出する(S10)。そして、訳語リストを各文の該当する部分に表示する(S11)。そして、ステップS4に戻り、次の変換確定のキーが押されるまで待ち、「翻訳データは、」以降のその確定キーまでの文字列に関して、同様の操作を文書の最後にくるまで繰り返す。この一例の場合は、同一文内に同じ用語が何度も用いられている場合、その訳語が一度用いられると即座に訳語リストに追加され再利用が可能になる。
【0078】
次に、本発明の実施形態に係る翻訳支援装置11の実施例2を説明する。図11は、本発明の実施形態に係る翻訳支援装置11の実施例2の機能ブロック図である。この実施例2は、図1に示した実施例1に対し、類似文抽出手段37と類似文提示手段38と類似文記憶部39とを追加して設け、単語レベルの対応関係に代えて、文レベルの対応関係を利用するようにしたものであり、類似した文が多用される文書において有用となる。図1と同一要素には同一符号を付し重複する説明は省略する。
【0079】
類似文抽出手段37は、翻訳対象の第1言語文書の各文について一致する単語数が予め定めた閾値より大きい文同士を類似文としてグループ分けして抽出し、記憶装置25の類似文記憶部39に記憶する。類似文提示手段38は翻訳対象の第1言語文書の各文のうち、未翻訳の残りの文が類似文記憶部39に記憶された類似文に該当するときは、同一グループに属する類似文の既に翻訳者により翻訳された第2言語の文を導き出し表示装置18に表示・出力する。
【0080】
図12は、本発明の実施形態に係る翻訳支援装置の実施例2の処理内容の一例を示すフローチャートである。図3に示した実施例1に対し、ステップT1、T2、T3が追加されている。図3と同一ステップには同一符号を付し重複する説明は省略する。いま、第1言語文書として、図13に示す2文が翻訳対象であるとする。ここでは見やすさのために、2文の異なり部分を四角で囲んである。
【0081】
まず、制御部27は、入力装置20から入力処理部26を介して入力された第1言語の文書を記憶する(S1)。すなわち、翻訳対象となる第1言語を文書記憶部28に記憶する。次に、類似文抽出手段37は、第1言語の文書の各文について一致する単語数が予め定めた閾値より大きい文同士を類似文としてグループ分けし抽出して記憶する(T1)。すなわち、各文の単語の分布を調べ、予め設定した閾値よりも高い文同士を類似と判定し、該当する文を抽出し、類似文記憶部39に記憶する。
【0082】
類似文を検出する方法は、例えば、以下のようにして行う。図13の文では、第1文目が143単語からなり、第2文目が119単語からなる。このうち、104単語が一致しており(104/143≒0.73、104/119≒0.87)、しかも一致している部分は連続している(一単語ではない)。最も短い一致は、第2文目の”and means for causing”である。閾値を70%に設定していたとすると、これらの2文は類似文と判定される。
【0083】
次に、図14A、図14Bは表示装置18に表示される実施例2での翻訳画面の一例の説明図である。原文欄、訳文作成領域欄、類似文表示欄からなり、類似文提示手段38は、同一グループに属する第1言語の文の一つが翻訳された時点で、まだ翻訳されていない同一グループ内の文の類似文表示欄にその対訳を表示する。
【0084】
こうして、翻訳者は、この訳を利用して第2文目の翻訳文を作成できる。例えば、カット&ペーストを行うなどして第2文目の翻訳文を作成できる。第1文において、第2文との異なり部分に対応する訳文の箇所を検出し提示できればよい。しかし、日本語と英語のように異なる語族に属し、言語構造も大きく異なる言語同士の場合、異なり箇所が一単語であるといった場合を除き、異なり部分に対応する訳文の箇所を検出し提示することは非常に難しい。そこで、実施例2では、類似文を表示することとした。
【0085】
また、類似文は1文のみに限らず、類似文に分類された文が複数ある場合には、複数の文を類似文表示欄に示すようにしてもよい。また、翻訳作業は前から順番に行うことを前提としていたが、類似文のグループごとに翻訳するようにしてもよい。これは、一般に、類似した文はまとめて翻訳した方が作業効率が上がることに基づく。また、こうしたやり方で、より一貫性のある訳文を作成できる。以上の説明では、上記は英日翻訳の場合を中心に説明してきたが、他の言語対にも応用することができる。
【0086】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0087】
11…翻訳支援装置、12…演算制御装置、13…プロセッサ、14…メモリ、15…プログラム、16…作業エリア、17…出力装置、18…表示装置、19…通信制御装置、20…入力装置、21…マウス、22…キーボード、23…ディスクドライブ、24…ハードディスクドライブ(HDD)、25…記憶装置、26…入力処理部、27…制御部、28…文書記憶部、29…出力処理部、30…第1言語解析手段、31…第2言語解析手段、32…訳語リスト作成手段、33…訳語予測手段、34…翻訳辞書部、35…解析情報記憶部、36…訳語リスト記憶部、37…類似文抽出手段、38…類似文提示手段、39…類似文記憶部

【特許請求の範囲】
【請求項1】
第1言語文書の中に含まれる単語のうち内容語を抽出するとともに翻訳者により翻訳された文中から第1言語の内容語に対応する第2言語の内容語を抽出し第1言語の内容語と第2言語の内容語とを対応付けた訳語リストを作成し記憶装置に記憶する訳語リスト作成手段と、
翻訳者がこれから翻訳しようとする第1言語の文に含まれる内容語が前記訳語リストにあるときはその第1言語の内容語に対応する第2言語の内容語を導き出し表示装置に表示する訳語予測手段とを備える翻訳支援装置。
【請求項2】
前記第2言語の内容語を翻訳者が入力した際に用いたキー操作の情報を第1言語の内容語と第2言語の内容語とを対応付けて前記訳語リストに追加して記憶装置に記憶し、前記訳語予測手段は、翻訳者により入力された語頭部分のキー操作と前記記憶装置に記憶された前記訳語リストのキー操作の情報とを比較し、語頭の後続部分を予測する請求項2記載の翻訳支援装置。
【請求項3】
前記訳語リスト作成手段は、翻訳者により翻訳された部分までの文字列中から第1言語の内容語に対応する第2言語の内容語を抽出し第1言語の内容語と第2言語の内容語とを対応付けた訳語リストを作成する請求項1または2記載の翻訳支援装置。
【請求項4】
翻訳対象の第1言語文書の各文について一致する単語数が予め定めた閾値より大きい文同士を類似文としてグループ分けして抽出し前記記憶装置の類似文記憶部に記憶する類似文抽出手段と、
翻訳対象の第1言語文書の各文のうち未翻訳の残りの文が前記類似文記憶部に記憶された類似文に該当するときは同一グループに属する類似文の既に翻訳者により翻訳された第2言語の文を導き出し表示装置に表示・出力する類似文提示手段とを備えた請求項1乃至請求項3のいずれか一記載の翻訳支援装置。
【請求項5】
第1言語文書の中に含まれる単語のうち内容語を抽出するとともに翻訳者により翻訳された文中から第1言語の内容語に対応する第2言語の内容語を抽出し第1言語の内容語と第2言語の内容語とを対応付けた訳語リストを作成して記憶装置に記憶し、
翻訳者がこれから翻訳しようとする第1言語の文に含まれる内容語が前記訳語リストにあるときはその第1言語の内容語に対応する第2言語の内容語を導き出し表示装置に表示して翻訳を支援する翻訳支援方法。
【請求項6】
プログラム、第1言語と第2言語との対訳情報を格納した翻訳辞書部を記憶した記憶装置と、翻訳対象の第1言語文書を入力するとともに操作に必要な情報を入力する入力装置と、前記プログラムを演算実行する演算制御装置と、前記演算処理装置の演算処理結果を表示する表示装置とを備え翻訳支援装置として機能させるためのコンピュータにおいて、前記コンピュータを、
第1言語文書の中に含まれる単語のうち内容語を抽出するとともに翻訳者により翻訳された文中から第1言語の内容語に対応する第2言語の内容語を抽出し第1言語の内容語と第2言語の内容語とを対応付けた訳語リストを作成し前記記憶装置に記憶する訳語リスト作成手段と、
翻訳者がこれから翻訳しようとする第1言語の文に含まれる内容語が前記訳語リストにあるときはその第1言語の内容語に対応する第2言語の内容語を導き出し表示装置に表示する訳語予測手段として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6A】
image rotate

【図6B】
image rotate

【図6C】
image rotate

【図6D】
image rotate

【図6E】
image rotate

【図7A】
image rotate

【図7B】
image rotate

【図7C】
image rotate

【図7D】
image rotate

【図7E】
image rotate

【図7F】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14A】
image rotate

【図14B】
image rotate


【公開番号】特開2012−190166(P2012−190166A)
【公開日】平成24年10月4日(2012.10.4)
【国際特許分類】
【出願番号】特願2011−51934(P2011−51934)
【出願日】平成23年3月9日(2011.3.9)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】