機械翻訳プログラム、機械翻訳装置
【課題】使用者が適切な修正訳を得るための負担を大きく減ずることができる機械翻訳プログラムおよび機械翻訳装置を提供すること。
【解決手段】翻訳すべき第1言語の文と、該第1言語の文を翻訳辞書部に保持された翻訳辞書を用いて翻訳した第2言語の文とを保存する保存手段と、前記保存された第2言語の文における訳語それぞれと、前記保存された第1言語の文における前記訳語に相当する語句それぞれとを前記翻訳辞書を用いて対応づける対応づけ手段と、前記保存された第1言語の文について任意の語句の指定をユーザに促す語句指定手段と、前記指定された語句を含む、または前記翻訳辞書を用いて得た当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第1言語の語句を、当該第1言語の語句に対応づけられた前記訳語とともに表示部に表示させる表示制御手段としてコンピュータを機能させる。
【解決手段】翻訳すべき第1言語の文と、該第1言語の文を翻訳辞書部に保持された翻訳辞書を用いて翻訳した第2言語の文とを保存する保存手段と、前記保存された第2言語の文における訳語それぞれと、前記保存された第1言語の文における前記訳語に相当する語句それぞれとを前記翻訳辞書を用いて対応づける対応づけ手段と、前記保存された第1言語の文について任意の語句の指定をユーザに促す語句指定手段と、前記指定された語句を含む、または前記翻訳辞書を用いて得た当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第1言語の語句を、当該第1言語の語句に対応づけられた前記訳語とともに表示部に表示させる表示制御手段としてコンピュータを機能させる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然言語を他の自然言語に翻訳する機械翻訳プログラムおよび機械翻訳装置に係り、特に、使用者が適切な修正訳を得るための負担を減ずるのに好適な機械翻訳プログラムおよび機械翻訳装置に関する。
【背景技術】
【0002】
技術の進展とともに様々な文書が電子化されるようになり、それに付随して大規模の翻訳辞書(対訳辞書)が次々と開発・構築されている。見出し語に立てられる語も日々増えている。見出し語数の多さが辞書の質の指標の一つとなっていることが、その増加の一因であるが、最近では、単なる数の多さはかえって弊害があることも指摘されるようになった。
【0003】
第1に、辞書は通常複数の人々によって編纂されるので、関連する見出し語同士とその訳語の間の整合性は必ずしもとられていない。したがって、辞書の使用者はそれらの調整を行う必要がある。複数の種類の辞書を用いればこの問題は倍増する。第2に、以前ならば主見出しの用例としてあげられていた表現(文字列)が見出しに立てられることにより、その文字列を必要以上に優先して文の意味を解釈してしまい、正しい解釈が得られないという弊害も出てきた。
【0004】
例えば、通常の場面では文字通り解釈されるある単語の並び(単語列)が、専門分野や特定の場面では限定された意味になる場合に、この単語列を見出し語に立て、その特殊な意味での訳語しか載せていなければ、初学者はこの訳語を使って文を解釈しようとし、結局意味がとれずに終わってしまうということがある。こういった大規模辞書を機械翻訳が用いる際も同様の問題が生じる。しかし、人間による柔軟な調整が入らないため、問題はより深刻である。上記で述べた第2の問題は、当該外国語にある程度通じている人であれば、解決されることが多い。すなわち、ある見出し語の語義では文脈に合わないと判断すれば、個々の単語の意味を総合して文字通りの解釈を試みるであろうと予測されるからである。しかし、機械翻訳では無条件に見出し後の訳語が優先される。
【0005】
また、ユーザが構築した辞書を併用すれば、こういった問題は倍増する。なぜなら、ユーザは、通常ならば見出し語にならないような表現を見出し語に立て、それに対し、訳を一つしかあてないのが普通であるからである。ところが、この訳語は登録の必要をユーザが感じた箇所以外では有用な訳語とはいえない可能性がある。
【0006】
一方、インターネット上でWWW(world wide web)を通じて情報獲得を頻繁に行うようになった。こうしたインターネットの上で得られる情報は大部分が英語であり、英語が母国語でなく不得手の場合、利用者は典型的には、機械翻訳を行って原文の意味を理解しようと努めてきた。一般的に当該外国語から日本語に変換する機械翻訳の質はまずまず耐えるレベルに達しつつあり、少なくとも構文的には正しい文が出力できることが通常となってきた。
【0007】
しかし、解釈の点では人手の翻訳に劣ることがある。その一つの要因は指示対象の不明確さである。文の中の語の間の「結びつき」(coherence, cohesion)は指示詞だけでなく、用語の使われ方によって保たれている。後者は、具体的には例えばある同じ用語が繰り返し用いられているという状態を指す。しかし、翻訳辞書(対訳辞書)を用いてこの文書を翻訳した場合、同じ用語であってもそれとその周辺の語が複合語見出しとしてあげられていれば、以下の原因からそちらの訳語が適用され、単独で生起した場合と同じ訳語で訳されるとは限らない。
【0008】
すなわち、機械翻訳では構文解析の効率化のために、まず複合語(慣用句を含む)の辞書を引き(A)、そのあと残った部分の解析を行い、訳をあてていく(B)。そこでは複合語の訳は一意に決められる。続くBの作業はAとは独立に行われるため、Aの対象となる部分とBの対象となる部分の訳の関連性が機械処理では失われることが多くなる。
【0009】
原文を参照しないでこの機械翻訳の出力のみを読むと、こういった関連性が失われやすくなり、解釈に支障をきたすことになる。したがって、より分かりやすい訳文を作成するには、文章内に出現する調整の必要な単語列を抽出し、網羅的なチェックをし、調整を加えることが必要である。しかし、これをもれなく人手で行うことは翻訳者にとって多大な負担となる。訳語の決定という真に知的な作業に翻訳者が専念できるような機構が求められているのである。
【0010】
翻訳結果文の見直しを容易にするための試みは確かに存在する。しかし、それは問題となる第1言語の表現(A)に対し複数の訳が可能な場合に、Aの訳語が異なっている場合のみを問題にしている。例えば下記特許文献1(特開2001−282787)があるが、これは使用者が表示された翻訳結果文の一部に別訳語を選択すると、その別訳語が選択されている部分を目立つように表示するものである。つまり、本願が扱う異なる見出し語同士の関係は問題にしていない。
【0011】
また、似たような試みとして、単語をリスト形式で表示するというものがある。これは広く「単語帳」という名で知られ、各種の市販の電子辞書、機械翻訳システムでは公知例となっている。しかし、これらにおいてリストの候補となるのは未知語や参照した単語であって、本願での対象とは異なる。
【0012】
総括すると、従来では機械翻訳において原文内では存在した用語間の結びつきが必ずしも訳文に反映されなかった。人手の翻訳においても、一度翻訳したものを見直さない限り、訳語の一貫性は必ずしも保証されない。加えて、訳語の調整がもれなく、しかも翻訳者に多大な負担をかけることなく行われるような機構も提供されていなかった。このように現状では、訳文の修正に必要十分な情報を分かりやすく提示するという利用者のニーズには十分応えられていない。
【特許文献1】特開2001−282787号公報
【発明の開示】
【発明が解決しようとする課題】
【0013】
このように従来の機械翻訳では、第1言語の語同士、それに対応する訳語同士の関係を考慮せず、翻訳を行っていたために、読み手となる利用者は訳文の理解に制約を感じていた。また、これを改善するために必要な修正のための適切な枠組みも提供されていなかった。
【0014】
本発明は、上記の事情を考慮してなされたもので、自然言語を他の自然言語に翻訳する機械翻訳プログラムおよび機械翻訳装置において、使用者が適切な修正訳を得るための負担を大きく減ずることができる機械翻訳プログラムおよび機械翻訳装置を提供することを目的とする。
【課題を解決するための手段】
【0015】
上記の課題を解決するため、本発明の一態様に係る機械翻訳部プログラムは、翻訳すべき第1言語の文と、該第1言語の文を翻訳辞書部に保持された翻訳辞書を用いて翻訳した第2言語の文とを保存する保存手段と、前記保存された第2言語の文における訳語それぞれと、前記保存された第1言語の文における前記訳語に相当する語句それぞれとを前記翻訳辞書を用いて対応づける対応づけ手段と、前記保存された第1言語の文について任意の語句の指定をユーザに促す語句指定手段と、前記指定された語句を含む、または前記翻訳辞書を用いて得た当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第1言語の語句を、当該第1言語の語句に対応づけられた前記訳語とともに表示部に表示させる表示制御手段としてコンピュータを機能させることを特徴とする。
【0016】
すなわち、この機械翻訳プログラムでは、翻訳すべき第1言語の語句として任意のものを指定することができる。そして、その指定された語句(さらにその活用形や派生形の語句)を含む第1言語の語句(例えば見出し語)を、対応づけられた訳語とともに表示することができる。したがって、第1言語においては共通の語句とそれらの対応する訳との対比が容易になり、使用者は訳を修正するなどの作業を容易に行うことができる。
【0017】
また、本発明の別の態様に係る機械翻訳プログラムは、翻訳すべき第1言語の文と、該第1言語の文を翻訳辞書部に保持された翻訳辞書を用いて翻訳した第2言語の文とを保存する保存手段と、前記保存された第2言語の文における訳語それぞれと、前記保存された第1言語の文における前記訳語に相当する語句それぞれとを前記翻訳辞書を用いて対応づける対応づけ手段と、前記保存された第2言語の文について任意の語句の指定をユーザに促す語句指定手段と、前記指定された語句を含む、または前記翻訳辞書を用いて得た当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第2言語の語句を、当該第2言語の語句に対応づけられた前記第1言語の語句とともに表示部に表示させる表示制御手段としてコンピュータを機能させることを特徴とする。
【0018】
すなわち、この機械翻訳プログラムでは、翻訳された第2言語の語句として任意のものを指定することができる。そして、その指定された語句(さらにその活用形や派生形の語句)を含む第2言語の語句(例えば見出し語)を、対応づけられた第1言語の語句とともに表示することができる。したがって、第2言語においては共通の語句とそれらの対応する第1言語の語句との対比が容易になり、使用者は訳を修正するなどの作業を容易に行うことができる。つまりこの機械翻訳プログラムは、上記の一態様に係る機械翻訳プログラムとは、指定できる語句が翻訳前後という意味で逆になっている。
【0019】
また、本発明の一態様に係る機械翻訳装置は、翻訳すべき第1言語の文と翻訳された第2言語の文とを準備する第1の手段と、前記翻訳された第2言語の文における訳語それぞれと、前記翻訳すべき第1言語の文における前記訳語に相当する語句それぞれとを対応づける第2の手段と、前記翻訳すべき第1言語の文について任意の語句の指定をユーザに促す第3の手段と、前記指定された語句を含むまたは当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第1言語の語句を、当該第1言語の語句に対応づけられた前記訳語とともに表示する第4の手段とを具備することを特徴とする。
【0020】
また、本発明の別の態様に係る機械翻訳装置は、翻訳すべき第1言語の文と翻訳された第2言語の文とを準備する第1の手段と、前記翻訳された第2言語の文における訳語それぞれと、前記翻訳すべき第1言語の文における前記訳語に相当する語句それぞれとを対応づける第2の手段と、前記翻訳された第2言語の文について任意の語句の指定をユーザに促す第3の手段と、前記指定された語句を含むまたは当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第2言語の語句を、当該第2言語の語句に対応づけられた前記第1言語の語句とともに表示する第4の手段とを具備することを特徴とする。
【0021】
これらの機械翻訳装置も、上記の機械翻訳プログラムそれぞれと同様な作用・効果を有する。なお、機械翻訳装置が具備する各手段は、例えばマイクロプロセッサやメモリ、ハードディスクなどのハードウエアと、これらのハードウエア上で動作するオペレーティングシステム等の基本ソフトウエアやアプリケーションプログラムなどとによって構成することが可能である。
【発明の効果】
【0022】
本発明によれば、自然言語を他の自然言語に翻訳する機械翻訳プログラムおよび機械翻訳装置において、使用者が適切な修正訳を得るための負担を大きく減ずることができる。
【発明を実施するための最良の形態】
【0023】
上記一態様に係るプログラムの実施態様として、前記表示制御手段は、前記指定された語句が前記訳語において特定の訳である場合には、機能しない、としてもよい。対比の必要のない場合の表示をあらかじめ取り止めるための態様である。
【0024】
また、上記別の態様に係るプログラムの実施態様として、前記表示制御手段は、前記指定された語句が前記第1の言語への対応づけで特定の語句である場合には、機能しない、としてもよい。これも対比の必要のない場合の表示をあらかじめ取り止めるための態様である。
【0025】
以上を踏まえ、以下では本発明の実施形態を図面を参照しながら説明する。なお、前提となる参考例を適宜織り交ぜて説明する。
(第1の参考例)
図1は、参考例に係る機械翻訳装置の構成を示すブロック図である。この機械翻訳装置は機械翻訳プログラムを備え、これにより、同図に示すように、入力部11、システム制御部12、編集部13、翻訳部14、翻訳辞書部15、表示部16、文書記憶部17の各部が機能する。機械翻訳プログラムと機械翻訳装置の関係については以下の各形態でも同様である。以下では、他の形態も含めて、例として第1言語を英語、第2言語を日本語として説明を行う。
【0026】
入力部11は、インターネットなどの通信手段やキーボード等を通じて、翻訳すべき第1言語の文や文章を入力するものである。また、機械翻訳装置としての動作を指示するためのコマンドなどを入力するものである。入力された文やコマンドなどはシステム制御部12に送られる。
【0027】
システム制御部12は、この機械翻訳装置全体を統括的に制御するものである。例えば、入力部11から得た文や文章を、表示部16に表示すべく表示部16に送る、編集すべく編集部13に送る、翻訳すべく翻訳部14に送る、記憶すべく文書記憶部17に送るなどの動作を行う。また、入力部11からのコマンドに従い編集部13、翻訳部14、翻訳辞書部15、文書記憶部17、表示部16の動作を制御する。例えば、翻訳辞書部15のデータを取り出して各部に送ったり、コマンドに従い入力された文章から翻訳する文を選択したり翻訳辞書部15が有する辞書のうちから働かせるものを選択したりする。
【0028】
編集部13は、システム制御部12で選択された第1言語の文に対する編集の他、表示部16に表示された対象の編集、すなわち入力部11から入力されたコマンドなどの指示に応じて表示上でのカーソルの移動、翻訳部14における翻訳処理によって得られた訳文の、システム制御部12を介する表示部16での表示等の制御を行うものである。
【0029】
翻訳部14は、システム制御部12で選択された第1言語による文に対して、システム制御部12で選択された翻訳辞書部15の辞書を参照しながら翻訳処理を行うものである。翻訳辞書部15は、翻訳部14が翻訳処理を行う際に使用する各種辞書を格納・保持するものである。翻訳辞書部15が有する各種辞書の内容については後述する。
【0030】
表示部16は、システム制御部12の制御の下、入力部11から入力された第1言語の文章(原文)や、翻訳部14により訳出された第2言語の文章(訳文)等を表示するものである。文書記憶部17は、システム制御部12の制御の下、第1言語の文章と第2言語の文章とを独立して記憶・保持するとともに、第1言語とその翻訳結果としての第2言語のデータを所定に対応付けて記憶・保持するものである。
【0031】
翻訳辞書部15は、図示するように、活用変化辞書15a、解析文法辞書15b、単語・熟語辞書15c、変換文法辞書15d、生成文法辞書15e、形態素生成文法辞書15fを有する。活用変化辞書15aは、第1言語について、語尾等に変化のある単語・熟語をその原形に変換するための辞書である。解析文法辞書15bは、第1言語を解析するための文法が記憶された辞書である。単語・熟語辞書15cは、第1言語の単語・熟語に対応する第2言語の訳語がその品詞情報とともに記憶された辞書である。変換文法辞書15dは、第1言語と第2言語との構造変換規則が記憶された辞書である。生成文法辞書15eは、第2言語の文の構造を決定するための辞書である。形態素生成文法辞書15fは、第2言語の語尾等の語形を変化させて翻訳文を完成させるための辞書である。
【0032】
次に、図2を参照して、図1に示した機械翻訳装置の動作を説明する。図2は、図1に示した機械翻訳装置の動作フローを示す流れ図である。まず、原文(翻訳すべき第1言語の文章)を入力部11を用いてこの機械翻訳装置に取り込む(ステップ21)。取り込まれた文章は、システム制御部12により表示部16に表示されかつ文章記憶部17に記憶・保持される。
【0033】
表示部16に第1言語の文章が表示されたら、次に、その文章のうち翻訳すべき文にカーソルを位置させる(ステップ22)。最初は通常第1文である。次に、利用者は入力部11からイベントの実行を指示するコマンドを入力する(ステップ23)。入力されたコマンドが「終了」、「翻訳」でない場合には、そのコマンドに応じた処理を実行し(ステップ29)、再びコマンドの入力がされ得る状態、ステップ23に戻る。入力されたコマンドが「終了」の場合は(ステップ24のY)、後述する「対訳リスト」作成の動作に移行する(ステップ30からステップ33)。入力されたコマンドが「翻訳」の場合は(ステップ25のY)、翻訳処理(ステップ26)に移行する。
【0034】
翻訳対象を指示するカーソルの移動は、第1文から順にその文の翻訳が終わったら次の文に移動として自動的に移動する。これ以外に、カーソルの移動をコマンドによって指定することもできる。この場合には、ステップ29の処理を実行することでカーソルが移動する。内部的には、編集部13がコマンドに応じてシステム制御部12を介して表示部16上のカーソルを移動させる。この参考例では、カーソルが位置する一文(例えばカーソルをその先頭に位置させる)が翻訳のコマンドが指示された際の翻訳対象である。このようなカーソルの移動は、原文を翻訳しようとする際に、現在のカーソル位置の文ではなく、その前後の文を翻訳したいときなどに対応するためである。
【0035】
翻訳処理(ステップ26)はシステム制御部12が統括して行う。この翻訳処理自体は公知の処理を適用することができる。ただし、翻訳処理とともに、第1言語の文の語句と翻訳された第2言語の文の語句との対応関係を導出し、この対応関係をも文書記憶部17に記憶・保存しておく。これらの処理が終わると翻訳処理結果が表示部16に表示される(ステップ27)。また、翻訳対象を指定するカーソルを次の文に移動させる(ステップ28)。そして再びコマンドの入力がされ得る状態、ステップ23に戻る。以下同様の流れにより翻訳処理を進めることができる。
【0036】
具体例を図3、図4を参照して説明する。図3は、図1に示した機械翻訳装置上における原文および訳文の表示例を示す図である。図4は、図3に示す原文および訳文における、原文の語句と訳文の語句との対応を示す図である。図3(a)に示す原文(第1言語)の表示において、その第1文が翻訳処理された状態では、翻訳辞書部15の利用により、”For | the | stability | of | light-weight | composite blades | , | the | low | centrifugal force | requires | a | large | diameter | bearing | .”のように句読点を除いて14の要素に分割される。ここで複数の単語からなる”composite blades”と”centrifugal force”がそれぞれ1単位として扱われているのは、これら(ただし原形)が、複合語として翻訳辞書の見出し語に登録されているためである。
【0037】
次に、ここで分割された14の要素のうち、前置詞、冠詞などの機能語ではない内容語に関して、どのような辞書の見出し語が適用され、どのような訳語が当てられたかをその品詞情報と併せて、それぞれを対にした形のデータとして生成する。このとき、さらにこの内容語に対して、複合語(合成語)か否かの情報を付与しておく。これは英語ではスペースやハイフンの存在によって複合語であると判断することができる。
【0038】
上記例では”for, the, of, a”の4語が機能語、”stability, light-weight, composite blades, low, centrifugal force, requires, large, diameter, bearing”の8語が内容語となる。このうち、”light-weight, composite blades, centrifugal force”が複合語であり、さらに、これらの内容語のうち、”composite blades”と”requires”の2語は参照した見出し語が異なる(原形が存在する)ことも記憶しておく。すなわち、前者は名詞の複数形であるので”composite blade”、後者は動詞の3人称単数現在であるので原形の”require”をそれぞれ参照している。
【0039】
なお、ここでいう複合語は一般に複合語と理解されているものよりも広い意味で用いており、見出し語が複数の単語からなるということを指す。したがって、”full of beans”(元気一杯の)のような慣用句・イディオムも含めている。なぜなら、一般に慣用句・固有名詞は慣用句・イディオムとしての語義で解釈してよいが、場合によっては文字通りの意味で解釈しなければならないこともあるためである。先の例でいえば、文書内に”bean”単独でも生起すればその可能性は高い。また、その特有の意味と文字通りの意味と両方が必要となることもある。これは、ことば遊びの一種(pun)であり、文学などでみられる現象である。
【0040】
以上のような処理により、図4(a)に示すような対応づけのリストを生成することができる。このリストは、文書記憶部17に文番号とともに送られ記憶・保存される。図3(a)に示す最初の文について以上の処理が終了すると、図3(b)の第1文のような当該文の翻訳結果が表示部16に表示される(ステップ27)。次に、カーソルが次の文に移動され(ステップ28)、この文に対する翻訳処理が行なわれる。
【0041】
ここで以下同様に、構文解析により、”Thus | , | strict | quality control | is maintained | on | the | bearing geometry | .”のように分解される。このうち内容語は”thus, strict, quality control, is maintained, bearing geometry”の5語である。さらに、”is maintained”は動詞の受動態であるため、原形に直し、”maintain”という一単語の見出し語から訳語を得ている。したがって、”quality control”と”bearing geometry”の2語のみが複合語であると判断される。
【0042】
このようにして得られた対応づけのリストは例えば図4(b)に示すようになる。このリストは、図4(a)のリストと同様に文書記憶部17に記憶・保存される。図3(a)中に示す第2文の翻訳が終了すると、例えば図3(b)中に示す第2文のような当該文の翻訳結果が表示される。そして、この具体例の場合は、これ以降の文がないのでステップ24で終了のコマンドが入力される。
【0043】
以上の処理が終了すると、この翻訳装置はユーザに対し「対訳リスト」作成の要否を尋ねる(なお尋ねることなく自動的に次の処理に移行してもよい)。「対訳リスト」は以下のようにして作成される。再び図2をも参照して説明する。まず、翻訳の過程で文書記憶部17に蓄積しておいた対応づけのリストの中から、複合語(ただし原形)を取り出し、単語単位に分割する(ステップ30)。
【0044】
図3、図4に示した例では、”light-weight, composite blade, centrifugal force, quality control, bearing geometry”の5語が対象になり、”light-weight”は”light”と”weight”の2語、”composite blade”は”composite”と”blade”の2語、”centrifugal force”は”centrifugal”と”force”の2語、”quality control”は”quality”と”control”の2語、”bearing geometry”は”bearing”と”geometry”の2語に分割される。これにより、”light, weight, composite, blade, centrifugal, force, quality, control, bearing, geometry”の計10の単語を得る。
【0045】
次に複合語以外のもの、すなわち一単語よりなる語句(ただし原型)を取り出す(ステップ31)。ここでは”stability, low, require, large, diameter, bearing, thus, strict, maintain”の9語が対象となる。次いで、このステップ31で得た個々の単語がステップ30で取り出した集合の中に存在するか否か、すなわち少なくとも部分的に一致する語句があるか否かを既知のいずれかのパターンマッチング技術を使って検索・抽出する(ステップ32)。
【0046】
図3、図4に示す例では、”bearing”が双方に含まれている。したがって、”bearing”が抽出され、第1文の”bearing”と”bearing”を構成要素に持った第2文の”bearing feature”とが例えば図5に示すような「対訳リスト」として作成・表示される(ステップ33)。これによりユーザは”bearing”という単語が、同一文書内で「軸受」と「ベアリング」と二通りに訳されていることが分かる。この表示を見て、ユーザが訳語の調整が必要であるかを判断することができる。なお、図5に示した表示以外に、それが生起した文を同時に表示させるようにしてもよい。訳語の調整は文脈を見ながらの方がやりやすいことが多いためである。
【0047】
上記の例では、比較の対は第1言語の一単語の集合と複合語の集合とであったが、一単語同士、複合語同士の比較とすることも意味がある。まず、一単語の集合内の比較について図6に示す例文を使って説明する。図6は、図1に示した機械翻訳装置上で用意された原文および訳文の表示の別の例を示す図である。背景説明として、機械翻訳では同じ一単語見出しが引かれても、その見出し語に対し、共起した他の単語を参照して訳語を決定する種々の翻訳規則をもっているので、同一訳語が付与されないことがある。
【0048】
図6(a)に示す原文は、”Gears | are mounted | on | a | shaft | . | This | machine | contains | four | connecting rods | arranged | at | right angles | , | driven | by | eccentric | shafts | and | large | gears | .”のように分割されて、図7に示すような対応づけのリストが文書記憶部17に記憶・保存されている。
【0049】
そこで、ステップ30では複合語(ただし原形)を単語単位に分割し、ステップ31では一単語からなる語句(ただし原形)を取り出した後、ステップ32では一単語の集合(“gear, shaft, machine, contain, arrange, drive, large, gear”)の中の頻度を調べ、頻度が2以上のものを抽出する。この例では”gear”がそれに相当する。そして、図7に示す対応づけのリストを参照し、これらに異なる訳語が振られている場合に表示対象とする(ステップ33)。図6(a)中の”gear”は、図7、図6(b)にあるように「歯車」「ギア」と2通りの訳語が使われているため表示対象となる。この場合の「対訳リスト」の表示は、例えば図8に示すようになる。図8は、図7に示す対応づけから得られた対訳リスト(一単語同士の比較による)の表示例を示す図である。
【0050】
次に複合語同士の比較について説明する。具体例として、同一文書内に”capacity increase”と”standard capacity”という単語列が含まれ、これらは辞書の見出し語と一致し、それぞれ、「能力アップ」「標準操業度」という訳語が割り当てられた場合を例に説明する。この場合、ステップ30において一単語に分割すると、”capacity, increase, standard, capacity”の4語を得る。次に、このうち一単語の頻度が2以上のものを取り出す。ここでは”capacity”がこれに該当する。そこでこのcapacityという単語を含む複合語、すなわち”capacity increase”と”standard capacity”が表示対象となる。
【0051】
さらに、この2文以降にも文が後続し、”capacity increase”が再び出現したとする。そこでの訳語が同じなら、例えば図9(a)に示すように、違う場合は例えば図9(b)に示すように「対訳リスト」を表示する。図9は、図7に示す対応づけのリストから得られた対訳リスト(複合語同士の比較による)の表示例を示す図である。図9(b)では、見出し語”capacity increase”の末尾に数字の2が挙げられており、これは「能力アップ」「能力増強」という2つの訳語が存在したことを示している。
【0052】
図8、図9に示すような「対訳リスト」によっても、ユーザは、訳語の調整が必要であるかを容易に判断することができる。
【0053】
(第2の参考例)
次に、第2の参考例について説明する。第1の参考例でもすでに説明したが、抽出対象を原形の単語の完全一致とすることにより、抽出対象を活用形にまで拡大させることができる。このような活用語を含む抽出の例を第2の参考例のひとつとしてまず補足・説明する。この処理のためには、翻訳辞書部15の中のうち、語尾等に変化のある単語・熟語をその原形に変換するための活用変化辞書15aを特に必要とする。
【0054】
一例として、同一文書内に”communications service”と”communication speed”という単語列が含まれ、これらは辞書の見出し語と一致し、それぞれ、「コミュニケーションサービス」「通信速度」という訳語が対応づけられているとする。このとき、ステップ30で単語単位に分割すると、”communications, service, communication, speed”の4語が得られる。さらにこれらのうち、原形となっていないものは活用変化辞書15aを参照して原形に直す。本例では”communications”が名詞複数形になっているため、単数形の”communication”に変換される。
【0055】
そこで、検索対象は”communication, service, communication, speed”の4語となるので、このうち頻度が2以上のものを取り出し語句の抽出を行う。ここでは”communication”が該当する。よって、”communication”を用いた複合語、すなわち”communications service”と”communication speed”が表示対象となる。図10はその表示例である。図10は、活用前の語句の比較によって得られた「対訳リスト」の表示例を示す図である。なお、活用語には、名詞の複数・単数の他にも、名詞の所有形(例: Avogadro numberとAvogadro’s number)、現在分詞、過去分詞などの動詞の活用形が挙げられる。
【0056】
次に、活用語の場合と同様の考え方による派生語を対象に含めて抽出を行うようにした参考例を説明する。この処理のためには、新たに第1言語の単語の語源(etymology, derivation)を記した語源辞書15g(不図示)が必要となる。
【0057】
例えば、同一文書内に”managerial technique”と”management approach”という単語列が含まれ、これらは辞書の見出し語と一致し、それぞれ、「管理技術」「マネージメント・アプローチ」という訳語が対応づけられているとする。このとき、ステップ30で単語単位に分割すると、”managerial, technique, management, approach”の4語が得られる。次に、語源辞書15gを用いて各語句の語源を調べると、”managerial”は動詞”manage”から派生した名詞”manager”を形容詞化したものであること、”management”は動詞”manage”を名詞化したものであるといった情報を得ることができる。こうして、”managerial”と”management”は同じ語源を持つ語であることが分かる。そこで、”manage”を仲介として”managerial technique”と”management approach”とは、「対訳リスト」に挙げるべき表示対象となる。
【0058】
もう1例として一単語内での同様の処理が挙げられる。例えば、同一文書内に”establish, reestablish”という2語が出現し、両者とも辞書の見出し語として挙がっており、それぞれ「確立する」「再建する」という訳語が対応づけられているとする。ここで、語源辞書15gを用いると、”reestablish”は動詞”establish”に”re”という接頭辞が付与されて派生した語であることが示される。これにより”establish”は”reestablish”の派生元の語であることが分かるので、これらは「対訳リスト」に挙げるべき表示対象となる。
【0059】
なお、派生のタイプはここで説明以外にも多様のものがある。接尾辞ひとつをとっても、動詞の派生語で特に造語力が高い、形容詞化の接尾辞-able, -ible (受動の意味で他動詞に付け「…できる」「…するに適する」「…するに値する」「…しやすい」の意味となるもの)、名詞化する接尾辞-er(「…する人」「…するもの」「…するためのもの」といった意味)など数多い。
【0060】
また、派生語として異表記も含めるようにすることができる。これは具体的には、英綴対米綴(例:colorとcolour; organizeとorganise)、大文字対小文字(Babbitt metalとbabbitt metal、social security numberとSocial Security number)、「語頭全部が小文字」対「語頭全部が大文字」、「語頭全部が小文字」対「語頭の一部の語句が大文字」などといったものがある。このように考慮することで本参考例は、対象とする活用・派生の種類を限定されずに適用可能である。
【0061】
(第3の参考例)
次に、第3の参考例について説明する。第3の参考例に係る機械翻訳装置の構成は、図1に示す参考例の構成と一点を除いて同一である。この違いは、図11に示すように、対訳リスト作成をすべきかどうかを制御する対訳リスト作成可否制御部(「編集部+対訳リスト作成可否制御部」13Aの一部として)をもっている点である。図11は、第3の参考例に係る機械翻訳装置の構成を示すブロック図である。第3の参考例では、第1の参考例の通りに翻訳を行い、この対訳リスト作成可否制御部13Aが「可」とした文字列に対して、第1の参考例で説明した「対訳リスト」作成を行う。
【0062】
この実現には、大枠で2つのものが考えられる。一つはこの対訳リスト作成可否の制御を機械翻訳装置が行う判定の結果に基づいて行うことであり、もう一つはこの制御を外部からの指示によって行うものである。以下、前者を第3の参考例、後者を第1の実施形態(後述)として説明する。
【0063】
第3の参考例は、第2言語の活用変化辞書および解析文法辞書をも使って、第1言語の見出し語とその訳語がどのように対応しているかを判断して、一原語に対する訳語のタイプを解析し、これに基づき「対訳リスト」を作成するか否かを判断していることを特徴とする。
【0064】
この参考例に係る機械翻訳装置の動作について図12ないし図14をも参照して説明する。図12は、図11に示した機械翻訳装置の動作フローを示す流れ図、図13は、図12中に示したステップ300の詳細なフローを示す流れ図、図14は、図12中に示したステップ350の詳細なフロー示す流れ図である。図12においてすでに図2で説明したステップには同一符号を付してあり、そのステップの説明は重複するので省略する。
【0065】
動作の仕方は言語対によって異なるが、ここでは名詞(句)の英日翻訳において一単語(原語)とその複合語とが出現する場合を例にとって説明を行う。具体例として、一単語の”cylinder”に着目して、見出し語”cylinder rod”と訳語「シリンダロッド」の対、見出し語”cylinder“と訳語「シリンダー」の対、見出し語”brass cylinder assembly”と訳語「黄銅円筒組立品」の対、見出し語”graduated cylinder”と訳語「目盛り付きの円筒状の液体容積測定器」の対、見出し語”gas cylinder”と訳語「ボンベ」の対が同一文書内に出現する場合を考える。
【0066】
ステップ300における解析においては、まず、これらの” ”内の英語語句の訳語が単語・熟語辞書15cにより得られている状態において、原語の英語綴りからもっともらしいカタカナの音訳を得る(ステップ301)。なお、原語とカタカナ文字列の照合技術はすでに確立されているのでそれを用いる。この例では、”cylinder”から「シリンダー」または「シリンダ」、”rod”から「ロッド」、”brass”から「ブラス」、”assembly”から「アセンブリー」または「アセンブリ」、”graduated”から「グラデュエーテッド」、”gas”から「ガス」がそれぞれ導出される。
【0067】
次に訳語とカタカナ置換後の文字列を照合し、一致した場合は(ステップ302のY)、音訳であると判断する。この例では”cylinder rod”と「シリンダロッド」の対がこれに相当し、後述するように構成素同士も”cylinder”と「シリンダ」、”rod”と「ロッド」のように一対一対応している。一方、一致がみられなかった場合は(ステップ302のN)、まず、活用変化辞書15aと、第1言語を解析するための文法が記憶された解析文法辞書15bとを用いて、当該の語句が分割できるかどうかを判定する(ステップ304)。
【0068】
分割が終了すると、それぞれの語句に関して単語・熟語辞書15cを検索し、可能な訳語を調べる(ステップ306)。次に、分割前の語句の訳語を目的言語(日本語)の活用変化辞書(不図示)と解析文法辞書(不図示)を用いて解析し、名詞、動詞といった内容語を抽出する(ステップ307)。これらの内容語と先に抽出された可能な訳語との比較対を作り、その一致度を見る(ステップ308)。
【0069】
過不足なく一致すれば、一対一対応訳語であると判定する(ステップ309)。上記では「黄銅」(“brass”)「円筒」(“cylinder”)「組立品」(“assembly”)と分割できる「黄銅円筒組立品」と”brass cylinder assembly”の対がこの分類に入る。部分的に一致する場合は、部分対応訳語と判定し(ステップ310)、その一致箇所を記憶・保存しておく。ここでは”graduated cylinder”の訳がこれに相当する。”graduated cylinder”を分解すると、”graduated”の訳語として、「目盛りを付けた、階級をつけた、累進の」といった訳語があることより「目盛り付きの」と一致し、cylinderは「円筒」と一致する一方、「液体容積測定器」のように一致しない部分もあるためである。
【0070】
全く一致しない場合は、非対応訳語と判定し(ステップ311)、一致度0であることを記憶・保存しておく。これは”gas cylinder”とそれ以上分割できない「ボンベ」のように典型的には原語の形態素(単語)の数が訳語の形態素(単語)の数を上回るケースである。
【0071】
なお、ステップ304で行う分割が成功しなかった場合は、訳語のタイプは判定不能とする(ステップ305)。この場合は後述するように「対訳リスト」の表示対象とする。
【0072】
以上のように訳語のタイプ分けが完了すると、そのタイプ分けの結果を訳語に付与する(ステップ312)。なお、以上のタイプ分けの処理(ステップ300)は、すでに単語・熟語辞書15cに訳語の種類(例えば音訳、説明調、一対一対応訳といった分類が考えられる)で与えられている場合は省略できる。
【0073】
以上の処理がされた状態において、ステップ24において「終了」が入力されると、この翻訳装置はユーザに対し「対訳リスト」作成の要否を尋ねたうえで(なお尋ねることなく自動的に次の処理に移行してもよい)、「対訳リスト」の作成ステップ350に進む。
【0074】
ステップ350では、図14に示すように、まず、訳語に、音訳、一対一対応訳語、部分対応訳語があるかどうかを判断する(ステップ351)。これらタイプの訳語がある場合には、「複合語について単語単位に分割」(ステップ352)、「一単語からなる語句を取り出す」(ステップ353)の各処理を行う。これらの処理は、図2におけるステップ30、ステップ31とそれぞれ同じである。
【0075】
次に、複合語の各語句、または一単語からなる語句を比較し、少なくとも部分的に一致する語句を「注目語」として抽出する(ステップ355)。具体例では、”cylinder”が抽出される。これにより、”cylinder rod”からは「シリンダ」、”cylinder”からは「シリンダー」、”brass cylinder assembly”と”graduated cylinder”からは「円筒」が内部的に得られる。つまり、同じ”cylinder”に対し、「シリンダ」「シリンダー」「円筒」の3種の訳が存在することが分かる。もし訳がひとつしか存在しなければ(ステップ355のY)、この参考例では「対訳リスト」の作成をせず(ステップ357)、その対象語がないことをユーザに通知する。
【0076】
一方、上記のように、複数の訳語が存在したり(ステップ355のN)、判定不能語等が存在した場合は(ステップ351のNからステップ358のY)、この参考例では「対訳リスト」の作成がされる。なお、ステップ358で判定不能語および非対応訳語がない場合は(ステップ358のN)、「対訳リスト」は作成されない(ステップ360)。
【0077】
具体例として作成される「対訳リスト」は図15に示すようになる。図15は、図11に示した機械翻訳装置で得られる対訳リストの表示例を示す図である。この表示例では、図示するように、対応関係が抽出できたものについては下線を付したりなど見やすくするなどの工夫が可能である。さらに、仮に”cylinder”を含む複合語があり、”cylinder”の訳相当語がその訳語に存在し、かつそれが単独の場合の訳である「シリンダー」と同一の場合、「対訳リスト」表示の対象から外すようにしてもよい。また、判定不能語が存在した場合も(ステップ358のY)、この参考例では「対訳リスト」作成の対象としている(ステップ359)。
【0078】
ユーザは、図15に示すような「対訳リスト」を見ながら、訳文に対して必要な修正を容易に行うことができる。例えば、同一文内、または近傍に”cylinder”単独と”brass cylinder assembly”が現れた場合、この”cylinder”は同一物を指す可能性がかなり高いため、前者の訳語は「シリンダー」でなく、「円筒」に変更するなど、訳語をそろえるほうが理解しやすい文になることが分かる。
【0079】
本具体例のように、”brass cylinder assembly”に対し、同一文書内で”cylinder”がどのように訳出されているかを見ることは、辞書の見出しに挙がっている「黄銅円筒組立品」とは違う新たな訳をユーザが考える上で役立つ。さらに、「シリンダー」と「シリンダ」のように異表記の存在も容易に検出でき、これらは特別の理由がない限り、統一するのが望ましいであろう。日本語では長音記号以外にも中点の有無、カタカナ語表記によるばらつきがある。英語でも、同様に、複合語に関して、一語にするか(例:”broadband”)、二語にするか(ハイフンでつなぐか(例:broad-band)、スペースのままとするか(例:broad band)で揺れがある。市販辞書、機械翻訳辞書いずれも同一辞書内で表記が必ずしも統一されていないのが現状である。そこで、辞書適用後の文書内における表記の調整は必然となっている。
【0080】
さらに、本具体例の文書内で一単語cylinderの見出し語の訳語が付与された中には、前後の要素を加えて、複合語の見出しとして辞書に新たに加えるべきものも含まれている可能性がある。このための辞書登録の作業を容易にするため、次のような機能を提供することも可能である。このためにはまず、「用いられた文」の項は、図15(b)に示すように、KWIC(キーワード・イン・コンテキスト)表示にする。また、翻訳処理過程で得られた句構造から、句の範囲(ここでは名詞句)を、図15(b)に下線で図示するように、明示する。この部分の名詞句の訳はデフォルト訳であり、望ましい訳とは限らないが、参考として現状訳を近傍に表示する。この結果を参照しながらユーザは必要に応じて辞書登録をスムーズに行うことができる。
【0081】
(第1の実施形態)
次に、本発明の第1の実施形態について図16を参照して説明する。図16は、本発明の一実施形態に係る機械翻訳装置の構成を示すブロック図である。同図に示すように、この機械翻訳装置は、図1に示した機械翻訳装置の構成要素の他に、前編集部(「編集部+前編集部」13Bの一部として)が追加されている。この前編集部は、翻訳結果を所望の形に近づけるためにユーザが翻訳の前に文書に対し行う編集処理のためのものである。例えば、その一つには、長文を分割したり、受身文を能動文にしたりなどの書き換えや訳文においても原語のまま表示したい語句の指定がある。さらに、この実施形態では、この前編集部が、「対訳リスト」を作成すべき語句の指定にも用いられる。その態様を以下説明する。
【0082】
まず、翻訳の前準備としてユーザは前編集部を通じて、入力部11を用い「対訳リスト」を付与すべき語句を指定する。ここでは具体例として第3の参考例の説明で使用した”cylinder”という単語に対し、そのような指定を行ったとする。指定を行うには、例えば図17に示すような対訳リスト作成対象指定のための画面を用い、対訳リストの対象や書式を指示するよう構成することができる。図17は、図16中に示した「編集部+前編集部」のはたらきによって表示部に表示される、ユーザに任意の語句の指定を促すための画面の例を示す図である。これにより指示がされると、機械翻訳装置は、それに基づいた「対訳リスト」の作成処理を実行させる。
【0083】
図17に示す選択肢としては、1.として、複合語のみとするか((ア)−1)、単独のみとするか((ア)−2)、いずれも対象に含めるか((ア)−3)の3種のうちから指定できる。具体例では、((ア)−1)を選択すれば”cylinder”単独は対象外になり、((ア)−2)は逆に”cylinder”単独のみが対象となり、((ア)−3)は双方が対象となる。
【0084】
また、2.として、派生語・活用語を含めるか否かでは含めるとした場合、”cylinder”以外に”cylindrical”(形容詞), “cylindrically”(副詞), “cylindricality”(名詞), “cylinder-like”(形容詞)も検索され、加えて、”cylinder”は名詞から派生した動詞もあるため、”cylindering”や”cylindered”も検索対象にできる。なお、一部の派生語、活用語の検索のみを希望する場合は、その品詞の指定または語そのものの指定により、検索対象を限定する枠組みも設けている。これは全ての派生語を扱うと出力件数が非常に多くなる場合などに有用である。
【0085】
以上は原語側での限定であるが、3.として、訳語側での制御もこの実施形態では可能である。ここで訳語を指定すれば、その語が対応する訳語となっているものを表示対象から外すことができる。例えば、”equipment”が検索語である場合、訳語が例えば「装置」であるものは除くといったように指定できる。すると、文書内に”semiconductor processing equipment”「半導体処理装置」、”electronic equipment”「電子装置」、”airborne equipment”「航空機搭載機器」があった場合、前者2つは除外される。これは、特許文書における「装置」など、特定の語が繰り返し出現することがあらかじめ分かっている文書に対して適用すると有効である。
【0086】
また、4.として、ユーザが要求する関連情報を選択できるようにしている。例えば、原語、訳語の品詞、訳語のタイプ(音訳、一対一対応訳語、部分対応訳語、説明調、その他)、生起した文といった項目が挙げられる。
【0087】
以上の説明は、原文を参照して、ユーザが「対訳リスト」の作成を希望するか否かを指定しているが、訳文を参照しながら「対訳リスト」希望か否かを入力できるようにしてもよい。換言すると、上記の例は、翻訳者が「対訳リスト」の必要性を判断するケースだが、この例は翻訳文書の読者が「対訳リスト」の必要性を判断するケースという見方もできる。このような場合動作について、次に説明する。
【0088】
このような場合は、上記実施形態の「前編集部」が機能的に「後編集部」となる。まず、翻訳終了後、ユーザは後編集部を通じて、入力部11を用い「対訳リスト」を付与すべき語句を指定する。例えばここでは原語”heat”に対応する「放熱」を指定したとする。このような指定も、図17に示すような対訳リスト作成形式指定のための画面を利用することができる。ただし、図17における「単独、複合語」、「派生語、活用語」はいずれも訳語側のそれを指し、「表示対象からはずす訳語」は「表示対象からはずす原語」となる。
【0089】
この例で例えば、「単独、複合語双方」、「派生語、活用語」を限定せずに対象とし、原語の制限も設けない場合、「放熱」以外にその複合語である「放熱回路」「放熱源」「放熱特性」に加え、活用語、関連語である「放熱する」「放熱可能」も検索対象とすることができる(ただし、これらが文書内に使われていることを前提とする。)。処理終了後には、例えば図18のような「対訳リスト」が作成・表示される。このようにすることで、訳語をキーにソートすることにより、逆方向(ここでは日英)の辞書登録作業をも軽減することができる。
【0090】
なお、以上述べた実施形態は、次のように種々変更して実現することも可能である。例えば、上記実施形態は、「対訳リスト」作成に必要な処理の一部を本文の翻訳と並列して行うようにしているが、その段階では「対訳リスト」作成に必要な処理は全くせずに機械翻訳を一通り行ってから、「対訳リスト」作成の処理に入るようにすることも可能である。
【0091】
また、「対訳リスト」作成の指定を、翻訳の前あるいは後に一括して行うようにしているが、対話翻訳として、語句ごとに対訳リスト希望の旨を指示するようにしてもよい。また、上記実施形態は訳文として機械翻訳の出力を用いているが、人手で翻訳したものを電子化したものを使ってもよい。ただし、この場合大きな相違点がある。すなわち、機械翻訳の場合、単独語と複合語の区別があるが、後者にはない。同一文内の用語はもちろんのこと、文単位でも必ずしも1対1対応しているとは限らない。
【0092】
そこで、この場合は、機械処理にて対応関係がとれた表現について、上記実施形態のような処理を行う。なお、対訳文書の対応関係自動抽出の方法は、文献:「高橋大和、白井諭、大山芳史「日英新聞記事の対応コーパス自動生成」言語処理学会第3回年次大会、pp.127−130, 1997」、文献:「松本賢司、柏岡秀紀、田中英輝「分野固有の情報を利用した日英対訳記事コーパスの構築」情報処理学会第63回全国大会、vol. 2, pp. 251−252, 2001」、または特開2004−102481号公報を始めとして各種考案されているので、それらの技術を利用することができる。
【0093】
対応関係がたとえ部分的にしか得られないとしても、本実施形態の人手翻訳への適用は、機械翻訳では起こりにくいが人手翻訳では起こりやすい現象を検出するのに役立つ。すなわち、人手翻訳の場合、本来は同じように訳すべき原語表現に対して、不注意、記憶違いなどにより、場所によって違った訳語をあててしまうことがある。本実施形態によれば、そうした可能性のある箇所を網羅的に検出できる。なお、以上の説明は、英日翻訳を例に説明してきたが、英日のみならず日英にも応用することができる。
【0094】
以上説明のように、本発明の実施形態によれば、第1言語内で関連のある語とその訳語の異なる組み合わせを抽出、表示し、この表示結果を参照しながら、訳文の修正を行ったり、また、その抽出結果をもとに翻訳辞書(対訳辞書)に対し修正や追加を行ったりすることが容易になる。
【0095】
より具体的には、主に4つの効果が期待できる。第1に、指示対象物が不明確であった訳出表現を洗い出し、効率的な修正が可能となる。すなわち同一物を指すのに違った訳語が付与されているという問題である。訳語同士が第2言語では同義語でない場合、これは特に深刻な問題である。第2に、現状の機械辞書内における表現の統一や訳語候補の追加により、辞書の質を向上させることができる。
【0096】
第3に、辞書編纂専門家ではないユーザによって作成されたユーザ辞書の弊害を緩和できる。この弊害とはある限られた文のみを見て、本来は見出し語に立てるべきでない語を辞書の見出しとしてしまい、その文字列と訳が必要以上に優先されてしまうというものである。第4に、検索対象に派生語も含めているため、”radiation heat, radiative heat, radiant heat”のように意味的には近いが、従来は別扱いとされがちであった表現が関連づけられるようになる。
【図面の簡単な説明】
【0097】
【図1】参考例に係る機械翻訳装置の構成を示すブロック図。
【図2】図1に示した機械翻訳装置の動作フローを示す流れ図。
【図3】図1に示した機械翻訳装置上で用意された原文および訳文の表示例を示す図。
【図4】図3に示す原文および訳文における、原文の語句と訳文の語句との対応を示す図。
【図5】図4に示す対応づけから得られた対訳リストの表示例を示す図。
【図6】図1に示した機械翻訳装置上で用意された原文および訳文の表示の別の例を示す図。
【図7】図6に示す原文および訳文における、原文の語句と訳文の語句との対応を示す図。
【図8】図7に示す対応から得られた対訳リスト(一単語同士の比較による)の表示例を示す図。
【図9】図7に示す対応から得られた対訳リスト(複合語同士の比較による)の表示例を示す図。
【図10】活用前の語句の比較によって得られた対訳リストの表示例を示す図。
【図11】第3の参考例に係る機械翻訳装置の構成を示すブロック図。
【図12】図11に示した機械翻訳装置の動作フローを示す流れ図。
【図13】図12中に示したステップ300の詳細なフローを示す流れ図。
【図14】図12中に示したステップ350の詳細なフロー示す流れ図。
【図15】図11に示した機械翻訳装置で得られる対訳リストの表示例を示す図。
【図16】本発明の一実施形態に係る機械翻訳装置の構成を示すブロック図。
【図17】図16中に示した「編集部+前編集部」のはたらきによって表示部に表示される、ユーザに任意の語句の指定を促すための画面の例を示す図。
【図18】図16に示した機械翻訳装置で得られる対訳リストの表示例を示す図。
【符号の説明】
【0098】
11…入力部、12…システム制御部、13…編集部、13A…編集部+対訳リスト作成可否制御部、13B…編集部+前編集部、14…翻訳部、15…翻訳辞書部、15a…活用変化辞書(第1言語)、15b…解析文法辞書(第1言語)、15c…単語・熟語辞書、15d…変換文法辞書、15e…生成文法辞書(第2言語)、15f…形態素生成文法辞書(第2言語)、16…表示部、17…文書記憶部。
【技術分野】
【0001】
本発明は、自然言語を他の自然言語に翻訳する機械翻訳プログラムおよび機械翻訳装置に係り、特に、使用者が適切な修正訳を得るための負担を減ずるのに好適な機械翻訳プログラムおよび機械翻訳装置に関する。
【背景技術】
【0002】
技術の進展とともに様々な文書が電子化されるようになり、それに付随して大規模の翻訳辞書(対訳辞書)が次々と開発・構築されている。見出し語に立てられる語も日々増えている。見出し語数の多さが辞書の質の指標の一つとなっていることが、その増加の一因であるが、最近では、単なる数の多さはかえって弊害があることも指摘されるようになった。
【0003】
第1に、辞書は通常複数の人々によって編纂されるので、関連する見出し語同士とその訳語の間の整合性は必ずしもとられていない。したがって、辞書の使用者はそれらの調整を行う必要がある。複数の種類の辞書を用いればこの問題は倍増する。第2に、以前ならば主見出しの用例としてあげられていた表現(文字列)が見出しに立てられることにより、その文字列を必要以上に優先して文の意味を解釈してしまい、正しい解釈が得られないという弊害も出てきた。
【0004】
例えば、通常の場面では文字通り解釈されるある単語の並び(単語列)が、専門分野や特定の場面では限定された意味になる場合に、この単語列を見出し語に立て、その特殊な意味での訳語しか載せていなければ、初学者はこの訳語を使って文を解釈しようとし、結局意味がとれずに終わってしまうということがある。こういった大規模辞書を機械翻訳が用いる際も同様の問題が生じる。しかし、人間による柔軟な調整が入らないため、問題はより深刻である。上記で述べた第2の問題は、当該外国語にある程度通じている人であれば、解決されることが多い。すなわち、ある見出し語の語義では文脈に合わないと判断すれば、個々の単語の意味を総合して文字通りの解釈を試みるであろうと予測されるからである。しかし、機械翻訳では無条件に見出し後の訳語が優先される。
【0005】
また、ユーザが構築した辞書を併用すれば、こういった問題は倍増する。なぜなら、ユーザは、通常ならば見出し語にならないような表現を見出し語に立て、それに対し、訳を一つしかあてないのが普通であるからである。ところが、この訳語は登録の必要をユーザが感じた箇所以外では有用な訳語とはいえない可能性がある。
【0006】
一方、インターネット上でWWW(world wide web)を通じて情報獲得を頻繁に行うようになった。こうしたインターネットの上で得られる情報は大部分が英語であり、英語が母国語でなく不得手の場合、利用者は典型的には、機械翻訳を行って原文の意味を理解しようと努めてきた。一般的に当該外国語から日本語に変換する機械翻訳の質はまずまず耐えるレベルに達しつつあり、少なくとも構文的には正しい文が出力できることが通常となってきた。
【0007】
しかし、解釈の点では人手の翻訳に劣ることがある。その一つの要因は指示対象の不明確さである。文の中の語の間の「結びつき」(coherence, cohesion)は指示詞だけでなく、用語の使われ方によって保たれている。後者は、具体的には例えばある同じ用語が繰り返し用いられているという状態を指す。しかし、翻訳辞書(対訳辞書)を用いてこの文書を翻訳した場合、同じ用語であってもそれとその周辺の語が複合語見出しとしてあげられていれば、以下の原因からそちらの訳語が適用され、単独で生起した場合と同じ訳語で訳されるとは限らない。
【0008】
すなわち、機械翻訳では構文解析の効率化のために、まず複合語(慣用句を含む)の辞書を引き(A)、そのあと残った部分の解析を行い、訳をあてていく(B)。そこでは複合語の訳は一意に決められる。続くBの作業はAとは独立に行われるため、Aの対象となる部分とBの対象となる部分の訳の関連性が機械処理では失われることが多くなる。
【0009】
原文を参照しないでこの機械翻訳の出力のみを読むと、こういった関連性が失われやすくなり、解釈に支障をきたすことになる。したがって、より分かりやすい訳文を作成するには、文章内に出現する調整の必要な単語列を抽出し、網羅的なチェックをし、調整を加えることが必要である。しかし、これをもれなく人手で行うことは翻訳者にとって多大な負担となる。訳語の決定という真に知的な作業に翻訳者が専念できるような機構が求められているのである。
【0010】
翻訳結果文の見直しを容易にするための試みは確かに存在する。しかし、それは問題となる第1言語の表現(A)に対し複数の訳が可能な場合に、Aの訳語が異なっている場合のみを問題にしている。例えば下記特許文献1(特開2001−282787)があるが、これは使用者が表示された翻訳結果文の一部に別訳語を選択すると、その別訳語が選択されている部分を目立つように表示するものである。つまり、本願が扱う異なる見出し語同士の関係は問題にしていない。
【0011】
また、似たような試みとして、単語をリスト形式で表示するというものがある。これは広く「単語帳」という名で知られ、各種の市販の電子辞書、機械翻訳システムでは公知例となっている。しかし、これらにおいてリストの候補となるのは未知語や参照した単語であって、本願での対象とは異なる。
【0012】
総括すると、従来では機械翻訳において原文内では存在した用語間の結びつきが必ずしも訳文に反映されなかった。人手の翻訳においても、一度翻訳したものを見直さない限り、訳語の一貫性は必ずしも保証されない。加えて、訳語の調整がもれなく、しかも翻訳者に多大な負担をかけることなく行われるような機構も提供されていなかった。このように現状では、訳文の修正に必要十分な情報を分かりやすく提示するという利用者のニーズには十分応えられていない。
【特許文献1】特開2001−282787号公報
【発明の開示】
【発明が解決しようとする課題】
【0013】
このように従来の機械翻訳では、第1言語の語同士、それに対応する訳語同士の関係を考慮せず、翻訳を行っていたために、読み手となる利用者は訳文の理解に制約を感じていた。また、これを改善するために必要な修正のための適切な枠組みも提供されていなかった。
【0014】
本発明は、上記の事情を考慮してなされたもので、自然言語を他の自然言語に翻訳する機械翻訳プログラムおよび機械翻訳装置において、使用者が適切な修正訳を得るための負担を大きく減ずることができる機械翻訳プログラムおよび機械翻訳装置を提供することを目的とする。
【課題を解決するための手段】
【0015】
上記の課題を解決するため、本発明の一態様に係る機械翻訳部プログラムは、翻訳すべき第1言語の文と、該第1言語の文を翻訳辞書部に保持された翻訳辞書を用いて翻訳した第2言語の文とを保存する保存手段と、前記保存された第2言語の文における訳語それぞれと、前記保存された第1言語の文における前記訳語に相当する語句それぞれとを前記翻訳辞書を用いて対応づける対応づけ手段と、前記保存された第1言語の文について任意の語句の指定をユーザに促す語句指定手段と、前記指定された語句を含む、または前記翻訳辞書を用いて得た当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第1言語の語句を、当該第1言語の語句に対応づけられた前記訳語とともに表示部に表示させる表示制御手段としてコンピュータを機能させることを特徴とする。
【0016】
すなわち、この機械翻訳プログラムでは、翻訳すべき第1言語の語句として任意のものを指定することができる。そして、その指定された語句(さらにその活用形や派生形の語句)を含む第1言語の語句(例えば見出し語)を、対応づけられた訳語とともに表示することができる。したがって、第1言語においては共通の語句とそれらの対応する訳との対比が容易になり、使用者は訳を修正するなどの作業を容易に行うことができる。
【0017】
また、本発明の別の態様に係る機械翻訳プログラムは、翻訳すべき第1言語の文と、該第1言語の文を翻訳辞書部に保持された翻訳辞書を用いて翻訳した第2言語の文とを保存する保存手段と、前記保存された第2言語の文における訳語それぞれと、前記保存された第1言語の文における前記訳語に相当する語句それぞれとを前記翻訳辞書を用いて対応づける対応づけ手段と、前記保存された第2言語の文について任意の語句の指定をユーザに促す語句指定手段と、前記指定された語句を含む、または前記翻訳辞書を用いて得た当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第2言語の語句を、当該第2言語の語句に対応づけられた前記第1言語の語句とともに表示部に表示させる表示制御手段としてコンピュータを機能させることを特徴とする。
【0018】
すなわち、この機械翻訳プログラムでは、翻訳された第2言語の語句として任意のものを指定することができる。そして、その指定された語句(さらにその活用形や派生形の語句)を含む第2言語の語句(例えば見出し語)を、対応づけられた第1言語の語句とともに表示することができる。したがって、第2言語においては共通の語句とそれらの対応する第1言語の語句との対比が容易になり、使用者は訳を修正するなどの作業を容易に行うことができる。つまりこの機械翻訳プログラムは、上記の一態様に係る機械翻訳プログラムとは、指定できる語句が翻訳前後という意味で逆になっている。
【0019】
また、本発明の一態様に係る機械翻訳装置は、翻訳すべき第1言語の文と翻訳された第2言語の文とを準備する第1の手段と、前記翻訳された第2言語の文における訳語それぞれと、前記翻訳すべき第1言語の文における前記訳語に相当する語句それぞれとを対応づける第2の手段と、前記翻訳すべき第1言語の文について任意の語句の指定をユーザに促す第3の手段と、前記指定された語句を含むまたは当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第1言語の語句を、当該第1言語の語句に対応づけられた前記訳語とともに表示する第4の手段とを具備することを特徴とする。
【0020】
また、本発明の別の態様に係る機械翻訳装置は、翻訳すべき第1言語の文と翻訳された第2言語の文とを準備する第1の手段と、前記翻訳された第2言語の文における訳語それぞれと、前記翻訳すべき第1言語の文における前記訳語に相当する語句それぞれとを対応づける第2の手段と、前記翻訳された第2言語の文について任意の語句の指定をユーザに促す第3の手段と、前記指定された語句を含むまたは当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第2言語の語句を、当該第2言語の語句に対応づけられた前記第1言語の語句とともに表示する第4の手段とを具備することを特徴とする。
【0021】
これらの機械翻訳装置も、上記の機械翻訳プログラムそれぞれと同様な作用・効果を有する。なお、機械翻訳装置が具備する各手段は、例えばマイクロプロセッサやメモリ、ハードディスクなどのハードウエアと、これらのハードウエア上で動作するオペレーティングシステム等の基本ソフトウエアやアプリケーションプログラムなどとによって構成することが可能である。
【発明の効果】
【0022】
本発明によれば、自然言語を他の自然言語に翻訳する機械翻訳プログラムおよび機械翻訳装置において、使用者が適切な修正訳を得るための負担を大きく減ずることができる。
【発明を実施するための最良の形態】
【0023】
上記一態様に係るプログラムの実施態様として、前記表示制御手段は、前記指定された語句が前記訳語において特定の訳である場合には、機能しない、としてもよい。対比の必要のない場合の表示をあらかじめ取り止めるための態様である。
【0024】
また、上記別の態様に係るプログラムの実施態様として、前記表示制御手段は、前記指定された語句が前記第1の言語への対応づけで特定の語句である場合には、機能しない、としてもよい。これも対比の必要のない場合の表示をあらかじめ取り止めるための態様である。
【0025】
以上を踏まえ、以下では本発明の実施形態を図面を参照しながら説明する。なお、前提となる参考例を適宜織り交ぜて説明する。
(第1の参考例)
図1は、参考例に係る機械翻訳装置の構成を示すブロック図である。この機械翻訳装置は機械翻訳プログラムを備え、これにより、同図に示すように、入力部11、システム制御部12、編集部13、翻訳部14、翻訳辞書部15、表示部16、文書記憶部17の各部が機能する。機械翻訳プログラムと機械翻訳装置の関係については以下の各形態でも同様である。以下では、他の形態も含めて、例として第1言語を英語、第2言語を日本語として説明を行う。
【0026】
入力部11は、インターネットなどの通信手段やキーボード等を通じて、翻訳すべき第1言語の文や文章を入力するものである。また、機械翻訳装置としての動作を指示するためのコマンドなどを入力するものである。入力された文やコマンドなどはシステム制御部12に送られる。
【0027】
システム制御部12は、この機械翻訳装置全体を統括的に制御するものである。例えば、入力部11から得た文や文章を、表示部16に表示すべく表示部16に送る、編集すべく編集部13に送る、翻訳すべく翻訳部14に送る、記憶すべく文書記憶部17に送るなどの動作を行う。また、入力部11からのコマンドに従い編集部13、翻訳部14、翻訳辞書部15、文書記憶部17、表示部16の動作を制御する。例えば、翻訳辞書部15のデータを取り出して各部に送ったり、コマンドに従い入力された文章から翻訳する文を選択したり翻訳辞書部15が有する辞書のうちから働かせるものを選択したりする。
【0028】
編集部13は、システム制御部12で選択された第1言語の文に対する編集の他、表示部16に表示された対象の編集、すなわち入力部11から入力されたコマンドなどの指示に応じて表示上でのカーソルの移動、翻訳部14における翻訳処理によって得られた訳文の、システム制御部12を介する表示部16での表示等の制御を行うものである。
【0029】
翻訳部14は、システム制御部12で選択された第1言語による文に対して、システム制御部12で選択された翻訳辞書部15の辞書を参照しながら翻訳処理を行うものである。翻訳辞書部15は、翻訳部14が翻訳処理を行う際に使用する各種辞書を格納・保持するものである。翻訳辞書部15が有する各種辞書の内容については後述する。
【0030】
表示部16は、システム制御部12の制御の下、入力部11から入力された第1言語の文章(原文)や、翻訳部14により訳出された第2言語の文章(訳文)等を表示するものである。文書記憶部17は、システム制御部12の制御の下、第1言語の文章と第2言語の文章とを独立して記憶・保持するとともに、第1言語とその翻訳結果としての第2言語のデータを所定に対応付けて記憶・保持するものである。
【0031】
翻訳辞書部15は、図示するように、活用変化辞書15a、解析文法辞書15b、単語・熟語辞書15c、変換文法辞書15d、生成文法辞書15e、形態素生成文法辞書15fを有する。活用変化辞書15aは、第1言語について、語尾等に変化のある単語・熟語をその原形に変換するための辞書である。解析文法辞書15bは、第1言語を解析するための文法が記憶された辞書である。単語・熟語辞書15cは、第1言語の単語・熟語に対応する第2言語の訳語がその品詞情報とともに記憶された辞書である。変換文法辞書15dは、第1言語と第2言語との構造変換規則が記憶された辞書である。生成文法辞書15eは、第2言語の文の構造を決定するための辞書である。形態素生成文法辞書15fは、第2言語の語尾等の語形を変化させて翻訳文を完成させるための辞書である。
【0032】
次に、図2を参照して、図1に示した機械翻訳装置の動作を説明する。図2は、図1に示した機械翻訳装置の動作フローを示す流れ図である。まず、原文(翻訳すべき第1言語の文章)を入力部11を用いてこの機械翻訳装置に取り込む(ステップ21)。取り込まれた文章は、システム制御部12により表示部16に表示されかつ文章記憶部17に記憶・保持される。
【0033】
表示部16に第1言語の文章が表示されたら、次に、その文章のうち翻訳すべき文にカーソルを位置させる(ステップ22)。最初は通常第1文である。次に、利用者は入力部11からイベントの実行を指示するコマンドを入力する(ステップ23)。入力されたコマンドが「終了」、「翻訳」でない場合には、そのコマンドに応じた処理を実行し(ステップ29)、再びコマンドの入力がされ得る状態、ステップ23に戻る。入力されたコマンドが「終了」の場合は(ステップ24のY)、後述する「対訳リスト」作成の動作に移行する(ステップ30からステップ33)。入力されたコマンドが「翻訳」の場合は(ステップ25のY)、翻訳処理(ステップ26)に移行する。
【0034】
翻訳対象を指示するカーソルの移動は、第1文から順にその文の翻訳が終わったら次の文に移動として自動的に移動する。これ以外に、カーソルの移動をコマンドによって指定することもできる。この場合には、ステップ29の処理を実行することでカーソルが移動する。内部的には、編集部13がコマンドに応じてシステム制御部12を介して表示部16上のカーソルを移動させる。この参考例では、カーソルが位置する一文(例えばカーソルをその先頭に位置させる)が翻訳のコマンドが指示された際の翻訳対象である。このようなカーソルの移動は、原文を翻訳しようとする際に、現在のカーソル位置の文ではなく、その前後の文を翻訳したいときなどに対応するためである。
【0035】
翻訳処理(ステップ26)はシステム制御部12が統括して行う。この翻訳処理自体は公知の処理を適用することができる。ただし、翻訳処理とともに、第1言語の文の語句と翻訳された第2言語の文の語句との対応関係を導出し、この対応関係をも文書記憶部17に記憶・保存しておく。これらの処理が終わると翻訳処理結果が表示部16に表示される(ステップ27)。また、翻訳対象を指定するカーソルを次の文に移動させる(ステップ28)。そして再びコマンドの入力がされ得る状態、ステップ23に戻る。以下同様の流れにより翻訳処理を進めることができる。
【0036】
具体例を図3、図4を参照して説明する。図3は、図1に示した機械翻訳装置上における原文および訳文の表示例を示す図である。図4は、図3に示す原文および訳文における、原文の語句と訳文の語句との対応を示す図である。図3(a)に示す原文(第1言語)の表示において、その第1文が翻訳処理された状態では、翻訳辞書部15の利用により、”For | the | stability | of | light-weight | composite blades | , | the | low | centrifugal force | requires | a | large | diameter | bearing | .”のように句読点を除いて14の要素に分割される。ここで複数の単語からなる”composite blades”と”centrifugal force”がそれぞれ1単位として扱われているのは、これら(ただし原形)が、複合語として翻訳辞書の見出し語に登録されているためである。
【0037】
次に、ここで分割された14の要素のうち、前置詞、冠詞などの機能語ではない内容語に関して、どのような辞書の見出し語が適用され、どのような訳語が当てられたかをその品詞情報と併せて、それぞれを対にした形のデータとして生成する。このとき、さらにこの内容語に対して、複合語(合成語)か否かの情報を付与しておく。これは英語ではスペースやハイフンの存在によって複合語であると判断することができる。
【0038】
上記例では”for, the, of, a”の4語が機能語、”stability, light-weight, composite blades, low, centrifugal force, requires, large, diameter, bearing”の8語が内容語となる。このうち、”light-weight, composite blades, centrifugal force”が複合語であり、さらに、これらの内容語のうち、”composite blades”と”requires”の2語は参照した見出し語が異なる(原形が存在する)ことも記憶しておく。すなわち、前者は名詞の複数形であるので”composite blade”、後者は動詞の3人称単数現在であるので原形の”require”をそれぞれ参照している。
【0039】
なお、ここでいう複合語は一般に複合語と理解されているものよりも広い意味で用いており、見出し語が複数の単語からなるということを指す。したがって、”full of beans”(元気一杯の)のような慣用句・イディオムも含めている。なぜなら、一般に慣用句・固有名詞は慣用句・イディオムとしての語義で解釈してよいが、場合によっては文字通りの意味で解釈しなければならないこともあるためである。先の例でいえば、文書内に”bean”単独でも生起すればその可能性は高い。また、その特有の意味と文字通りの意味と両方が必要となることもある。これは、ことば遊びの一種(pun)であり、文学などでみられる現象である。
【0040】
以上のような処理により、図4(a)に示すような対応づけのリストを生成することができる。このリストは、文書記憶部17に文番号とともに送られ記憶・保存される。図3(a)に示す最初の文について以上の処理が終了すると、図3(b)の第1文のような当該文の翻訳結果が表示部16に表示される(ステップ27)。次に、カーソルが次の文に移動され(ステップ28)、この文に対する翻訳処理が行なわれる。
【0041】
ここで以下同様に、構文解析により、”Thus | , | strict | quality control | is maintained | on | the | bearing geometry | .”のように分解される。このうち内容語は”thus, strict, quality control, is maintained, bearing geometry”の5語である。さらに、”is maintained”は動詞の受動態であるため、原形に直し、”maintain”という一単語の見出し語から訳語を得ている。したがって、”quality control”と”bearing geometry”の2語のみが複合語であると判断される。
【0042】
このようにして得られた対応づけのリストは例えば図4(b)に示すようになる。このリストは、図4(a)のリストと同様に文書記憶部17に記憶・保存される。図3(a)中に示す第2文の翻訳が終了すると、例えば図3(b)中に示す第2文のような当該文の翻訳結果が表示される。そして、この具体例の場合は、これ以降の文がないのでステップ24で終了のコマンドが入力される。
【0043】
以上の処理が終了すると、この翻訳装置はユーザに対し「対訳リスト」作成の要否を尋ねる(なお尋ねることなく自動的に次の処理に移行してもよい)。「対訳リスト」は以下のようにして作成される。再び図2をも参照して説明する。まず、翻訳の過程で文書記憶部17に蓄積しておいた対応づけのリストの中から、複合語(ただし原形)を取り出し、単語単位に分割する(ステップ30)。
【0044】
図3、図4に示した例では、”light-weight, composite blade, centrifugal force, quality control, bearing geometry”の5語が対象になり、”light-weight”は”light”と”weight”の2語、”composite blade”は”composite”と”blade”の2語、”centrifugal force”は”centrifugal”と”force”の2語、”quality control”は”quality”と”control”の2語、”bearing geometry”は”bearing”と”geometry”の2語に分割される。これにより、”light, weight, composite, blade, centrifugal, force, quality, control, bearing, geometry”の計10の単語を得る。
【0045】
次に複合語以外のもの、すなわち一単語よりなる語句(ただし原型)を取り出す(ステップ31)。ここでは”stability, low, require, large, diameter, bearing, thus, strict, maintain”の9語が対象となる。次いで、このステップ31で得た個々の単語がステップ30で取り出した集合の中に存在するか否か、すなわち少なくとも部分的に一致する語句があるか否かを既知のいずれかのパターンマッチング技術を使って検索・抽出する(ステップ32)。
【0046】
図3、図4に示す例では、”bearing”が双方に含まれている。したがって、”bearing”が抽出され、第1文の”bearing”と”bearing”を構成要素に持った第2文の”bearing feature”とが例えば図5に示すような「対訳リスト」として作成・表示される(ステップ33)。これによりユーザは”bearing”という単語が、同一文書内で「軸受」と「ベアリング」と二通りに訳されていることが分かる。この表示を見て、ユーザが訳語の調整が必要であるかを判断することができる。なお、図5に示した表示以外に、それが生起した文を同時に表示させるようにしてもよい。訳語の調整は文脈を見ながらの方がやりやすいことが多いためである。
【0047】
上記の例では、比較の対は第1言語の一単語の集合と複合語の集合とであったが、一単語同士、複合語同士の比較とすることも意味がある。まず、一単語の集合内の比較について図6に示す例文を使って説明する。図6は、図1に示した機械翻訳装置上で用意された原文および訳文の表示の別の例を示す図である。背景説明として、機械翻訳では同じ一単語見出しが引かれても、その見出し語に対し、共起した他の単語を参照して訳語を決定する種々の翻訳規則をもっているので、同一訳語が付与されないことがある。
【0048】
図6(a)に示す原文は、”Gears | are mounted | on | a | shaft | . | This | machine | contains | four | connecting rods | arranged | at | right angles | , | driven | by | eccentric | shafts | and | large | gears | .”のように分割されて、図7に示すような対応づけのリストが文書記憶部17に記憶・保存されている。
【0049】
そこで、ステップ30では複合語(ただし原形)を単語単位に分割し、ステップ31では一単語からなる語句(ただし原形)を取り出した後、ステップ32では一単語の集合(“gear, shaft, machine, contain, arrange, drive, large, gear”)の中の頻度を調べ、頻度が2以上のものを抽出する。この例では”gear”がそれに相当する。そして、図7に示す対応づけのリストを参照し、これらに異なる訳語が振られている場合に表示対象とする(ステップ33)。図6(a)中の”gear”は、図7、図6(b)にあるように「歯車」「ギア」と2通りの訳語が使われているため表示対象となる。この場合の「対訳リスト」の表示は、例えば図8に示すようになる。図8は、図7に示す対応づけから得られた対訳リスト(一単語同士の比較による)の表示例を示す図である。
【0050】
次に複合語同士の比較について説明する。具体例として、同一文書内に”capacity increase”と”standard capacity”という単語列が含まれ、これらは辞書の見出し語と一致し、それぞれ、「能力アップ」「標準操業度」という訳語が割り当てられた場合を例に説明する。この場合、ステップ30において一単語に分割すると、”capacity, increase, standard, capacity”の4語を得る。次に、このうち一単語の頻度が2以上のものを取り出す。ここでは”capacity”がこれに該当する。そこでこのcapacityという単語を含む複合語、すなわち”capacity increase”と”standard capacity”が表示対象となる。
【0051】
さらに、この2文以降にも文が後続し、”capacity increase”が再び出現したとする。そこでの訳語が同じなら、例えば図9(a)に示すように、違う場合は例えば図9(b)に示すように「対訳リスト」を表示する。図9は、図7に示す対応づけのリストから得られた対訳リスト(複合語同士の比較による)の表示例を示す図である。図9(b)では、見出し語”capacity increase”の末尾に数字の2が挙げられており、これは「能力アップ」「能力増強」という2つの訳語が存在したことを示している。
【0052】
図8、図9に示すような「対訳リスト」によっても、ユーザは、訳語の調整が必要であるかを容易に判断することができる。
【0053】
(第2の参考例)
次に、第2の参考例について説明する。第1の参考例でもすでに説明したが、抽出対象を原形の単語の完全一致とすることにより、抽出対象を活用形にまで拡大させることができる。このような活用語を含む抽出の例を第2の参考例のひとつとしてまず補足・説明する。この処理のためには、翻訳辞書部15の中のうち、語尾等に変化のある単語・熟語をその原形に変換するための活用変化辞書15aを特に必要とする。
【0054】
一例として、同一文書内に”communications service”と”communication speed”という単語列が含まれ、これらは辞書の見出し語と一致し、それぞれ、「コミュニケーションサービス」「通信速度」という訳語が対応づけられているとする。このとき、ステップ30で単語単位に分割すると、”communications, service, communication, speed”の4語が得られる。さらにこれらのうち、原形となっていないものは活用変化辞書15aを参照して原形に直す。本例では”communications”が名詞複数形になっているため、単数形の”communication”に変換される。
【0055】
そこで、検索対象は”communication, service, communication, speed”の4語となるので、このうち頻度が2以上のものを取り出し語句の抽出を行う。ここでは”communication”が該当する。よって、”communication”を用いた複合語、すなわち”communications service”と”communication speed”が表示対象となる。図10はその表示例である。図10は、活用前の語句の比較によって得られた「対訳リスト」の表示例を示す図である。なお、活用語には、名詞の複数・単数の他にも、名詞の所有形(例: Avogadro numberとAvogadro’s number)、現在分詞、過去分詞などの動詞の活用形が挙げられる。
【0056】
次に、活用語の場合と同様の考え方による派生語を対象に含めて抽出を行うようにした参考例を説明する。この処理のためには、新たに第1言語の単語の語源(etymology, derivation)を記した語源辞書15g(不図示)が必要となる。
【0057】
例えば、同一文書内に”managerial technique”と”management approach”という単語列が含まれ、これらは辞書の見出し語と一致し、それぞれ、「管理技術」「マネージメント・アプローチ」という訳語が対応づけられているとする。このとき、ステップ30で単語単位に分割すると、”managerial, technique, management, approach”の4語が得られる。次に、語源辞書15gを用いて各語句の語源を調べると、”managerial”は動詞”manage”から派生した名詞”manager”を形容詞化したものであること、”management”は動詞”manage”を名詞化したものであるといった情報を得ることができる。こうして、”managerial”と”management”は同じ語源を持つ語であることが分かる。そこで、”manage”を仲介として”managerial technique”と”management approach”とは、「対訳リスト」に挙げるべき表示対象となる。
【0058】
もう1例として一単語内での同様の処理が挙げられる。例えば、同一文書内に”establish, reestablish”という2語が出現し、両者とも辞書の見出し語として挙がっており、それぞれ「確立する」「再建する」という訳語が対応づけられているとする。ここで、語源辞書15gを用いると、”reestablish”は動詞”establish”に”re”という接頭辞が付与されて派生した語であることが示される。これにより”establish”は”reestablish”の派生元の語であることが分かるので、これらは「対訳リスト」に挙げるべき表示対象となる。
【0059】
なお、派生のタイプはここで説明以外にも多様のものがある。接尾辞ひとつをとっても、動詞の派生語で特に造語力が高い、形容詞化の接尾辞-able, -ible (受動の意味で他動詞に付け「…できる」「…するに適する」「…するに値する」「…しやすい」の意味となるもの)、名詞化する接尾辞-er(「…する人」「…するもの」「…するためのもの」といった意味)など数多い。
【0060】
また、派生語として異表記も含めるようにすることができる。これは具体的には、英綴対米綴(例:colorとcolour; organizeとorganise)、大文字対小文字(Babbitt metalとbabbitt metal、social security numberとSocial Security number)、「語頭全部が小文字」対「語頭全部が大文字」、「語頭全部が小文字」対「語頭の一部の語句が大文字」などといったものがある。このように考慮することで本参考例は、対象とする活用・派生の種類を限定されずに適用可能である。
【0061】
(第3の参考例)
次に、第3の参考例について説明する。第3の参考例に係る機械翻訳装置の構成は、図1に示す参考例の構成と一点を除いて同一である。この違いは、図11に示すように、対訳リスト作成をすべきかどうかを制御する対訳リスト作成可否制御部(「編集部+対訳リスト作成可否制御部」13Aの一部として)をもっている点である。図11は、第3の参考例に係る機械翻訳装置の構成を示すブロック図である。第3の参考例では、第1の参考例の通りに翻訳を行い、この対訳リスト作成可否制御部13Aが「可」とした文字列に対して、第1の参考例で説明した「対訳リスト」作成を行う。
【0062】
この実現には、大枠で2つのものが考えられる。一つはこの対訳リスト作成可否の制御を機械翻訳装置が行う判定の結果に基づいて行うことであり、もう一つはこの制御を外部からの指示によって行うものである。以下、前者を第3の参考例、後者を第1の実施形態(後述)として説明する。
【0063】
第3の参考例は、第2言語の活用変化辞書および解析文法辞書をも使って、第1言語の見出し語とその訳語がどのように対応しているかを判断して、一原語に対する訳語のタイプを解析し、これに基づき「対訳リスト」を作成するか否かを判断していることを特徴とする。
【0064】
この参考例に係る機械翻訳装置の動作について図12ないし図14をも参照して説明する。図12は、図11に示した機械翻訳装置の動作フローを示す流れ図、図13は、図12中に示したステップ300の詳細なフローを示す流れ図、図14は、図12中に示したステップ350の詳細なフロー示す流れ図である。図12においてすでに図2で説明したステップには同一符号を付してあり、そのステップの説明は重複するので省略する。
【0065】
動作の仕方は言語対によって異なるが、ここでは名詞(句)の英日翻訳において一単語(原語)とその複合語とが出現する場合を例にとって説明を行う。具体例として、一単語の”cylinder”に着目して、見出し語”cylinder rod”と訳語「シリンダロッド」の対、見出し語”cylinder“と訳語「シリンダー」の対、見出し語”brass cylinder assembly”と訳語「黄銅円筒組立品」の対、見出し語”graduated cylinder”と訳語「目盛り付きの円筒状の液体容積測定器」の対、見出し語”gas cylinder”と訳語「ボンベ」の対が同一文書内に出現する場合を考える。
【0066】
ステップ300における解析においては、まず、これらの” ”内の英語語句の訳語が単語・熟語辞書15cにより得られている状態において、原語の英語綴りからもっともらしいカタカナの音訳を得る(ステップ301)。なお、原語とカタカナ文字列の照合技術はすでに確立されているのでそれを用いる。この例では、”cylinder”から「シリンダー」または「シリンダ」、”rod”から「ロッド」、”brass”から「ブラス」、”assembly”から「アセンブリー」または「アセンブリ」、”graduated”から「グラデュエーテッド」、”gas”から「ガス」がそれぞれ導出される。
【0067】
次に訳語とカタカナ置換後の文字列を照合し、一致した場合は(ステップ302のY)、音訳であると判断する。この例では”cylinder rod”と「シリンダロッド」の対がこれに相当し、後述するように構成素同士も”cylinder”と「シリンダ」、”rod”と「ロッド」のように一対一対応している。一方、一致がみられなかった場合は(ステップ302のN)、まず、活用変化辞書15aと、第1言語を解析するための文法が記憶された解析文法辞書15bとを用いて、当該の語句が分割できるかどうかを判定する(ステップ304)。
【0068】
分割が終了すると、それぞれの語句に関して単語・熟語辞書15cを検索し、可能な訳語を調べる(ステップ306)。次に、分割前の語句の訳語を目的言語(日本語)の活用変化辞書(不図示)と解析文法辞書(不図示)を用いて解析し、名詞、動詞といった内容語を抽出する(ステップ307)。これらの内容語と先に抽出された可能な訳語との比較対を作り、その一致度を見る(ステップ308)。
【0069】
過不足なく一致すれば、一対一対応訳語であると判定する(ステップ309)。上記では「黄銅」(“brass”)「円筒」(“cylinder”)「組立品」(“assembly”)と分割できる「黄銅円筒組立品」と”brass cylinder assembly”の対がこの分類に入る。部分的に一致する場合は、部分対応訳語と判定し(ステップ310)、その一致箇所を記憶・保存しておく。ここでは”graduated cylinder”の訳がこれに相当する。”graduated cylinder”を分解すると、”graduated”の訳語として、「目盛りを付けた、階級をつけた、累進の」といった訳語があることより「目盛り付きの」と一致し、cylinderは「円筒」と一致する一方、「液体容積測定器」のように一致しない部分もあるためである。
【0070】
全く一致しない場合は、非対応訳語と判定し(ステップ311)、一致度0であることを記憶・保存しておく。これは”gas cylinder”とそれ以上分割できない「ボンベ」のように典型的には原語の形態素(単語)の数が訳語の形態素(単語)の数を上回るケースである。
【0071】
なお、ステップ304で行う分割が成功しなかった場合は、訳語のタイプは判定不能とする(ステップ305)。この場合は後述するように「対訳リスト」の表示対象とする。
【0072】
以上のように訳語のタイプ分けが完了すると、そのタイプ分けの結果を訳語に付与する(ステップ312)。なお、以上のタイプ分けの処理(ステップ300)は、すでに単語・熟語辞書15cに訳語の種類(例えば音訳、説明調、一対一対応訳といった分類が考えられる)で与えられている場合は省略できる。
【0073】
以上の処理がされた状態において、ステップ24において「終了」が入力されると、この翻訳装置はユーザに対し「対訳リスト」作成の要否を尋ねたうえで(なお尋ねることなく自動的に次の処理に移行してもよい)、「対訳リスト」の作成ステップ350に進む。
【0074】
ステップ350では、図14に示すように、まず、訳語に、音訳、一対一対応訳語、部分対応訳語があるかどうかを判断する(ステップ351)。これらタイプの訳語がある場合には、「複合語について単語単位に分割」(ステップ352)、「一単語からなる語句を取り出す」(ステップ353)の各処理を行う。これらの処理は、図2におけるステップ30、ステップ31とそれぞれ同じである。
【0075】
次に、複合語の各語句、または一単語からなる語句を比較し、少なくとも部分的に一致する語句を「注目語」として抽出する(ステップ355)。具体例では、”cylinder”が抽出される。これにより、”cylinder rod”からは「シリンダ」、”cylinder”からは「シリンダー」、”brass cylinder assembly”と”graduated cylinder”からは「円筒」が内部的に得られる。つまり、同じ”cylinder”に対し、「シリンダ」「シリンダー」「円筒」の3種の訳が存在することが分かる。もし訳がひとつしか存在しなければ(ステップ355のY)、この参考例では「対訳リスト」の作成をせず(ステップ357)、その対象語がないことをユーザに通知する。
【0076】
一方、上記のように、複数の訳語が存在したり(ステップ355のN)、判定不能語等が存在した場合は(ステップ351のNからステップ358のY)、この参考例では「対訳リスト」の作成がされる。なお、ステップ358で判定不能語および非対応訳語がない場合は(ステップ358のN)、「対訳リスト」は作成されない(ステップ360)。
【0077】
具体例として作成される「対訳リスト」は図15に示すようになる。図15は、図11に示した機械翻訳装置で得られる対訳リストの表示例を示す図である。この表示例では、図示するように、対応関係が抽出できたものについては下線を付したりなど見やすくするなどの工夫が可能である。さらに、仮に”cylinder”を含む複合語があり、”cylinder”の訳相当語がその訳語に存在し、かつそれが単独の場合の訳である「シリンダー」と同一の場合、「対訳リスト」表示の対象から外すようにしてもよい。また、判定不能語が存在した場合も(ステップ358のY)、この参考例では「対訳リスト」作成の対象としている(ステップ359)。
【0078】
ユーザは、図15に示すような「対訳リスト」を見ながら、訳文に対して必要な修正を容易に行うことができる。例えば、同一文内、または近傍に”cylinder”単独と”brass cylinder assembly”が現れた場合、この”cylinder”は同一物を指す可能性がかなり高いため、前者の訳語は「シリンダー」でなく、「円筒」に変更するなど、訳語をそろえるほうが理解しやすい文になることが分かる。
【0079】
本具体例のように、”brass cylinder assembly”に対し、同一文書内で”cylinder”がどのように訳出されているかを見ることは、辞書の見出しに挙がっている「黄銅円筒組立品」とは違う新たな訳をユーザが考える上で役立つ。さらに、「シリンダー」と「シリンダ」のように異表記の存在も容易に検出でき、これらは特別の理由がない限り、統一するのが望ましいであろう。日本語では長音記号以外にも中点の有無、カタカナ語表記によるばらつきがある。英語でも、同様に、複合語に関して、一語にするか(例:”broadband”)、二語にするか(ハイフンでつなぐか(例:broad-band)、スペースのままとするか(例:broad band)で揺れがある。市販辞書、機械翻訳辞書いずれも同一辞書内で表記が必ずしも統一されていないのが現状である。そこで、辞書適用後の文書内における表記の調整は必然となっている。
【0080】
さらに、本具体例の文書内で一単語cylinderの見出し語の訳語が付与された中には、前後の要素を加えて、複合語の見出しとして辞書に新たに加えるべきものも含まれている可能性がある。このための辞書登録の作業を容易にするため、次のような機能を提供することも可能である。このためにはまず、「用いられた文」の項は、図15(b)に示すように、KWIC(キーワード・イン・コンテキスト)表示にする。また、翻訳処理過程で得られた句構造から、句の範囲(ここでは名詞句)を、図15(b)に下線で図示するように、明示する。この部分の名詞句の訳はデフォルト訳であり、望ましい訳とは限らないが、参考として現状訳を近傍に表示する。この結果を参照しながらユーザは必要に応じて辞書登録をスムーズに行うことができる。
【0081】
(第1の実施形態)
次に、本発明の第1の実施形態について図16を参照して説明する。図16は、本発明の一実施形態に係る機械翻訳装置の構成を示すブロック図である。同図に示すように、この機械翻訳装置は、図1に示した機械翻訳装置の構成要素の他に、前編集部(「編集部+前編集部」13Bの一部として)が追加されている。この前編集部は、翻訳結果を所望の形に近づけるためにユーザが翻訳の前に文書に対し行う編集処理のためのものである。例えば、その一つには、長文を分割したり、受身文を能動文にしたりなどの書き換えや訳文においても原語のまま表示したい語句の指定がある。さらに、この実施形態では、この前編集部が、「対訳リスト」を作成すべき語句の指定にも用いられる。その態様を以下説明する。
【0082】
まず、翻訳の前準備としてユーザは前編集部を通じて、入力部11を用い「対訳リスト」を付与すべき語句を指定する。ここでは具体例として第3の参考例の説明で使用した”cylinder”という単語に対し、そのような指定を行ったとする。指定を行うには、例えば図17に示すような対訳リスト作成対象指定のための画面を用い、対訳リストの対象や書式を指示するよう構成することができる。図17は、図16中に示した「編集部+前編集部」のはたらきによって表示部に表示される、ユーザに任意の語句の指定を促すための画面の例を示す図である。これにより指示がされると、機械翻訳装置は、それに基づいた「対訳リスト」の作成処理を実行させる。
【0083】
図17に示す選択肢としては、1.として、複合語のみとするか((ア)−1)、単独のみとするか((ア)−2)、いずれも対象に含めるか((ア)−3)の3種のうちから指定できる。具体例では、((ア)−1)を選択すれば”cylinder”単独は対象外になり、((ア)−2)は逆に”cylinder”単独のみが対象となり、((ア)−3)は双方が対象となる。
【0084】
また、2.として、派生語・活用語を含めるか否かでは含めるとした場合、”cylinder”以外に”cylindrical”(形容詞), “cylindrically”(副詞), “cylindricality”(名詞), “cylinder-like”(形容詞)も検索され、加えて、”cylinder”は名詞から派生した動詞もあるため、”cylindering”や”cylindered”も検索対象にできる。なお、一部の派生語、活用語の検索のみを希望する場合は、その品詞の指定または語そのものの指定により、検索対象を限定する枠組みも設けている。これは全ての派生語を扱うと出力件数が非常に多くなる場合などに有用である。
【0085】
以上は原語側での限定であるが、3.として、訳語側での制御もこの実施形態では可能である。ここで訳語を指定すれば、その語が対応する訳語となっているものを表示対象から外すことができる。例えば、”equipment”が検索語である場合、訳語が例えば「装置」であるものは除くといったように指定できる。すると、文書内に”semiconductor processing equipment”「半導体処理装置」、”electronic equipment”「電子装置」、”airborne equipment”「航空機搭載機器」があった場合、前者2つは除外される。これは、特許文書における「装置」など、特定の語が繰り返し出現することがあらかじめ分かっている文書に対して適用すると有効である。
【0086】
また、4.として、ユーザが要求する関連情報を選択できるようにしている。例えば、原語、訳語の品詞、訳語のタイプ(音訳、一対一対応訳語、部分対応訳語、説明調、その他)、生起した文といった項目が挙げられる。
【0087】
以上の説明は、原文を参照して、ユーザが「対訳リスト」の作成を希望するか否かを指定しているが、訳文を参照しながら「対訳リスト」希望か否かを入力できるようにしてもよい。換言すると、上記の例は、翻訳者が「対訳リスト」の必要性を判断するケースだが、この例は翻訳文書の読者が「対訳リスト」の必要性を判断するケースという見方もできる。このような場合動作について、次に説明する。
【0088】
このような場合は、上記実施形態の「前編集部」が機能的に「後編集部」となる。まず、翻訳終了後、ユーザは後編集部を通じて、入力部11を用い「対訳リスト」を付与すべき語句を指定する。例えばここでは原語”heat”に対応する「放熱」を指定したとする。このような指定も、図17に示すような対訳リスト作成形式指定のための画面を利用することができる。ただし、図17における「単独、複合語」、「派生語、活用語」はいずれも訳語側のそれを指し、「表示対象からはずす訳語」は「表示対象からはずす原語」となる。
【0089】
この例で例えば、「単独、複合語双方」、「派生語、活用語」を限定せずに対象とし、原語の制限も設けない場合、「放熱」以外にその複合語である「放熱回路」「放熱源」「放熱特性」に加え、活用語、関連語である「放熱する」「放熱可能」も検索対象とすることができる(ただし、これらが文書内に使われていることを前提とする。)。処理終了後には、例えば図18のような「対訳リスト」が作成・表示される。このようにすることで、訳語をキーにソートすることにより、逆方向(ここでは日英)の辞書登録作業をも軽減することができる。
【0090】
なお、以上述べた実施形態は、次のように種々変更して実現することも可能である。例えば、上記実施形態は、「対訳リスト」作成に必要な処理の一部を本文の翻訳と並列して行うようにしているが、その段階では「対訳リスト」作成に必要な処理は全くせずに機械翻訳を一通り行ってから、「対訳リスト」作成の処理に入るようにすることも可能である。
【0091】
また、「対訳リスト」作成の指定を、翻訳の前あるいは後に一括して行うようにしているが、対話翻訳として、語句ごとに対訳リスト希望の旨を指示するようにしてもよい。また、上記実施形態は訳文として機械翻訳の出力を用いているが、人手で翻訳したものを電子化したものを使ってもよい。ただし、この場合大きな相違点がある。すなわち、機械翻訳の場合、単独語と複合語の区別があるが、後者にはない。同一文内の用語はもちろんのこと、文単位でも必ずしも1対1対応しているとは限らない。
【0092】
そこで、この場合は、機械処理にて対応関係がとれた表現について、上記実施形態のような処理を行う。なお、対訳文書の対応関係自動抽出の方法は、文献:「高橋大和、白井諭、大山芳史「日英新聞記事の対応コーパス自動生成」言語処理学会第3回年次大会、pp.127−130, 1997」、文献:「松本賢司、柏岡秀紀、田中英輝「分野固有の情報を利用した日英対訳記事コーパスの構築」情報処理学会第63回全国大会、vol. 2, pp. 251−252, 2001」、または特開2004−102481号公報を始めとして各種考案されているので、それらの技術を利用することができる。
【0093】
対応関係がたとえ部分的にしか得られないとしても、本実施形態の人手翻訳への適用は、機械翻訳では起こりにくいが人手翻訳では起こりやすい現象を検出するのに役立つ。すなわち、人手翻訳の場合、本来は同じように訳すべき原語表現に対して、不注意、記憶違いなどにより、場所によって違った訳語をあててしまうことがある。本実施形態によれば、そうした可能性のある箇所を網羅的に検出できる。なお、以上の説明は、英日翻訳を例に説明してきたが、英日のみならず日英にも応用することができる。
【0094】
以上説明のように、本発明の実施形態によれば、第1言語内で関連のある語とその訳語の異なる組み合わせを抽出、表示し、この表示結果を参照しながら、訳文の修正を行ったり、また、その抽出結果をもとに翻訳辞書(対訳辞書)に対し修正や追加を行ったりすることが容易になる。
【0095】
より具体的には、主に4つの効果が期待できる。第1に、指示対象物が不明確であった訳出表現を洗い出し、効率的な修正が可能となる。すなわち同一物を指すのに違った訳語が付与されているという問題である。訳語同士が第2言語では同義語でない場合、これは特に深刻な問題である。第2に、現状の機械辞書内における表現の統一や訳語候補の追加により、辞書の質を向上させることができる。
【0096】
第3に、辞書編纂専門家ではないユーザによって作成されたユーザ辞書の弊害を緩和できる。この弊害とはある限られた文のみを見て、本来は見出し語に立てるべきでない語を辞書の見出しとしてしまい、その文字列と訳が必要以上に優先されてしまうというものである。第4に、検索対象に派生語も含めているため、”radiation heat, radiative heat, radiant heat”のように意味的には近いが、従来は別扱いとされがちであった表現が関連づけられるようになる。
【図面の簡単な説明】
【0097】
【図1】参考例に係る機械翻訳装置の構成を示すブロック図。
【図2】図1に示した機械翻訳装置の動作フローを示す流れ図。
【図3】図1に示した機械翻訳装置上で用意された原文および訳文の表示例を示す図。
【図4】図3に示す原文および訳文における、原文の語句と訳文の語句との対応を示す図。
【図5】図4に示す対応づけから得られた対訳リストの表示例を示す図。
【図6】図1に示した機械翻訳装置上で用意された原文および訳文の表示の別の例を示す図。
【図7】図6に示す原文および訳文における、原文の語句と訳文の語句との対応を示す図。
【図8】図7に示す対応から得られた対訳リスト(一単語同士の比較による)の表示例を示す図。
【図9】図7に示す対応から得られた対訳リスト(複合語同士の比較による)の表示例を示す図。
【図10】活用前の語句の比較によって得られた対訳リストの表示例を示す図。
【図11】第3の参考例に係る機械翻訳装置の構成を示すブロック図。
【図12】図11に示した機械翻訳装置の動作フローを示す流れ図。
【図13】図12中に示したステップ300の詳細なフローを示す流れ図。
【図14】図12中に示したステップ350の詳細なフロー示す流れ図。
【図15】図11に示した機械翻訳装置で得られる対訳リストの表示例を示す図。
【図16】本発明の一実施形態に係る機械翻訳装置の構成を示すブロック図。
【図17】図16中に示した「編集部+前編集部」のはたらきによって表示部に表示される、ユーザに任意の語句の指定を促すための画面の例を示す図。
【図18】図16に示した機械翻訳装置で得られる対訳リストの表示例を示す図。
【符号の説明】
【0098】
11…入力部、12…システム制御部、13…編集部、13A…編集部+対訳リスト作成可否制御部、13B…編集部+前編集部、14…翻訳部、15…翻訳辞書部、15a…活用変化辞書(第1言語)、15b…解析文法辞書(第1言語)、15c…単語・熟語辞書、15d…変換文法辞書、15e…生成文法辞書(第2言語)、15f…形態素生成文法辞書(第2言語)、16…表示部、17…文書記憶部。
【特許請求の範囲】
【請求項1】
翻訳すべき第1言語の文と、該第1言語の文を翻訳辞書部に保持された翻訳辞書を用いて翻訳した第2言語の文とを保存する保存手段と、
前記保存された第2言語の文における訳語それぞれと、前記保存された第1言語の文における前記訳語に相当する語句それぞれとを前記翻訳辞書を用いて対応づける対応づけ手段と、
前記保存された第1言語の文について任意の語句の指定をユーザに促す語句指定手段と、
前記指定された語句を含む、または前記翻訳辞書を用いて得た当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第1言語の語句を、当該第1言語の語句に対応づけられた前記訳語とともに表示部に表示させる表示制御手段
としてコンピュータを機能させるための機械翻訳プログラム。
【請求項2】
前記表示制御手段が、前記指定された語句が前記訳語において特定の訳である場合には、機能しないことを特徴とする請求項1記載の機械翻訳プログラム。
【請求項3】
翻訳すべき第1言語の文と、該第1言語の文を翻訳辞書部に保持された翻訳辞書を用いて翻訳した第2言語の文とを保存する保存手段と、
前記保存された第2言語の文における訳語それぞれと、前記保存された第1言語の文における前記訳語に相当する語句それぞれとを前記翻訳辞書を用いて対応づける対応づけ手段と、
前記保存された第2言語の文について任意の語句の指定をユーザに促す語句指定手段と、
前記指定された語句を含む、または前記翻訳辞書を用いて得た当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第2言語の語句を、当該第2言語の語句に対応づけられた前記第1言語の語句とともに表示部に表示させる表示制御手段
としてコンピュータを機能させるための機械翻訳プログラム。
【請求項4】
前記表示制御手段が、前記指定された語句が前記第1の言語への対応づけで特定の語句である場合には、機能しないことを特徴とする請求項3記載の機械翻訳プログラム。
【請求項5】
翻訳すべき第1言語の文と翻訳された第2言語の文とを準備する第1の手段と、
前記翻訳された第2言語の文における訳語それぞれと、前記翻訳すべき第1言語の文における前記訳語に相当する語句それぞれとを対応づける第2の手段と、
前記翻訳すべき第1言語の文について任意の語句の指定をユーザに促す第3の手段と、
前記指定された語句を含むまたは当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第1言語の語句を、当該第1言語の語句に対応づけられた前記訳語とともに表示する第4の手段と
を具備することを特徴とする機械翻訳装置。
【請求項6】
前記第4の手段が、前記指定された語句が前記訳語において特定の訳である場合には、機能しないことを特徴とする請求項5記載の機械翻訳装置。
【請求項7】
翻訳すべき第1言語の文と翻訳された第2言語の文とを準備する第1の手段と、
前記翻訳された第2言語の文における訳語それぞれと、前記翻訳すべき第1言語の文における前記訳語に相当する語句それぞれとを対応づける第2の手段と、
前記翻訳された第2言語の文について任意の語句の指定をユーザに促す第3の手段と、
前記指定された語句を含むまたは当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第2言語の語句を、当該第2言語の語句に対応づけられた前記第1言語の語句とともに表示する第4の手段と
を具備することを特徴とする機械翻訳装置。
【請求項8】
前記第4の手段が、前記指定された語句が前記第1の言語への対応づけで特定の語句である場合には、機能しないことを特徴とする請求項7記載の機械翻訳装置。
【請求項1】
翻訳すべき第1言語の文と、該第1言語の文を翻訳辞書部に保持された翻訳辞書を用いて翻訳した第2言語の文とを保存する保存手段と、
前記保存された第2言語の文における訳語それぞれと、前記保存された第1言語の文における前記訳語に相当する語句それぞれとを前記翻訳辞書を用いて対応づける対応づけ手段と、
前記保存された第1言語の文について任意の語句の指定をユーザに促す語句指定手段と、
前記指定された語句を含む、または前記翻訳辞書を用いて得た当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第1言語の語句を、当該第1言語の語句に対応づけられた前記訳語とともに表示部に表示させる表示制御手段
としてコンピュータを機能させるための機械翻訳プログラム。
【請求項2】
前記表示制御手段が、前記指定された語句が前記訳語において特定の訳である場合には、機能しないことを特徴とする請求項1記載の機械翻訳プログラム。
【請求項3】
翻訳すべき第1言語の文と、該第1言語の文を翻訳辞書部に保持された翻訳辞書を用いて翻訳した第2言語の文とを保存する保存手段と、
前記保存された第2言語の文における訳語それぞれと、前記保存された第1言語の文における前記訳語に相当する語句それぞれとを前記翻訳辞書を用いて対応づける対応づけ手段と、
前記保存された第2言語の文について任意の語句の指定をユーザに促す語句指定手段と、
前記指定された語句を含む、または前記翻訳辞書を用いて得た当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第2言語の語句を、当該第2言語の語句に対応づけられた前記第1言語の語句とともに表示部に表示させる表示制御手段
としてコンピュータを機能させるための機械翻訳プログラム。
【請求項4】
前記表示制御手段が、前記指定された語句が前記第1の言語への対応づけで特定の語句である場合には、機能しないことを特徴とする請求項3記載の機械翻訳プログラム。
【請求項5】
翻訳すべき第1言語の文と翻訳された第2言語の文とを準備する第1の手段と、
前記翻訳された第2言語の文における訳語それぞれと、前記翻訳すべき第1言語の文における前記訳語に相当する語句それぞれとを対応づける第2の手段と、
前記翻訳すべき第1言語の文について任意の語句の指定をユーザに促す第3の手段と、
前記指定された語句を含むまたは当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第1言語の語句を、当該第1言語の語句に対応づけられた前記訳語とともに表示する第4の手段と
を具備することを特徴とする機械翻訳装置。
【請求項6】
前記第4の手段が、前記指定された語句が前記訳語において特定の訳である場合には、機能しないことを特徴とする請求項5記載の機械翻訳装置。
【請求項7】
翻訳すべき第1言語の文と翻訳された第2言語の文とを準備する第1の手段と、
前記翻訳された第2言語の文における訳語それぞれと、前記翻訳すべき第1言語の文における前記訳語に相当する語句それぞれとを対応づける第2の手段と、
前記翻訳された第2言語の文について任意の語句の指定をユーザに促す第3の手段と、
前記指定された語句を含むまたは当該語句の活用形もしくは派生形の語句を含む前記対応づけによる第2言語の語句を、当該第2言語の語句に対応づけられた前記第1言語の語句とともに表示する第4の手段と
を具備することを特徴とする機械翻訳装置。
【請求項8】
前記第4の手段が、前記指定された語句が前記第1の言語への対応づけで特定の語句である場合には、機能しないことを特徴とする請求項7記載の機械翻訳装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【公開番号】特開2008−27458(P2008−27458A)
【公開日】平成20年2月7日(2008.2.7)
【国際特許分類】
【出願番号】特願2007−213438(P2007−213438)
【出願日】平成19年8月20日(2007.8.20)
【分割の表示】特願2005−60582(P2005−60582)の分割
【原出願日】平成17年3月4日(2005.3.4)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
【公開日】平成20年2月7日(2008.2.7)
【国際特許分類】
【出願日】平成19年8月20日(2007.8.20)
【分割の表示】特願2005−60582(P2005−60582)の分割
【原出願日】平成17年3月4日(2005.3.4)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
[ Back to top ]