説明

機械翻訳装置及び機械翻訳プログラム

【課題】第一言語文と翻訳非対象文とが混在する文書を翻訳する際に、翻訳非対象の文章から訳語決定に左右する情報を抽出して翻訳に利用し、適切な第二言語の訳語を得ることである。
【解決手段】第二言語文解析処理部27は、第一言語と第二言語とが混在した文書データのうち第二言語の文章データを解析して予め定めた品詞の語句を抽出し第二言語文抽出語句データベース28に抽出語句として格納する。第一言語の語句の訳語候補となる第二言語の語句が翻訳辞書部31に複数存在した場合に、訳語選択処理部35は、第二言語文抽出語句データベース28に格納された抽出語句と第二言語用機械翻訳知識データベース38の共起情報又は分野情報に基づいて第一言語の語句の訳語候補を一つの第二言語の語句に絞り込み選択する。そして、訳文生成処理部32により訳文を生成し、出力処理部34を介して表示装置に出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、翻訳対象の第一言語の文書を第二言語に翻訳する機械翻訳装置及び機械翻訳プログラムに関する。
【背景技術】
【0002】
一般に、翻訳対象の第一言語と翻訳後の第二言語とが混在した文書を翻訳する場合、翻訳対象の文書のうち訳出言語で書かれた部分は、翻訳処理を通さずにそのままの形で出力され、翻訳対象の第一言語で書かれた部分は翻訳処理を通しその訳文が出力される。
【0003】
また、翻訳対象の第一言語の文書を第二言語に翻訳する翻訳処理においては、第1言語の語句に対して複数個の訳語が存在する場合には、翻訳辞書の中で優先順位の高いものから順に訳語を選択していく。従って、普段滅多に翻訳する機会のない分野や専門性が高い分野の文書の場合には、その分野の訳語の優先順位は低くなっていることが多く、結果として正しくない訳語が選択されることが多い。これにより、原文の表す意味とはかけ離れた意味をもつ訳文が生成されてしまう。
【0004】
正しい訳語を得るために、目的言語の語句間の共起情報を収容する共起辞書を備え、原文の語句に対して複数の訳語候補がある場合にその共起辞書を参照し、当該語に共起情報として定義された共起語に訳す第一言語の語句が原文書中にあるかどうかを検索し、その頻度や出現位置、共起辞書に定義された個々の共起の評価値から当該訳語の総合的な評価値を算出し、訳語の決定に用いるようにしたものがある(例えば、特許文献1参照)。
【0005】
また、翻訳対象となる原文の内容と関連のある内容の既存の目的言語文書を関連文書格納部に予め格納しておき、原文の単語・句に対して複数の訳語・句候補が存在する場合に、これらの各訳語・句候補が関連文書格納部に格納された目的言語文書中に存在するかどうかを検索し、目的言語文書中に該当する訳語・句候補が存在する場合には、その訳語・句候補を他の訳語・句候補よりも優先的に原文の単語・句の訳語として採用するようにしたものがある(例えば、特許文献2参照)。
【0006】
所定の言語間で翻訳処理の際に得た原文情報及び訳文情報の間の対応関係を示す翻訳情報を記憶手段に記憶し、第2の言語から第1の言語に翻訳処理する際には、この処理の前に第1の言語から第2の言語に翻訳処理した際に得た翻訳情報を記憶手段から取り出して翻訳処理を行うようにしたものがある(例えば、特許文献3参照)。
【特許文献1】特許第3045832号公報
【特許文献2】特許第3034295号公報
【特許文献3】特許第2831647号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかし、特許文献1のものでは、翻訳対象とならない文章は共起情報の対象としていないので、第一言語の文と第二言語の文とが混在する文書を翻訳する際に、第一言語の文を翻訳した訳語の語句と、文書中に存在する第二言語の文の語句とが統一されないことがある。また、特許文献2や特許文献3のものにおいても、同じ翻訳対象文書に含まれる第二言語から第一言語の翻訳情報を得るわけではないので、訳語選択に役立つ情報を適切に得ることができない。
【0008】
図8は、従来例での第一言語の文と第二言語の文とが混在する文書を翻訳した一例の説明図である。図8では第一言語を英語とし、第二言語を日本語とした場合を示している。図8(a)に示すように、第一言語の文(英語の文)と第二言語の文(日本語の文)とが混在する文書であり、図8(a)に示す文書を英日翻訳すると、中央の英語部分のみ翻訳処理にかけられ、図8(b)に示すような訳文が得られる。
【0009】
ここで用いている「bank」は、訳語として、「銀行」、「土手」、「堤防」、「岸」等を持つ多義語であるが、従来の機械翻訳装置では、一般的に頻度的に高いと判断された訳語を第一訳語として定義し、翻訳時に特別な訳し分けのための情報が得られない場合には、第一訳語として定義された訳語が翻訳に使用される。そのため、翻訳辞書に「bank」の第一訳語として「銀行」が定義されていれば、原文書中から訳語を決定するための情報が得られない場合は、「bank」は「銀行」と訳される。
【0010】
ここで、図8(a)の翻訳する必要のない日本語で書かれた部分に着目すると、この場合の「bank」の訳語としては「土手」、「堤防」、「岸」などの語が適切であることがわかる。このように、従来例においては、第一言語文と第二言語文とが混在する文書を翻訳する際に、第二言語の文章から共起情報や分野情報などの訳語決定に左右する情報を抽出して翻訳に利用することは行われていないので、第一言語の語句の訳語として適切な第二言語の訳語が得られないことがあった。
【0011】
本発明の目的は、第一言語文と翻訳非対象文とが混在する文書を翻訳する際に、翻訳非対象の文章から訳語決定に左右する情報を抽出して翻訳に利用し、適切な第二言語の訳語を得ることができる機械翻訳装置及び機械翻訳プログラムを提供することである。
【課題を解決するための手段】
【0012】
本発明の機械翻訳装置は、機械翻訳プログラム及び第一言語の語句の訳語候補となる一又は複数の第二言語の語句が格納された翻訳辞書部を記憶した記憶装置と、翻訳対象の第一言語及び翻訳非対象の第二言語が混在したデータを入力する入力装置と、前記第一言語を翻訳した第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置において、前記記憶装置に形成され、第二言語の語句の少なくとも共起情報及び分野情報を格納した第二言語用機械翻訳知識データベースと、第一言語と第二言語とが混在したデータが前記入力装置より入力されたとき、第一言語の翻訳対象部分と第二言語の翻訳非対象部分とを入力する入力処理部と、前記入力処理部で入力された第二言語の翻訳非対象部分を解析し、第二言語の翻訳非対象部分から前記記憶装置に予め記憶された品詞の語句を抽出する第二言語文解析処理部と、前記第二言語文解析処理部で抽出された第二言語の語句を格納する第二言語文抽出語句データベースと、前記入力処理部により入力された第一言語の翻訳対象部分を解析する第一言語解析処理部と、前記第一言語解析処理部で解析された第一言語の語句の訳語候補となる第二言語の語句を前記翻訳辞書部から検索する翻訳辞書検索部と、前記翻訳辞書検索部で検索した結果、前記第一言語の語句の訳語候補となる第二言語の語句が前記翻訳辞書部に複数存在した場合に、前記第二言語文抽出語句データベースに格納された第二言語の語句と第二言語用機械翻訳知識データベースの共起情報又は分野情報に基づいて前記第一言語の語句の訳語候補を一つの第二言語の語句に絞り込み選択する訳語選択処理部と、前記翻訳辞書検索部で検索された第二言語の語句及び前記訳文選択処理部で選択された第二言語の語句に基づいて訳文を生成する訳文生成処理部と、前記訳文生成処理部で生成された第二言語の訳文を前記表示装置に出力する出力処理部とを備えたことを特徴とする。
【発明の効果】
【0013】
本発明によれば、第一言語文と第二言語文とが混在する文書を翻訳する際に、第二言語の文章から訳語決定に左右する情報を抽出して翻訳に利用し、適切な第二言語の訳語を得ることができる。
【発明を実施するための最良の形態】
【0014】
図1は本発明の実施の形態に係る機械翻訳装置のハードウエア構成を示すブロック構成図である。機械翻訳装置11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
【0015】
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には翻訳に関する機械翻訳プログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置17である表示装置18に表示出力され、また、通信制御装置19を介して通信ネットワークに出力される。
【0016】
入力装置20は演算制御装置12に情報を入力するものであり、例えば、マウス21、キーボード22、ディスクドライブ23、通信制御装置19から構成され、例えば、マウス21やキーボード22は表示装置18を介して演算制御装置12に各種指令を入力し、キーボード22、ディスクドライブ23、通信制御装置19は翻訳対象の文書を入力する。
【0017】
すなわち、ディスクドライブ23は翻訳対象の文書のファイルを記憶媒体に入出力するものであり、通信制御装置19は機械翻訳装置11をインターネットやLANなどの通信ネットワークに接続するものである。通信制御装置19はLANカードやモデムなどの装置であり、通信制御装置19を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置12に送受信される。さらに、演算制御装置12の演算結果や翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)24が設けられている。
【0018】
図2は本発明の実施の形態に係わる機械翻訳装置11の機能ブロック図である。図2に示す演算制御装置12内の各機能ブロックは、上述の機械翻訳プログラム15を構成する各プログラムに対応する。すなわち、プロセッサ13が機械翻訳プログラム15を構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ24の記憶領域に対応する。
【0019】
入力処理部26は、入力装置20から入力された第一言語の文と第二言語の文とが混在する文書データを取り込み、文書内で翻訳すべき文章部分(即ち翻訳前の第一言語で書かれた部分)と、翻訳する必要のない文章部分(即ち翻訳後の第二言語で書かれた部分)とに分けるものである。
【0020】
第二言語文解析処理部27は、文書内の翻訳後の第二言語で書かれた部分の文章データを解析し、第二言語の文章データから予め定めた品詞の語句を抽出するものである。例えば、翻訳対象の第一言語の文章に含まれる語句の共起や分野情報を得るために、文書内の第二言語の文章から、名詞や動詞など共起や分野情報を得るための語を抽出する。もちろん、共起や分野情報を得るために役立つのであれば、抽出する語の品詞は、名詞や動詞以外の品詞の語句でも構わない。予め定めた品詞は記憶装置25に予め記憶される。第二言語文解析処理部27は、抽出した語を第二言語文抽出語句データベース28へ格納する。
【0021】
第一言語文解析処理部29は、入力処理部26から入力された文書内の翻訳対象原文とされた第一言語の文について形態素解析及び辞書引きをする単位に分割し翻訳辞書検索部30に出力する。以下、第一言語文解析処理部29で得られた語を原語と呼ぶことにする。
【0022】
次に、翻訳辞書検索部30は、第一言語文解析処理部29で分割された言語と共に、入力処理部26より渡された文書内の翻訳後の第二言語で書かれた文章を入力し、原語の対訳語を得るために、翻訳辞書部31の中を調べる。この中に、原語と同じものを見出し語とするものが発見されれば、当該見出し語に対して定義された訳語に置き換え訳文生成処理部32へ進む。このとき、必要に応じて第一言語用機械翻訳知識データベース33を使用する。第一言語用機械翻訳知識データベース33には、原語の綴りだけでなく、意味、品詞、共起、分野など、様々な種類の膨大な量の情報が蓄積されている。
【0023】
翻訳辞書検索部30にて、原語が一つの訳語に置き換えられた場合には、訳文生成処理部32は訳語に置き換えられた文から訳文を生成し、訳文生成処理部32で生成された訳文を翻訳出力処理部34から出力する。
【0024】
翻訳辞書部31の中に、原語に相当する訳語が複数発見され、かつ第一言語用機械翻訳知識データベース33を使用しても一つの対訳語に絞ることができない場合は、翻訳辞書検索部30は訳語選択処理部35を起動する。
【0025】
訳語選択処理部35は第二言語知識検索部36及び対訳語決定処理部37からなり、第二言語知識検索部36は第二言語文抽出語句データベース28と第二言語用機械翻訳知識データベース38とを使って適切な訳語の確からしさを検索し、対訳語決定処理部37は第二言語知識検索部36の検索結果から訳語を一つに絞り込んで訳文生成処理部32に出力する。
【0026】
次に、訳語選択処理部35の詳細な処理内容について説明する。いま、図8に示す第一言語(英語)の文と第二言語(日本語)の文とが混在する文書の第一言語の文を翻訳する場合を例にして説明する。まず、第二言語文解析処理部27では、図8の文書内の第二言語(日本語)で書かれた部分の文章を解析し、第二言語(日本語)の文章から、図4に示すように、「記事」、「運河」、「高台」、「テント」、「設営」の語句を抽出し、第二言語文抽出語句データベース28に格納しているとする。
【0027】
図3は機械翻訳装置11の処理内容を示すフローチャートである。翻訳辞書検索部30は、翻訳辞書部31の中に原語に相当する訳語が複数発見され、かつ第一言語用機械翻訳知識データベース33を使用しても一つの対訳語に絞ることができない場合は、この原語及び訳語候補を訳語選択処理部35に渡す。
【0028】
訳語選択処理部35の第二言語知識検索部36は、翻訳辞書検索部30から複数の訳語候補がある原語及び訳語候補を入力する(S11)。いま、複数の訳語候補がある原語は「bank」であり、訳語候補が「銀行」、「貯蔵所」、「土手」、「堤防」、「岸」、「堆積」、「層」、「州」、「浅瀬」…であるとすると、第二言語知識検索部36は、図5に示すように、複数の訳語候補がある原語及び訳語候補を入力する。
【0029】
そして、第二言語知識検索部36は、第二言語文抽出語句データベース28に格納されている抽出語句を読み込む(S12)。図8の文書の場合には、図4に示す抽出語句(「記事」、「運河」、「高台」、「テント」、「設営」)が読み込まれる。
【0030】
次に、第二言語知識検索部36は、抽出語句が第二言語用機械翻訳知識データベース38に存在するかどうかを調べ(S13)、抽出語句が第二言語用機械翻訳知識データベース38に存在する場合には、抽出語句の共起情報を調べ(S14)、抽出語句の分野情報を調べる(S15)。そして、第二言語知識検索部36は、抽出語句がまだあるかどうかを判定し(S16)、抽出語句がまだある場合にはステップS13に戻り、ステップS13〜S15を繰り返す。これにより、すべての抽出語句につき共起情報及び分野情報を調べることになる。
【0031】
図6は第二言語用機械翻訳知識データベース38に蓄積された語句の共起情報及び分野情報の一例の説明図である。第二言語用機械翻訳知識データベース38には、第二言語(日本語)の語句の少なくとも共起情報及び分野情報が格納されており、例えば、「記事」については、共起情報「ニュース、報道、新聞」、分野情報として「ビジネス」が格納され、「運河」については、共起情報「堤防、土手」、分野情報「建築土木」が格納され、「高台」については、共起情報「見晴らし、土手」、分野情報「建築土木」が格納され、「テント」については、共起情報「設営」、分野情報「アウトドア、建設」が格納され、「設営」については、共起情報なし、分野情報「建築土木」が格納され、「銀行」については、共起情報「金、預金、残高」、分野情報「金融、経済」が格納され、「土手」については、共起情報「運河」、分野情報「建築土木」が格納されている場合を示している。
【0032】
第二言語知識検索部36は、抽出語句(「記事」、「運河」、「高台」、「テント」、「設営」)について、ステップS13〜S15の処理により、共起情報及び分野情報を調べ、抽出語句に共起として登録されている訳語候補、抽出語句が含まれる分野ごとに点数を付け、第二言語用機械翻訳知識データベース38を検索した結果としての知識検索結果を得る(S17)。
【0033】
例えば、共起として登録されている語句が訳語候補のどれかと同じであるとき、この共起語には共起得点として10点加算し(A)、また、抽出語句が含まれる分野に1個につき1点を加算して(B)、図7に示すような知識検索結果を得る。図7に示すように、「土手」は二つの抽出語句「運河」、「高台」の共起語であるので20点を付与し、「堤防」は一つの抽出語句「運河」の共起語であるので10点を付与する。また、抽出語句「記事」の分野はビジネス、抽出語句「運河」の分野は建築土木、抽出語句「高台」の分野は建築土木、抽出語句「テント」の分野はアウトドアと建設、抽出語句「設営」の分野は建築土木であるので、分野得点として「建築土木」は3点、「アウトドア」は1点、「建設」は1点、「ビジネス」は1点を付与する。共起得点や分野得点は予め記憶装置25に記憶しておく。
【0034】
訳語選択処理部35の対訳語決定処理部37は、第二言語知識検索部36で得られた知識検索結果に基づいて、訳語候補の最高得点の語句は一つかどうかを判定し(S18)、最高得点の語句が一つであるときは、その最高得点の語句に決定する(S19)。一方、最高得点の語句が一つでないときは訳語候補列の順序で語句を決定する(S20)。このようにして、訳語決定処理部37は第二言語知識検索部36の知識検索結果から対訳語を一つに絞り込む。
【0035】
ここで、訳語候補の得点の仕方として、抽出語句の共起として登録されている訳語候補のうち共起得点が最も高い語句を求める対訳語としてもよい。あるいは、最も高い分野得点を得た分野(建築土木)に含まれる訳語候補を求める対訳語としても良い。こうして、最終的に一つの対訳語に決定する。
【0036】
以上の説明では、第一言語は英語で第二言語は日本語の場合について説明したが、英日翻訳に限らず、翻訳前の第一言語と翻訳後の第二言語は、中国語や韓国語、ロシア語など、他の言語でも良い。
【0037】
また、複数の言語による文章が混在する文書を翻訳する場合にも適用できる。また、混在する言語が3種類である場合に、翻訳対象言語の第二言語だけでなく、非訳出言語である第三言語について、第三言語の文章から予め定めた品詞の語句を抽出し、抽出語句の共起情報や分野情報に基づいて、第一言語の訳語を一つに決定するようにすることも可能である。
【0038】
この場合、第二言語用機械翻訳知識データベースに代えて第三言語用機械翻訳知識データベースを用意し、また、第二言語文抽出語句データベースに代えて第三言語文抽出語句データベースを用意し、第二言語文解析処理部に代えて第三言語文解析処理部を設けて、第三言語文解析処理部で抽出された第三言語の語句を第三言語文抽出語句データベースに格納することになる。
【0039】
そして、訳語選択処理部35は、翻訳辞書検索部30で検索した結果、第一言語の語句の訳語候補となる第二言語の語句が翻訳辞書部に複数存在した場合に、第三言語文抽出語句データベースに格納された第三言語の語句と第三言語用機械翻訳知識データベースの共起情報又は分野情報に基づいて第一言語の語句の訳語候補を一つの第二言語の語句に絞り込み選択する。訳語選択処理部35は第二言語知識検索部36に代えて第二言語知識検索部を有することになる。
【0040】
本発明の実施の形態によれば、翻訳対象の文書に含まれる第一言語の語句だけでは、複数の訳語候補の中から一つに絞り込めない場合でも、翻訳対象ではない訳語言語である第二言語や非訳語言語の文章に含まれる語句から、共起情報や分野情報の情報を得て、より文意に合った訳語を選択することができる。例えば、多国語によるメール文を翻訳する場合に有効である。メール原文に対する返信文は互いに関連性が高く、予め登録してある文章と比べ、訳語選択により有用な情報が含まれている。従って、同じ文書に含まれる翻訳非対象文が少量でも、訳語選択に役立てることができる。
【図面の簡単な説明】
【0041】
【図1】本発明の実施の形態に係る機械翻訳装置のハードウエア構成を示すブロック構成図。
【図2】本発明の実施の形態に係わる機械翻訳装置の機能ブロック図。
【図3】本発明の実施の形態における機械翻訳装置の処理内容を示すフローチャート。
【図4】本発明の実施の形態における第二言語文抽出語句データベースに格納される抽出語句の一例の説明図。
【図5】本発明の実施の形態における翻訳辞書検索部から送られてきた複数の訳語候補がある原語及び訳語候補の一例の説明図。
【図6】本発明の実施の形態における第二言語用機械翻訳知識データベースに蓄積された語句の共起情報及び分野情報の一例の説明図。
【図7】本発明の実施の形態における訳語選択処理部で第二言語用機械翻訳知識データベースを検索した結果としての知識検索結果の一例の説明図。
【図8】従来例での第一言語の文と第二言語の文とが混在する文書を翻訳した一例の説明図。
【符号の説明】
【0042】
11…機械翻訳装置、12…演算制御装置、13…プロセッサ、14…メモリ、15…機械翻訳プログラム、16…作業エリア、17…出力装置、18…表示装置、19…通信制御装置、20…入力装置、21…マウス、22…キーボード、23…ディスクドライブ、24…ハードディスクドライブ、25…記憶装置、26…入力処理部、27…第二言語文解析処理部、28…第二言語文抽出語句データベース、29…第一言語文解析処理部、30…翻訳辞書検索部、31…翻訳辞書部、32…訳文生成処理部、33…第一言語用機械翻訳知識データベース、34…翻訳出力処理部、35…訳語選択処理部、36…第二言語知識検索部、37…対訳語決定処理部、38…第二言語用機械翻訳知識データベース

【特許請求の範囲】
【請求項1】
機械翻訳プログラム及び第一言語の語句の訳語候補となる一又は複数の第二言語の語句が格納された翻訳辞書部を記憶した記憶装置と、翻訳対象の第一言語及び翻訳非対象の第二言語が混在したデータを入力する入力装置と、前記第一言語を翻訳した第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置において、前記記憶装置に形成され、第二言語の語句の少なくとも共起情報及び分野情報を格納した第二言語用機械翻訳知識データベースと、第一言語と第二言語とが混在したデータが前記入力装置より入力されたとき、第一言語の翻訳対象部分と第二言語の翻訳非対象部分とを入力する入力処理部と、前記入力処理部で入力された第二言語の翻訳非対象部分を解析し、第二言語の翻訳非対象部分から前記記憶装置に予め記憶された品詞の語句を抽出する第二言語文解析処理部と、前記第二言語文解析処理部で抽出された第二言語の語句を格納する第二言語文抽出語句データベースと、前記入力処理部により入力された第一言語の翻訳対象部分を解析する第一言語解析処理部と、前記第一言語解析処理部で解析された第一言語の語句の訳語候補となる第二言語の語句を前記翻訳辞書部から検索する翻訳辞書検索部と、前記翻訳辞書検索部で検索した結果、前記第一言語の語句の訳語候補となる第二言語の語句が前記翻訳辞書部に複数存在した場合に、前記第二言語文抽出語句データベースに格納された第二言語の語句と第二言語用機械翻訳知識データベースの共起情報又は分野情報に基づいて前記第一言語の語句の訳語候補を一つの第二言語の語句に絞り込み選択する訳語選択処理部と、前記翻訳辞書検索部で検索された第二言語の語句及び前記訳文選択処理部で選択された第二言語の語句に基づいて訳文を生成する訳文生成処理部と、前記訳文生成処理部で生成された第二言語の訳文を前記表示装置に出力する出力処理部とを備えたことを特徴とする機械翻訳装置。
【請求項2】
前記訳語選択処理部は、前記第二言語文抽出語句データベースに格納された第二言語の語句について、前記第二言語用機械翻訳知識データベースに共起情報として登録されている語句を調べ、共起情報として登録されている語句が、前記第一言語の語句の訳語候補となる第二言語の語句であるときは、1つの語句につき予め記憶装置に記憶された所定の共起得点を付加し、共起得点の最も高い語句を対訳語句として選択することを特徴とする請求項1記載の機械翻訳装置。
【請求項3】
前記訳語選択処理部は、前記第二言語文抽出語句データベースに格納された第二言語の語句について、前記第二言語用機械翻訳知識データベースに登録されている分野情報を調べ、前記第二言語文抽出語句データベースに格納された第二言語の語句に登録された一つの分野情報につき予め記憶装置に記憶された所定の分野得点を付加し、分野得点の最も高い分野の訳語候補を対訳語句として選択することを特徴とする請求項1記載の機械翻訳装置。
【請求項4】
機械翻訳プログラム及び第一言語の語句の訳語候補となる一又は複数の第二言語及び第三言語の語句が格納された翻訳辞書部を記憶した記憶装置と、翻訳対象の第一言語及び翻訳非対象の第三言語が混在したデータを入力する入力装置と、前記第一言語を翻訳した第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置において、前記記憶装置に形成され、翻訳対象外であって非訳出言語である第三言語の語句の少なくとも共起情報及び分野情報を格納した第三言語用機械翻訳知識データベースと、第一言語と第三言語とが混在したデータが前記入力装置より入力されたとき、第一言語の翻訳対象部分と第三言語の翻訳非対象部分とを入力する入力処理部と、前記入力処理部により入力された第三言語の翻訳非対象部分を解析し、第三言語の翻訳非対象部分から前記記憶装置に予め記憶された品詞の語句を抽出する第三言語文解析処理部と、前記第三言語文解析処理部で抽出された第三言語の語句を格納する第三言語文抽出語句データベースと、前記入力処理部により入力された翻訳対象部分の第一言語の翻訳対象部分を解析する第一言語解析処理部と、前記第一言語解析処理部で解析された第一言語の語句の訳語候補となる第二言語の語句を前記翻訳辞書部から検索する翻訳辞書検索部と、前記翻訳辞書検索部で検索した結果、前記第一言語の語句の訳語候補となる第二言語の語句が前記翻訳辞書部に複数存在した場合に、前記第三言語文抽出語句データベースに格納された第三言語の語句と第三言語用機械翻訳知識データベースの共起情報又は分野情報に基づいて前記第一言語の語句の訳語候補を一つの第二言語の語句に絞り込み選択する訳語選択処理部と、前記翻訳辞書検索部で検索された第二言語の語句及び前記訳文選択処理部で選択された第二言語の語句に基づいて訳文を生成する訳文生成処理部と、前記訳文生成処理部で生成された第二言語の訳文を前記表示装置に出力する出力処理部とを備えたことを特徴とする機械翻訳装置。
【請求項5】
前記訳語選択処理部は、前記第三言語文抽出語句データベースに格納された第三言語の語句について、前記第三言語用機械翻訳知識データベースに共起情報として登録されている語句を調べ、共起情報として登録されている語句が、前記第一言語の語句の訳語候補となる第二言語の語句であるときは、1つの語句につき予め記憶装置に記憶された所定の共起得点を付加し、共起得点の最も高い語句を対訳語句として選択することを特徴とする請求項4記載の機械翻訳装置。
【請求項6】
前記訳語選択処理部は、前記第三言語文抽出語句データベースに格納された第三言語の語句について、前記第三言語用機械翻訳知識データベースに登録されている分野情報を調べ、前記第三言語文抽出語句データベースに格納された第三言語の語句に登録された一つの分野情報につき予め記憶装置に記憶された所定の分野得点を付加し、分野得点の最も高い分野の訳語候補を対訳語句として選択することを特徴とする請求項4記載の機械翻訳装置。
【請求項7】
機械翻訳プログラム及び第一言語の語句の訳語候補となる一又は複数の第二言語の語句が格納された翻訳辞書部を記憶した記憶装置と、翻訳対象の第一言語及び翻訳非対象の第二言語が混在したデータを入力する入力装置と、前記第一言語を翻訳した第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置に用いられる機械翻訳プログラムにおいて、前記記憶装置は、第二言語の語句の少なくとも共起情報及び分野情報を格納した第二言語用機械翻訳知識データベースを有し、前記コンピュータに、第一言語と第二言語とが混在したデータが前記入力装置より入力されたとき第一言語の翻訳対象部分と第二言語の翻訳非対象部分とを入力する手順と、前記入力した第二言語の翻訳非対象部分を解析して第二言語の翻訳非対象部分から前記記憶装置に予め記憶された品詞の語句を抽出する手順と、抽出した第二言語の語句を前記記憶装置の第二言語文抽出語句データベースに格納する手順と、前記入力した翻訳対象部分の第一言語の翻訳対象部分を解析し解析した第一言語の語句の訳語候補となる第二言語の語句を前記翻訳辞書部から検索する手順と、前記検索した結果、前記第一言語の語句の訳語候補となる第二言語の語句が前記翻訳辞書部に複数存在した場合に、前記第二言語文抽出語句データベースに格納された第二言語の語句と第二言語用機械翻訳知識データベースの共起情報又は分野情報に基づいて前記第一言語の語句の訳語候補を一つの第二言語の語句に絞り込み選択する手順と、前記検索された第二言語の語句及び前記選択された第二言語の語句に基づいて訳文を生成する手順と、前記生成された第二言語の訳文を前記表示装置に出力する手順とを実行させるための機械翻訳プログラム。
【請求項8】
機械翻訳プログラム及び第一言語の語句の訳語候補となる一又は複数の第二言語及び第三言語の語句が格納された翻訳辞書部を記憶した記憶装置と、翻訳対象の第一言語及び翻訳非対象の第三言語が混在したデータ入力する入力装置と、前記第一言語を翻訳した第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置に用いられる機械翻訳プログラムにおいて、前記記憶装置は、翻訳対象外であって非訳出言語である第三言語の語句の少なくとも共起情報及び分野情報を格納した第三言語用機械翻訳知識データベースを有し、前記コンピュータに、第一言語と第三言語とが混在したデータが前記入力装置より入力されたとき第一言語の翻訳対象部分と第三言語の翻訳非対象部分とを入力する手順と、前記入力した翻訳非対象部分の第三言語の翻訳非対象部分を解析して第三言語の文章から前記記憶部に予め記憶した品詞の語句を抽出する手順と、抽出した第三言語の語句を前記記憶装置の第三言語文抽出語句データベースに格納する手順と、前記入力した翻訳対象部分の第一言語の翻訳対象部分を解析し解析した第一言語の語句の訳語候補となる第二言語の語句を前記翻訳辞書部から検索する手順と、前記検索した結果、前記第一言語の語句の訳語候補となる第二言語の語句が前記翻訳辞書部に複数存在した場合に、前記第三言語文抽出語句データベースに格納された第三言語の語句と第三言語用機械翻訳知識データベースの共起情報又は分野情報に基づいて前記第一言語の語句の訳語候補を一つの第二言語の語句に絞り込み選択する手順と、前記検索された第二言語の語句及び前記選択された第二言語の語句に基づいて訳文を生成する手順と、前記生成された第二言語の訳文を前記表示装置に出力する手順とを実行させるための機械翻訳プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2010−67021(P2010−67021A)
【公開日】平成22年3月25日(2010.3.25)
【国際特許分類】
【出願番号】特願2008−232931(P2008−232931)
【出願日】平成20年9月11日(2008.9.11)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】