説明

機械翻訳プログラム、機械翻訳システム、機械翻訳方法

【課題】編集し難い目的言語文書DBに一旦登録した文書を簡単な操作で選び出して登録前の状態に戻せるようにする。
【解決手段】この機械翻訳システムは、制御部2と目的言語文書DB8を管理するDB管理部6を備える。制御部2は、削減モード時に、DB指定部2aにより、削減対象の目的言語文書および/または作成済み目的言語データを記憶したDBが指定されると、指定されたDBをDB管理部6の検索部6aに検索させ、検索されたDBの目的言語文書の言語情報、統計情報分を、該当DBより差し引いて目的言語文書DB8を更新する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば自然言語データベースを用いて原言語の文章を目的言語の文章に自動的に翻訳する機械翻訳プログラム、機械翻訳システム、機械翻訳方法に関する。
【背景技術】
【0002】
近年、コンピュータを利用して、第1言語(原言語)の文章を第2言語(目的言語)の文章に自動的に翻訳する機械翻訳システムが注目されている。
機械翻訳システムにおける翻訳処理は、まず、入力原文を形態素解析して処理単位に分割し、次に構文解析・意味解析等によって、原言語の構文構造を分析して意味構造を構築し、続いて、翻訳辞書中に含まれる翻訳規則の中から当該入力文に適する翻訳規則を検索して適用し、対応する目的言語の構文、訳語を決定する。
最後に、決定した構文、訳語を所定の訳文生成規則に従って1次元的な第2言語の文字列に変換し、入力原文に対する訳文を得るようになっている。
【0003】
このような機械翻訳において高精度な翻訳を実現するためには、翻訳辞書にどれだけ多様な翻訳知識を蓄積できるかが重要であるが、あらゆる入力文に万能な翻訳知識を構築するのには限界がある。また、原文書の解析を行いながら、文書の内容(分野)を自動判定し、判定結果に応じた訳し方等を自動選択できるような翻訳方式も実用化されている。
但し、この自動判定のためにも知識が必要であり、現実にはあらゆるユーザが翻訳しようとするあらゆる種類の原文書に対応して、常に望ましい訳出方法を翻訳システムが自動的に選択していくというのは非常に困難である。
このため、ユーザは、原言語の語句に対する複数の訳語候補の中から、入力文書の種類やユーザの好みに応じて、適した訳語を個々に選択・学習する作業を行う必要がある。
【0004】
従来の機械翻訳システムでは、このような学習作業をユーザ自身が行うことによって訳語の学習を実現していた。この方法では、適切でない訳語が多ければ多いほど、ユーザの学習作業が増えることになる。
【0005】
そこで、ユーザの学習作業の負担を大幅に軽減するための訳語学習方式として、目的言語文書での統計的情報を元に訳語を自動的に決定する方式が提案されている(例えば非特許文献1、特許文献2参照)。
このような自動訳語学習方式では、目的言語文書をユーザが用意することによって、そのユーザが翻訳させたい文書に適した自動的な訳語学習が可能になる。
【0006】
また、訳語学習の対象外とする語句の指定を可能にすることにより、自動学習の副作用を軽減したり、学習対象外語句の指定状況から、原文書に応じた翻訳時に用いる目的言語文書データベースの優先度を自動選択する技術も公開されている(例えば特許文献32参照)。
【非特許文献1】「目的言語の単言語コーパスを利用した訳語学習方式」(言語処理学会第8回年次大会論文週、2002 Vol1.1、pp276−280)
【特許文献1】特開2000−250914号公報
【特許文献2】特願2002−242368号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
従来技術で用いてきた目的言語文書データベースに含まれる情報は、個々の語句や語句の共起情報とその頻度などの統計情報が中心であり、一般的なユーザ辞書のようにユーザが中身を完全管理することはできず、編集も自由にできないという問題があった。
【0008】
また、文書を順次追加登録するうちに誤った文書を登録した場合、意図しないデータベースに文書を登録してしまった場合に登録前の状態に戻すことは容易ではなく、全文書の登録前に戻って登録をやり直すしかなかった。
特に、誤って登録したことに後になって気付いた場合や、翻訳に用いてみて登録した文書が適切でなかったことに気付いた場合など、どの文書を登録しなおせばよいかという情報すら明確でないことが多く、困難をきたしていた。
【0009】
また、登録する目的言語文書によっては、目的言語文書データベースに特定分野に特徴的でない統計情報が優位値と共に格納されてしまうことがある。そうした場合、ある文書の翻訳では、所望でない訳語の自動選択が行われることにも繋がる。このようなときは、データベースに格納されている特定の統計情報をユーザの意思で削除可能なようにすることが望まれるが、従来では、データベースとして一度構築された統計情報は、一般ユーザが容易に編集できる内容でないため、実現が困難であった。
【0010】
本発明はこのような課題を解決するためになされたもので、編集し難い目的言語文書を登録したデータベースに対して、一旦登録した文書を簡単な操作で選び出して登録前の状態に復元することができる機械翻訳プログラム、機械翻訳システム、機械翻訳方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
上記した課題を解決するために、本発明の機械翻訳プログラムは、コンピュータに、原言語から目的言語へ翻訳するために前記目的言語による少なくとも1つの目的言語文書に基づいて分野毎に構築されたデータベースの情報を削減するにあたり、入力されたキー情報に基づいて前記データベースに記憶されている削減対象の目的言語文書および/または作成済み目的言語データを指定する指定処理と、指定された削減対象の目的言語文書および/または作成済み目的言語データが記憶されている該当データベースを文書管理テーブルを参照して特定する処理と、特定された該当データベースの文書から目的言語文書の言語情報、統計情報分を差し引いて前記データベースを更新する更新処理とを実行させるための機械翻訳プログラムである。
【0012】
また、本発明の機械翻訳システムは、原言語から目的言語へ翻訳するために前記目的言語による少なくとも1つの目的言語文書に基づいて分野毎に構築され、前記目的言語文書の言語情報、統計情報を保持するデータベースと、前記データベースの情報を追加または削減するための動作モードの設定と、削減の対象となる目的言語文書あるいは目的言語データを指定するキー情報を入力する入力手段と、削減モードにおいて、前記入力手段により入力されたキー情報に基づいて前記データベースに記憶されている削減対象の目的言語文書および/または作成済み目的言語データを指定する指定手段と、作成済みの目的言語データが格納されたデータベース名と、前記データベースを作成する際に使用した文書名とその格納場所を記憶する文書管理テーブルと、前記指定手段により指定された削減対象の目的言語文書および/または作成済み目的言語データが記憶されている該当データベースの文書名を前記文書管理テーブルを参照して特定し、該当データベースの目的言語文書の言語情報、統計情報分を該当データベースから差し引いて前記データベースを更新する減算手段とを具備したことを特徴とする。
【0013】
さらに、本発明の機械翻訳方法は、原言語から目的言語へ翻訳するために前記目的言語による少なくとも1つの目的言語文書に基づいて分野毎に構築され、前記目的言語文書の言語情報、統計情報を保持するデータベースの情報を削減するための削減モードにおいて、削減の対象となる目的言語文書あるいは目的言語データを指定するキー情報が入力手段より入力された場合、前記入力手段より入力されたキー情報に基づいて前記データベースに記憶されている削減対象の目的言語文書および/または作成済み目的言語データを指定するステップと、指定された削減対象の目的言語文書および/または作成済み目的言語データが記憶されている該当データベースの文書名を、作成済みの目的言語データが格納されたデータベース名と、前記データベースを作成する際に使用した文書名とその格納場所を記憶する文書管理テーブルを参照して特定し、該当データベースの目的言語文書の言語情報、統計情報分を該当データベースから差し引いて前記データベースを更新するステップとを有することを特徴とする。
【0014】
本発明では、データベースの情報を削減するための削減モードを備えており、この削減モードにおいて、削減の対象となる目的言語文書あるいは目的言語データを指定するキー情報が入力された場合、入力されたキー情報に基づいてデータベースに記憶されている削減対象の目的言語文書および/または作成済み目的言語データを指定し、指定された削減対象の目的言語文書および/または作成済み目的言語データが記憶されている該当データベースを文書管理テーブルを参照して特定し、該当データベースより目的言語文書の言語情報、統計情報分を差し引いてそのデータベースを更新するので、ユーザは、目的言語文をデータベースに追加登録した後で、登録した内容を覚えていなくても該当する目的言語の文章を簡単な操作で探し当てて削減することができる。
【発明の効果】
【0015】
以上説明したように本発明によれば、編集し難い目的言語文書を登録したデータベースに対して、一旦登録した文書を簡単な操作で選び出して登録前の状態に復元することができる。
【発明を実施するための最良の形態】
【0016】
以下、本発明の実施の形態を図面を参照して詳細に説明する。図1は本発明に係る一実施形態の機械翻訳システムを示すブロック図、図2は目的言語文書データベースに格納されているデータベースの内容の一例を示す図、図3はデータベース管理部により参照される文書管理テーブルの内容を示す図である。
【0017】
図1に示すように、この第1実施形態の機械翻訳システムは、入力部1、制御部2、翻訳部3、辞書部4、出力部5、データベース管理部6、目的言語文書データベース生成部7、目的言語文書データベース8、文書管理テーブル9等から構成されている。なお、以下ではデータベースをDBと称す。この機械翻訳システムのハードウェア構成としては、CPU、メモリ、ハードディスク装置等を備えたコンピュータと、このコンピュータに接続された表示装置および印刷装置等である。ハードディスク装置にはコンピュータシステム全体を動作させるオペレーティングシステム(以下OSと称す)と、機械翻訳を実行する制御プログラム(以下機械翻訳プログラムと称す)がインストールされており、これら機械翻訳プログラム、OS、CPU、メモリ等が協働して、制御部2、翻訳部3、DB管理部6等の処理動作を実現する。
【0018】
入力部1は、翻訳対象となる元の文書(原文)の電子データ(以下文書と称す)を取り込んで制御部2へ出力する。また入力部1は、制御部2に対して、翻訳対象となる文字列(文)の入力および各種コマンドの入力等を行うものである。入力部1は、DBの情報を追加または削減するための制御部2の動作モードの切り替え操作を行うものである。通常、入力部1としては、キーボード、マウス等の他、画面に表示されたリスト一覧からの選択ボタン、プルダウンメニュー等のグラフィックユーザインターフェース(GUI)が用いられる。この他、入力部1としては、スキャナ、ディクテーション装置、インターネット上のサーバ、記憶媒体などでも良い。つまり、翻訳対象文の入力の仕方としては、OCR、フレキシブルディスク、磁気テープ、磁気ディスク、インターネットのサーバからのテキスト(文字列)の読み込み、あるいはマイクで入力者が発話した音声を取り込んでディクテーション装置等によって自然言語の文字列に変換したものを読み込む、等の入力手法がある。
【0019】
制御部2は、このシステム全体の動作を統括制御する。制御部2は、DB指定部2aを有している。DB指定部2aは、ユーザの操作に応じて目的言語文書DB8の中から特定のDBを指定する。
【0020】
翻訳部3は、原言語を目的言語に翻訳して1つ以上の訳語候補を生成し、生成した1つ以上の訳語候補からDB指定部2aにより指定された目的言語文書DB8の該当DBを用いて1つの訳語を選定する訳語選択部3aを有している。
【0021】
辞書部4には、語彙部4a、形態素解析規則4b、構文・意味解析規則4c、変換規則4d、構文生成規則4e、形態素生成規則4f等の、文章翻訳のための各種知識、文法ルール、解析情報等の参照情報が蓄積されている。語彙部4aは、単語、熟語辞書を格納した語彙データベースである。
【0022】
出力部5は、翻訳部3の出力である翻訳結果を出力したり、制御部2への各種命令に対する制御部2からの応答を表示するものである。出力部5としては、各種ディスプレイなどの表示手段の他、翻訳結果の出力用として印刷機などの印刷手段、あるいは直接フレキシブルディスク、磁気テープ、磁気ディスク等の記憶媒体へ出力するドライブ装置や、ドライブ装置へネットワークを通じて送信する送信手段であってもよい。
【0023】
DB管理部6は、目的言語文書DB8の記憶内容を文書管理テーブル9で管理する。DB管理部6は、制御部2のDB指定部2aにより、あるDB8aに保持されている削減対象の目的言語文書および/または作成済み目的言語データが指定されると、指定された目的言語文書の言語情報、統計情報分を削除対象として、該当DB8aから差し引いて目的言語文書DB8を更新する減算処理を行う。また、DB管理部6は、削除対象の文書リスト一覧を表示し、そのリストの中から選択された目的言語文書、あるいは目的言語文書とDBとの組を、削減処理の情報として文書管理テーブル9で管理する。
【0024】
DB管理部6は、追加あるいは削減の対象となるDBの名称、言語文書の名称あるいはファイルの名称(データ名)、その格納場所等をユーザが直接入力できない場合のために、検索部6aを有している。検索部6aは、入力された自然言語文、キーワード等のキー情報に基づいて目的言語文書DB8にアクセスし、複数のDBの中から該当DBを検索する。具体的には、検索部6aは、キーワードや自然言語文を与えると、関連する目的言語文書DB8および目的言語文書を検索しそのリストを作成し、表示装置の画面に表示し、ユーザに選択を促す提示を行う。
【0025】
目的言語文書DB生成部7は、ユーザ操作に基づいて原言語(例えば英語等)から目的言語(日本語等)へ翻訳するために目的言語(日本語等)による少なくとも1つ以上の目的言語文書(日本語文書等)に基づいて分野(スポーツ、政治、ニュース、情報技術等)毎のDBを目的言語文書DB8内に構築する。各DBには、目的言語文書の言語情報、統計情報(図2参照)が保持されている。
【0026】
なお、制御部2の指示でDB管理部6が行う処理を目的言語文書DB生成部7が行っても良い。つまり目的言語文書DB生成部7は、例えばユーザが入力した任意の目的言語文書および任意の作成済み目的言語データが指定されると、入力部1からの入力操作で指定された目的言語文書の言語情報、統計情報分を、目的言語文書DB8の作成済み目的言語データから差し引き、目的言語文書DB8を更新する減算処理を行う。
【0027】
目的言語文書DB8は、原言語から目的言語への翻訳のために目的言語による少なくとも1つ以上の文書に基いて構築されたデータベースである。目的言語文書DBス8には、分野毎の複数のDBが格納されている。各DBは、翻訳対象の分野、カテゴリ毎に分けられており、作成済み目的言語データが蓄積されている。その中の一つとしてDB8aがある。
【0028】
図2に示すように、例えばDB8aには、「対応文書ID」、「内容」、「共起情報」、「単語頻度」、等の項目で目的言語文書情報が記憶されている。
「対応文書ID」とは、当該DBを作成した際に登録した目的言語文書固有の識別情報、つまり文書IDである。
このDB8aの目的言語文書には「内容」として、キーワードや自然言語文を合わせて記憶させることができる。この「内容」は、DBや目的言語文書を検索するのに使われる。「共起情報」は、登録した文書の中に生起した共起関係を、頻度と相互情報量と対応付けた情報である。頻度と相互情報量を統計情報という。頻度と相互情報量には強度(強度情報)が設定可能である。
【0029】
強度は(1)乃至(3)の選択肢があり、これらの中からユーザが選択し指定するものとする。
減算に先立ってユーザにより(3)の選択肢が選択された場合、強度の欄に例えば加算不要フラグの「1」が設定され、以降の更新処理では統計に関する新たな情報が加算されないように頻度を0に固定する。
また、減算の際に、表示画面から下記(1)、(2)のいずれか一方の選択肢がユーザにより選択された場合、DB管理部6は、選択された選択肢の強度に応じた削減処理を行う。(1)、(2)では強度自体が異なり、例えば(1)は頻度を単純減算とする、(2)は頻度を0に初期化するという選択肢であり、これらの中から一つを選択して設定可能である。詳細については図7の説明で詳述する。
【0030】
DB8aにおいて、例えば第1のカラムである「N−wo−V」は、共起関係の種類を示し、続く語句は、当該関係で共起した語を示す。なお、Nは名詞を示し、Vは動詞を示す。後ろに続く数字は、順に頻度、相互情報量、強度を示す。「単語頻度」は登録した文書に生起した単語の種類と頻度を格納している。ここに格納する語句には、1文書での頻度やDB内での頻度の閾値を設けたりあるいは機能語は対象とせずに内容語だけにする、などといった限定をかけることができる。
【0031】
図3に示すように、文書管理テーブル9には、「文書ID」、「ファイル名」、「格納場所」、「データベース名」、「内容」などの項目からなる、作成済みのDBおよびその目的言語文書、目的言語文書データを管理するための文書管理情報が記憶されている。
【0032】
この文書管理テーブル9の中の「文書ID」と目的言語文書DB8の例えばDB8aの「対応文書ID」とは一致している。DB管理部6の検索部6aは、この「文書ID」をキーとして、文書管理テーブル9の文書管理情報をたどっていくことで、対応するDB8aの目的言語文書の情報を得る。
【0033】
文書管理テーブル9に設定されている「格納場所」は、目的言語文書DB8の複数のDBに登録した文書が実際にどこに存在するかを示している。従って、「格納場所」としては、ローカルマシンのハードディスク装置があげられる。この場合、検索部6aは、削減モード時に、入力部1によりキー情報として入力された自然言語文あるいはキーワードに基づいてローカルマシンのハードディスク装置内のDBから関連する目的言語文書を検索し、ヒットした削減対象となる目的言語文書のリストを作成し表示画面に表示する。
また、ローカルマシン以外の任意の場所における目的言語文書の「格納場所」としては、例えばネットワーク上のサーバがあげられる。この場合、検索部6aは、削減モード時に、入力部1によりキー情報として入力された自然言語文あるいはキーワードに基づいてインターネット上の所定のサーバから関連する目的言語文書を検索し、ヒットした削減対象となる目的言語文書のリストを新たに作成し表示画面に表示する。
【0034】
つまり、DB管理部6の検索部6aは、ローカルマシン以外の任意の場所から関連する目的言語文書を検索し、削減対象となる目的言語文書のリストを表示し、そのリストの中から選択を促す。これにより、ユーザは、候補リストにない文書も減算対象として指定することができる。
文書管理テーブル9の「文書ID」の例えば“3”の内容で、「格納場所」として、“管理フォルダ”と登録されているのは、DB管理部6が管理するファイルの保存場所である。ネットワーク上の文書を検索して、それを目的言語文書DB8に登録したが、ユーザ自身では、登録内容を管理したくなく、かつ検索した文書の保存だけはしておきたい、というものを管理する場所として“管理フォルダ”を用いる。この“管理フォルダ”は、インターネット上の一時的なページを目的言語文書DB8に登録した場合等にも使われる。
【0035】
すなわち、この機械翻訳システムにおける翻訳プログラムは、コンピュータに翻訳処理を実行させる翻訳プログラムであって、コンピュータを、原言語から目的言語へ翻訳するために目的言語による少なくとも1つの目的言語文書に基づいて分野毎に構築され、目的言語文書の言語情報、統計情報を保持する目的言語文書DB8と、この目的言語文書DB8の情報を追加または削減するための動作モードの設定と、削減の対象となる目的言語文書あるいは目的言語データを指定するキー情報を入力する入力手段としての入力部1と、削減モードにおいて、入力部1により入力されたキー情報に基づいて目的言語文書データベースに記憶されている削減対象の目的言語文書および/または作成済み目的言語データを指定する指定手段としてのDB指定部2aと、作成済みの目的言語データが格納されたデータベース名と、前記データベースを作成する際に使用した文書名とその格納場所を記憶する文書管理テーブル9と、DB指定部2aにより指定された削減対象の目的言語文書および/または作成済み目的言語データが記憶されている該当DB8aの文書名を文書管理テーブル9を参照して特定し、削減対象の目的言語文書の言語情報、統計情報分を該当DB8aから差し引いてDB8aを更新する手段として機能させる。
【0036】
図4は制御部2におけるユーザとの対話による処理を示すフローチャートである。入力部1より原文の入力があると(図4のステップS201)、制御部2は、出力部5に対して原文の表示を指示する翻訳指示命令を送出する(ステップS202)。
【0037】
その後、翻訳指示命令が制御部2に受信されると(ステップS203のYes)、制御部2は原文のデータを翻訳部3へ送り、翻訳処理開始の指示命令をする。翻訳部3は、辞書部4の知識・規則を用いて、入力原文に対して、第2言語の文への翻訳処理を行う(ステップS204)。翻訳部3の処理の流れについては、後に別図を用いて説明を行う。翻訳処理が終了すると、翻訳結果は制御部2を通じて出力部5へ送られ、ユーザに提示される。
【0038】
入力部1より制御部2へ翻訳処理に用いる目的言語文書DB8の指定の命令が入力されると(ステップS205)、制御部2は、出力部5に対してユーザがDB指定をするための画面表示を指示する。出力部5の表示に従って、ユーザは、データベース名を直接指定したりあるいはDB管理部6が有する検索部6aを使うなどして、複数のDBの中から翻訳文書に望ましいDBを選択する(ステップS206)。この処理の詳細については後述する。
【0039】
入力部1より制御部2へ目的言語文書DB8の更新命令が入力されると(ステップS207のYes)、制御部2は、更新処理起動の命令をDB管理部6へ送る。この命令を受けたDB管理部6は、ユーザの命令の詳細に応じて目的言語文書DB生成部7と協調して目的言語文書DB8の内容を更新する(ステップS208)。この処理の詳細についても後に別図を用いて説明する。
【0040】
また、入力部1より全体の処理終了の指示が入力された場合には(ステップS209のYes)、すべての処理を終了する。
【0041】
それ以外の操作入力があった場合は(ステップS210のYes)、その入力に応じた処理を行う(ステップS211)。
【0042】
DB管理部6は、指定された目的言語文書を目的言語文書DB生成部7により解析し、構成語句や共起情報を頻度情報、相互情報量と共に、目的言語文書DB8に格納し、管理する。共起情報とは、名詞句中の連接共起や、動詞と名詞の共起関係(例:動詞とその目的語)や、1文中の共起情報(関係を限定しない)、1段落中の共起情報など、多様なパターンが考えられるが、本発明ではその具体的種類を限定するものではない。
【0043】
目的言語文書DB生成部7は、上記の他に、DBの作成に用いた目的言語文書についての情報も保持する。目的言語文書についての情報は、文書そのものを特定の管理フォルダに格納することで保持する。また、この他、ユーザ管理下の文書であれば、文書の格納場所の情報だけを保持するようにもできる。このような文書情報を、作成したDBと対応づけて記憶する。要するに、目的言語文書か目的言語文書DB8のいずれかを指定すれば、それに対応する情報がとりだせるように文書管理テーブル9が設けられている。
【0044】
続いて、図5のフローチャートを参照して翻訳部3に翻訳対象の原文が入力されてから目的言語の訳文を生成するまでの処理について説明する。
【0045】
まず、翻訳部3に入力文が送られてくると、翻訳部3は、入力文に対して辞書部4中の語彙部4aと形態素解析規則4bとを用いて、形態素解析・辞書引き処理を行い、その品詞・活用の種類、訳語の他、翻訳処理に必要な各種情報を求める(図5のステップS501)。この結果、入力文を構成する単語の品詞、活用の候補が出力される。
【0046】
続いて、翻訳部3は、構文・意味解析を行う。この構文・意味解析の課程では(ステップS502)、上記単語、品詞、活用の並びを入力とし、構文・意味解析規則4cを用いて、入力文の構造を解析し、原言語の意味構造を構築する。
【0047】
原言語の意味構造を構築すると、翻訳部3は、それを入力として変換規則4dを用いて目的言語構造への変換処理を行う(ステップS503)。この段階で、目的言語の文としてどのような構文で訳出するか、どのような訳語を出力するか、が判定される。一つの見出し語に対して、訳語が一意に決められない場合は、訳語の候補として複数の語を出力する。訳語間のデフォルト優先順は、語彙部4aでの訳語定義順とする。
変換処理が終了すると、翻訳部3は、訳語選択処理(ステップS504)を開始する。
訳語選択処理は、目的言語構造中の各要素について、訳語が一意に決められているかどうかをチェックし、一意に決まっておらず、複数の訳語が出力された見出し語について、目的言語文書DB8中の統計情報と照合し、訳語間の優先順の調整を行う。
具体的には、複数の訳語があてられた個々の見出し語ごとに以下のような判定と処理を行う。
(1)目的言語文書DB8中の共起関係情報中から当該見出し語にあてはまる関係を選び出す。(訳語候補のどれかが共起関係情報に挙がっているかどうかをチェックする。)

共起関係の種類と入力文の解析構造を照合し、当てはまるものを見つける。

予め定めた頻度閾値ないしは相互情報量閾値以上であれば、共起関係情報に挙がっている訳語を訳語候補の再優先訳語とする。
(2)目的言語文書DB8中の単語頻度情報中から当該見出し語にあてはまるものを選び出す。(訳語候補のどれかが単語頻度情報にリストされているかどうかをチェックする。)

予め定めた頻度閾値以上であれば、単語頻度情報にリストされている訳語を訳語候補の再優先訳語とする。
【0048】
このように、目的言語文書DB8を参照した訳語候補間の優先度調整が終了すると、翻訳部3は、ステップS505の処理に進み、構文生成規則4e、形態素生成規則4fを用いて、最終的な目的言語の文を生成し、一入力文に対する翻訳処理を終了する。
【0049】
次に、図6のフローチャートを参照して、入力部1より、翻訳に用いる目的言語文書DB8の中から特定のDBを選択する指示命令が制御部2に送られてきた際のDB指定処理について説明する。
【0050】
制御部2に目的言語文書データベースを選択する指示命令が送られてくると、制御部2は、ユーザが選択をするのを支援する画面表示を出力部5にて行う(図6のステップS601)。この画面では、目的言語文書DB8中の作成済みのDB一覧を表示してユーザに提示する。
【0051】
この画面には、表示されたDB一覧の中からユーザが特定のDB名を直接指定する欄が設けられている他、既存のDBの中から所望のDBをキーワードや自然言語文で検索することで選択ができるようなガイドの欄が設けられている。
【0052】
この画面にDB一覧を表示した後、ユーザにより入力部1より入力操作が行われると、制御部2は、その入力操作内容に従った処理を行う。
【0053】
ユーザの指示操作がデータベース名の指定であった場合(ステップS602のYes)、制御部2は、指定されたDBの実体を同定し、翻訳処理の準備としてデータベースファイルのオープンを行って(ステップS606)、処理を終了する。
【0054】
また、ユーザの指示操作が検索指示であった場合(ステップS603のYes)、すなわち、検索キーあるいは検索質問文が入力され、検索開始命令が送られてきた場合、制御部2は、入力された検索キー、検索質問文から検索コマンド文字列を構成し、DB管理部6へ送り、検索を指示する。DB管理部6では、制御部2からの検索指示により検索部6aが、目的言語文書DB8中から、文書管理情報や各DB中の「内容」や、DB中の単語情報を用いて、該当文書の検索を行い、検索結果リストを作成し、出力部5へ送り、出力部5は表示画面に検索結果リストを表示し(ステップS604)、そのリストの中から選択を促す提示をユーザへ行う。
表示画面に表示された検索結果リストを確認したユーザが、特定のDBを選択する操作を行った場合(ステップS605のYes)、制御部2は、指定されたDBの実体を同定し、翻訳処理の準備としてデータベースファイルをオープンし(ステップS606)、処理を終了する。それ以外の操作であった場合(ステップS605のNo)、制御部2は、ステップS602の処理に戻り、指示された命令に沿った処理を行う。
また、ユーザの指示操作が、データベース指定処理の終了であった場合(ステップS607のYes)、制御部2は、画面を閉じて処理を終了する。
【0055】
一方、ユーザの指示操作(入力)が上記以外の操作であった場合(ステップS608のYes)、制御部2は、誤入力として無視し、他の正しい指示操作の入力を待つ。
このようにこの動作例では、ユーザは、目的言語文書DBの名前を直接指定しなくとも、自然言語検索で所望のDBを選び、翻訳に用いることができる。
【0056】
次に、図7のフローチャートを参照して制御部2に目的言語文書DB更新指示命令が送られた後の、目的言語DB管理部6における目的言語文書DB8の更新処理について説明する。
【0057】
目的言語文書DB8の更新処理は、ユーザから入力部1に入力された指示命令が以下のいずれかによって動作モード(以下処理モードという)を切り替え、処理手順を変更する。
【0058】
(1)DBを新規作成して目的言語文書を登録する。
(2)既存のDBに新たに目的言語文書を登録する。
(=特定の目的言語文書内の統計情報を既存DBに加算する)
(3)既存のDBに対して、特定の目的言語文書の内容分の内容キャンセルを行う
(=特定の目的言語文書内の統計情報を既存DBから減算する)
【0059】
入力部1に対して上記(1)の操作が行われた場合、制御部2は、処理モードを登録モードに切り替える。入力部1に対して上記(2)の操作が行われた場合、制御部2は、処理モードを追加モードに切り替える。入力部1に対して上記(3)の操作が行われた場合、制御部2は、処理モードを削減モードに切り替える。
ユーザからの指示命令が上記(1)である場合(ステップS701のYes)、制御部2は、処理モードを「追加」(「mode」=「add」)に設定した上で、表示画面にデータベース名の指定欄を表示して、新規作成するデータベース名をユーザに指定(入力)させ、指定(入力)されたデータベースファイルをオープンする(ステップS702)。その後、ステップS707の目的言語文書の指定処理に進む。
【0060】
また、ユーザからの指示命令が上記(2)である場合(ステップS703のYes)制御部2は、処理モードを「追加」(「mode」=「add」)に設定した上で、表示画面に、更新対象のDBを指定する欄を表示し、DB指定処理を行う(ステップS705)。
この実施形態では、DB指定処理は、図6を用いて説明した「翻訳に用いるDBの指定処理」と同じ処理を行うので、ここでの再度の説明は省略する。
【0061】
ユーザからの指示命令が上記(3)である場合(ステップS704のYes)制御部2は、処理モードを「削減」(「mode」=「delete」)に設定した上で、更新対象のデータベースの指定処理を行う(ステップS705)。なお、DBから情報を差し引く削減モードであっても、更新対象のDBの指定処理は、追加モードと変わりはない。
【0062】
ユーザの指示命令が、データベース更新処理の終了であった場合(ステップS706のYes)、制御部2は、処理開始後に表示した画面を閉じて終了する。
【0063】
また、ユーザの入力操作が上記以外のものであった場合(S708のYes)、制御部2は、誤入力として無視し、他の正規の指示操作の入力を待つ。
データベース指定処理の後、制御部2は、目的言語文書を指定する処理を行う。
この目的言語文書指定処理において、処理モードが「追加」(「mode=add」)のとき、制御部2は、新規に登録する文書を指定する欄を表示して、ユーザに文書の指定を行わせる。
【0064】
また、処理モードが「削減」「mode=delete」のときは、制御部2は、既存DBから減算する材料となる文書を指定する欄を表示して、ユーザに文書名の指定を行わせる。
文書の指定処理の流れの大枠は、図6を用いて説明したDBの指定処理と共通であるので、ここでは新たに図を設けず、図中の判断・処理内容を適宜読み変え、違いに焦点をあてて説明する。
【0065】
共通点としては、文書名を直接指定する場合と、検索部6aにより自然文字列あるいはキーワードの入力で所望の文書を探し当てる場合の2つの入力操作が行える点である。図6中のステップの処理内容は下記のように読み変えることができる。
ステップS602:目的言語文書名の指定
例えばWindowsなどのOSに標準で備わっている「参照」機能を用いてファイルの指定ができる。なおWindowsは登録商標である。
ステップS604:検索実行、結果リスト表示
「mode=delete」の場合は、減算対象とする文書は、文書管理テーブル9の文書管理情報として登録されているものを優先して検索を実行する。一般に検索対象は、ユーザの指示によりローカルマシン内とされるが、この実施形態の検索部6aは、ローカルマシンの外、つまりネットワーク上のサーバコンピュータや外部記憶装置へアクセスし、例えばインターネット上のサーバコンピュータに保持されている目的言語文書の検索も可能である。つまりインターネットを利用し広い範囲の文書の指定が可能である。
ステップS606:指定文書ファイルの同定、ファイルの取得/オープン
検索結果リストから指定された文書ファイルの実体を取得しファイルのオープンを行う。
【0066】
再び図7のフローチャートを参照しデータベース更新処理の説明に戻る。
ステップS702、S705、S707で更新先のDBと更新の材料となる目的言語文書ファイル(目的言語文書データ)が特定されると、設定された「mode」に応じて、それぞれDB中の統計情報の加算処理、減算処理が行われる。
【0067】
具体的には、DB管理部6は、指定された目的言語文書を解析して、各種共起情報、単語頻度情報などの統計情報を抽出し、制御部2に通知し、処理モードが追加(「mode=add」)の場合(S709のYes)、制御部2は、加算処理をDB管理部6に行わせる(S710)、つまり制御部2およびDB管理部6は、更新前のDB内の統計情報とのマージ、頻度情報の加算、相互情報量の再計算を行う。
【0068】
また、「mode=delete」の場合(S709のNo)、制御部2は、減算処理をDB管理部6に行わせる(S711)、つまり制御部2およびDB管理部6は、更新前のDB内の統計情報から、当該目的言語文書の統計情報を差し引いて、相互情報量の再計算を行う。データベース更新後は、他の指示命令の待機状態に入る。
【0069】
このようにこの第1実施形態の機械翻訳システムによれば、原言語から目的言語への機械翻訳を行う上でユーザが自由に目的言語文書DBを構築することで、訳語学習の精度を向上させるものである。ユーザは、目的言語文書データベースを構築する際に、目的言語文書や目的言語文書DBにキーワードや自然言語文を自由に付与して記憶させることができる。
この機械翻訳システムでは、翻訳時に用いる目的言語文書DB8を指定するために検索部6aを設けており、この検索部6aを介してキーワードや自然言語文を使って、数あるDBの中から翻訳対象文書に適したDBを選択できる。
また、この機械翻訳システムでは、一旦、目的言語データや目的言語文書を登録して作成した目的言語文書DB8から、特定の目的言語文書を指定して、その内容分の統計情報を少なくとも含む情報をDBから減算するので、目的言語文書DB8を容易に減算更新することができる。減算する文書、データを指定するために、キーワードや自然言語文による検索部6aを設けたので、ユーザは、前に自然言語で登録した文を忘れていても、簡単な操作で、減算する目的言語文書、目的言語データを指定することができる。
また、一旦登録した内容を削除する際に、今後の登録への影響度を「強度」の形で指定できるようにすることで、一時的な削除だけでなく、今後の登録へ削除処理を波及させることができる。
さらに、実際の翻訳で訳語選択の副作用を見付けたときに、選択のキーとなった統計情報をクリアしてDB格納情報を最適化できる。
【0070】
続いて、本発明に係る第2の実施形態について説明する。
この第2の実施形態では、上記図7のステップS711の減算処理において、「強度」を指定する処理を追加する。ユーザが目的の文書の統計情報を削除する際に、下記(3)を指定した場合、DB管理部6は、該当する情報の「強度」の欄に強度情報として、以降、統計への加算を不可とするフラグ「1」を書き込む。
また、目的の文書の統計情報を削除する際に、(1),(2)を指定した場合、該当する下記(1),(2)の強さで頻度の情報を更新する。
なお、この強度の指定内容は、一例に過ぎず、この他、さまざまな選択肢の与え方を行ってもよい。例えば文書管理テーブル9に強度情報と選択肢を設定してもよい。
【0071】
(1)頻度は単純減算とする。
(2)頻度は0に初期化する。
(3)今後の更新処理で加算されないように頻度を0に固定する。
(1)の選択肢は、当該目的言語文書の統計情報を単純にマイナスする処理とする。
(2)の選択肢は、当該目的言語文書の分析で抽出された共起情報、単語に関する情報を全てクリアする処理とする。
(3)の選択肢は、今後の更新処理で再び加算されないように、共起情報、単語情報の強度の欄に加算不要フラグの「1」を設定し、加算不要フラグがセットされている共起情報、単語情報は、以降の「加算処理」では変更は行わないように制御部2によって制御される。
【0072】
また、強度を用いない方法としては、(3)の選択肢が選択され場合、単語情報の頻度を予約語(例えばNULL等)に置き換え固定するという方法もある。予約語は、予めプログラム上に記述あるいはメモリ上に記憶されているパラメータの一つである。
【0073】
つまり、この例の場合、制御部2およびDB管理部6等の減算手段は、目的の文書の統計情報を削除するにあたり、(1)あるいは(2)の強度条件が指定された場合、指定された強度条件に基づいて頻度情報を更新する。
【0074】
この第2実施形態の機械翻訳システムによれば、一旦文書を登録して作成した目的言語DB8に対して、保持されている統計情報を減算する操作が簡単にできる。
また、過去に登録した文書の名前と内容をDB毎にすべてユーザが記録しておかなくとも、システム側が自動的に管理し、検索機能を使って、所望の文書やDBを選び出すことができる。
さらに、減算の強度を指定することで、一時的な減算だけでなく、将来的な情報の固定も指定でき、特定分野の翻訳に望まない特定の統計情報が後の更新処理で再度登録されることを排除することができる。
目的言語文書DBを用いた翻訳結果から、訳語選択のキーとなったDBは同定できる。
【0075】
そこで、目的言語文書DB8による訳語選択によって優先度判定がなされた訳語をユーザに明示することで、その訳語がユーザの望むものではなかった場合には、そこからDB中の訳語選択に起因した統計情報を同定し、その統計情報に大きく影響した登録済み目的言語文書を提示して、減算処理の起動を指示できるような構成も可能である。
【0076】
続いて、本発明に係る第3の実施形態について説明する。
この第3の実施形態では、図1に示したような構成に、ユーザが特定の訳語を指定する訳語指定手段と、翻訳時にどの訳語がどの統計情報により選択されたかの情報を保持する統計情報同定手段とを追加する。
【0077】
この場合、訳語指定手段により指定された訳語が目的言語文書DB8中の統計情報をキーにして決定した訳語である場合に、統計情報同定手段は、統計情報中のどの情報がキーとなったかを同定する。
【0078】
統計情報が同定された状態で、ユーザが統計情報のクリアの指示操作を行い、この指示を制御部2が受け取ると、制御部2は、その指示内容をDB管理部6へ送る。DB管理部6は、目的文書DB生成部7を通じて当該目的言語文書DB8中の当該統計情報をクリアする。この際に、上記第2の実施形態の説明で述べたように「クリアの強度」を指定させるようにもできる。以下に強度の例を示す。
(1)当該統計情報を単純にクリアする。
(2)当該統計情報が後にも加算されないように頻度を0に固定する。
【0079】
この第3実施形態の機械翻訳システムによれば、翻訳結果に目的言語文書DB8中の統計情報の副作用による訳語選択が見られた場合に、当該統計情報を容易にクリアすることができ、目的言語文書DB8を最適化し易くなる。
【0080】
以上の実施形態は、機械翻訳システムとしての実施形態であるが、機械翻訳方法、機械翻訳プログラムとして実施するときにも必要構成要素とその機能は同様である。
【図面の簡単な説明】
【0081】
【図1】本発明に係る一つの実施の形態の機械翻訳システムの構成を示すブロック図。
【図2】目的言語文書データベースの記憶内容の一例を示す図。
【図3】文書管理テーブルの記憶内容の一例を示す図。
【図4】制御部による処理を示すフローチャート。
【図5】翻訳部による処理を示すフローチャート。
【図6】制御部によるデータベース指定処理を示すフローチャート。
【図7】目的言語データベース管理部のデータベース指定処理を示すフローチャート。
【符号の説明】
【0082】
1…入力部、2a…DB指定部、2…制御部、3…翻訳部、4…辞書部、4a…語彙部、4b…形態素解析規則、4c…構文・意味解析規則、4d…変換規則、4e…構文生成規則、4f…形態素生成規則、5…出力部、6…DB管理部、6a…検索部、7…目的言語文書DB生成部、8…目的言語文書DB、9…文書管理テーブル。

【特許請求の範囲】
【請求項1】
コンピュータに、
原言語から目的言語へ翻訳するために前記目的言語による少なくとも1つの目的言語文書に基づいて分野毎に構築されたデータベースの情報を削減するにあたり、入力されたキー情報に基づいて前記データベースに記憶されている削減対象の目的言語文書および/または作成済み目的言語データを指定する指定処理と、
指定された削減対象の目的言語文書および/または作成済み目的言語データが記憶されている該当データベースを文書管理テーブルを参照して特定する処理と、
特定された該当データベースの文書から目的言語文書の言語情報、統計情報分を差し引いて前記データベースを更新する更新処理と
を実行させるための機械翻訳プログラム。
【請求項2】
前記文書管理テーブルに管理されている、前記データベースと目的言語文書との対応関係を表示する処理を前記コンピュータに実行させることを特徴とする請求項1記載の機械翻訳プログラム。
【請求項3】
前記指定処理は、
前記キー情報として入力された自然言語文あるいはキーワードに基づいて前記データベースを検索し、削減対象となる目的言語文書のリストを表示し、そのリストの中から選択を促す処理を有することを特徴とする請求項1記載の機械翻訳プログラム。
【請求項4】
前記キー情報として入力された自然言語文あるいはキーワードに基づいてローカルマシンあるいはそれ以外の任意の場所から関連する目的言語文書を検索し、削減対象となる目的言語文書のリストを表示し、そのリストの中から選択を促す処理を有することを特徴とする請求項1に記載の機械翻訳プログラム。
【請求項5】
前記表示されたリストの中から選択された目的言語文書、あるいは目的言語文書とデータベースとの組を削減処理の情報とすることを特徴とする請求項3または4いずれか記載の機械翻訳プログラム。
【請求項6】
前記更新処理は、
前記文書管理テーブルに、言語情報、統計情報を減算する指標となる強度情報が設定されていた場合、前記強度情報に基づいて前記目的言語文書の言語情報、統計情報を減算または加算する処理を有することを特徴とする請求項1記載の機械翻訳プログラム。
【請求項7】
前記強度情報として、
前記文書管理テーブルの文字列に付されている統計情報を単純に減算する第1の選択肢、前記統計情報をゼロに初期化する第2の選択肢、今後の更新処理で加算されないように前記統計情報をゼロに固定する第3の選択肢のすくなくとも一つの選択肢を有することを特徴とする請求項6記載の機械翻訳プログラム。
【請求項8】
指定された特定の訳語に対して訳語選択のキーとなった前記データベース中の統計情報を同定する統計情報同定処理と、
同定された統計情報を削除する処理と
を前記コンピュータに実行させることを特徴とする請求項1記載の機械翻訳プログラム。
【請求項9】
原言語から目的言語へ翻訳するために前記目的言語による少なくとも1つの目的言語文書に基づいて分野毎に構築され、前記目的言語文書の言語情報、統計情報を保持するデータベースと、
前記データベースの情報を追加または削減するための動作モードの設定と、削減の対象となる目的言語文書あるいは目的言語データを指定するキー情報を入力する入力手段と、
削減モードにおいて、前記入力手段により入力されたキー情報に基づいて前記データベースに記憶されている削減対象の目的言語文書および/または作成済み目的言語データを指定する指定手段と、
作成済みの目的言語データが格納されたデータベース名と、前記データベースを作成する際に使用した文書名とその格納場所を記憶する文書管理テーブルと、
前記指定手段により指定された削減対象の目的言語文書および/または作成済み目的言語データが記憶されている該当データベースを前記文書管理テーブルを参照して特定し、該当データベースの目的言語文書の言語情報、統計情報分を該当データベースから差し引いて前記データベースを更新する手段と
を具備したことを特徴とする機械翻訳システム。
【請求項10】
原言語から目的言語へ翻訳するために前記目的言語による少なくとも1つの目的言語文書に基づいて分野毎に構築され、前記目的言語文書の言語情報、統計情報を保持するデータベースの情報を削減するにあたり、削減の対象となる目的言語文書あるいは目的言語データを指定するキー情報が入力された場合、入力されたキー情報に基づいて前記データベースに記憶されている削減対象の目的言語文書および/または作成済み目的言語データを指定するステップと、
指定された削減対象の目的言語文書および/または作成済み目的言語データが記憶されている該当データベースを文書管理テーブルを参照して特定するステップと、
特定されたデータベースの文書から目的言語文書の言語情報、統計情報分を差し引いて前記データベースを更新するステップと
を有することを特徴とする機械翻訳方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2006−31334(P2006−31334A)
【公開日】平成18年2月2日(2006.2.2)
【国際特許分類】
【出願番号】特願2004−208315(P2004−208315)
【出願日】平成16年7月15日(2004.7.15)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】