説明

対訳文対応付け装置

確定リンク編集部(42)は、ユーザにより指定される確定リンクを受け付ける。パラグラフ対応付け部(43)は、確定リンクに基づいて、英語文テキストおよび日本語文テキストをそれぞれ複数のパラグラフに分割する。セグメント対応付け計算部(44)は、パラグラフ毎に、英語セグメントと日本語セグメントとの対応付けを行う。対応関係編集部(45)は、セグメント対応付け計算部(44)により求められた対応関係をユーザに提示し、ユーザからの修正指示があれば、その指示に従って対応関係を編集する。

【発明の詳細な説明】
【技術分野】
本発明は、対訳文のそれぞれを構成する各セグメント同士を対応付ける方法に係わる。
【背景技術】
情報の国際化に伴って、ある言語(例えば、英語)で記述されている文書が他の言語(例えば、日本語)に翻訳されることが頻繁に行われている。ここで、このような環境下では、オリジナル文書とその翻訳文とを対比する必要性がしばしば発生する。このような必要性は、例えば、機械翻訳装置で作成された対訳文をチェックする場合、翻訳支援ツールを作成する際に必要な知識を対訳テキストから取得する場合、などにおいて発生する。そして、この場合、オリジナル文書および翻訳文書を構成する各セグメント同士の対応関係がわかると便利である。ここで、「セグメント」とは、特に限定されるものではないが、自然言語の対訳文においては、例えば、文書を構成する「文」「句」「単語」などを意味する。
このような要求に基づいて、公知の技術として、コンピュータを用いてオリジナル文書とその翻訳文書との対応関係をセグメント毎に自動的に検出し、その対応関係をグラフィカルに表示する方法が提案されている(例えば、特許文献1参照。)。
特許文献1:特開平9−179868号公報(すなわち、特許3311567号)の図6
また、そのような対応関係を検出して表示する製品も既に販売されている。この種の製品としては、例えば、TRADOS社(http://www.trados.com/)の「Translator’s Workbench」に付属している「Winalign」が知られている。
しかし、従来技術においては、対比すべき文書の情報量が大きくなるにつれて、セグメント同士の対応付けの精度が低くなっていた。また、オリジナル文書と翻訳文書との間で各文書を構成するパラグラフの順番が互いに異なっている場合も、セグメント同士の対応付けの精度が低くなっていた。さらに、オリジナル文書の中に存在するセグメントに対応するセグメントが翻訳文書の中には存在しない場合や、オリジナル文書には存在しないセグメントが翻訳文書に追加されている場合などには、その影響が広い範囲に及ぶことがあり、このことによってもセグメント同士の対応付けの精度が低くなっていた。
なお、上述した従来技術は、誤った対応関係が検出された場合に、ユーザにその誤った対応関係を修正させるためのインタフェースを備えている。しかし、セグメント同士の対応付けの精度が低いと、ユーザによる修正作業が多くなってしまう。
【発明の開示】
本発明の目的は、対訳文のそれぞれを構成する各セグメント同士を対応づける際に、その精度を向上させることである。
本発明の対訳文対応付け装置は、第1の言語により記述された第1のテキストを構成する複数のセグメントと第2の言語により記述された第2のテキストを構成する複数のセグメントとの間の対応付けを行う装置であって、上記第1のテキストを構成する複数のセグメントの中の一部のセグメントが上記第2のテキストを構成する複数のセグメントの中の一部のセグメントに対応していることを指示する対応関係情報をユーザから受け付ける受付手段と、上記受付手段が受け付けた対応関係情報に基づいて、上記第1のテキストを構成する複数のセグメントの中の他のセグメントと上記第2のテキストを構成する複数のセグメントの中の他のセグメントとの対応関係を検出する検出手段と、上記検出手段により検出された対応関係を表す情報を出力する出力手段、を有する。
この発明によれば、複数のセグメント間の対応関係を調べる際に、それらの中の一部のセグメントについてはユーザによって予め確定され、検出手段は、他の残りのセグメント間の対応関係を調べるだけでよい。したがって、セグメント同士の対応付けの精度が向上する。
本発明の対訳文対応付け装置は、上記受付手段が受け付けた対応関係情報に基づいて、上記第1のテキストおよび第2のテキストをそれぞれ複数のパラグラフに分割し、それら第1のテキストを構成する複数のパラグラフと第2のテキストを構成する複数のパラグラフの対応関係を検出するパラグラフ検出手段、をさらに有するようにしてもよい。この場合、上記検出手段は、パラグラフ毎に、上記第1のテキストを構成するセグメントと上記第2のテキストを構成するセグメントとの対応関係を検出する。
この発明によれば、対応関係情報に基づいて、パラグラフ間の対応関係が検出される。したがって、第1のテキストから第2のテキストを得る際にパラグラフの入換えがあった場合でも、セグメント間の対応付けを正しく行うことができる。また、パラグラフ毎にセグメント間の対応付けが行われるので、対比すべきセグメントの数が比較的少ないので、対応付けの精度が向上する。
なお、上記検出手段は、受付手段が受け付けた対応関係情報により指示されるセグメントからの距離に基づいて、第1のテキストを構成するセグメントと第2のテキストを構成するセグメントとの対応関係を検出するようにしてもよい。この場合、対応関係情報により表される対応関係が正しいものとすると、それに基づいて検出される他のセグメントについての対応関係の精度も高くなる。
また、本発明の対訳文対応付け装置は、さらに、ユーザに上記対応関係情報を入力させるための候補情報を提示する提示手段を有するようにしてもよい。この場合、ユーザが対応関係情報を指定する際の負担が軽くなる。
【図面の簡単な説明】
図1は、対訳文をセグメント毎に対応付ける処理の概略を説明するための図である。
図2は、本発明の実施形態の対訳文対応付け支援システムの構成図である。
図3は、確定リンクについて説明する図である。
図4は、パラグラフの対応付けについて説明する図である。
図5A〜図5Cは、パラグラフの対応関係の例を示す図である。
図6は、セグメント対応付け計算部による処理の結果を示す図である。
図7は、実施形態の対訳文対応付け支援システムの動作の流れを説明する図である。
図8は、確定リンク編集部の動作を示すフローチャートである。
図9は、パラグラフ対応付け部の動作を示すフローチャートである。
図10は、セグメント対応付け計算部の動作を示すフローチャートである。
図11は、セグメント間の対応関係を検出する処理の一例のフローチャートである。
図12は、対応関係編集部の動作を示すフローチャートである。
図13は、本発明の他の実施形態の対訳文対応付け支援システムの構成図である。
図14は、セグメント対応付け計算部の動作を説明する図である。
図15は、セグメント対応付け計算部の動作を示すフローチャートである。
図16は、本発明のさらに他の実施形態の対訳文対応付け支援システムの構成図である。
図17は、本発明のさらに他の実施形態の対訳文対応付け支援システムの構成図である。
図18Aおよび図18Bは、確定リンク候補計算部の動作を示すフローチャートである。
図19は、本発明の処理を記述したプログラムを実行するコンピュータの構成図である。
図20は、本発明に係わるソフトウェアプログラムの提供方法を説明する図である。
【発明を実施するための最良の形態】
以下、本発明の実施形態について説明する。
図1は、対訳文をセグメント毎に対応付ける処理の概略を説明するための図である。なお、図1は、ユーザに対して提供される画面の例であり、セグメント同士の対応関係がグラフィカルに表示されている。
図1に示す例では、英語で記述された文書(以下、英語文テキスト)が領域10に表示されており、日本語で記述された文書(以下、日本語文テキスト)が領域20に表示されている。また、英語文テキストおよび日本語文テキストは、それぞれ複数のセグメントから構成されている。すなわち、英語文テキストは、セグメント11〜14から構成されており、日本語文テキストは、セグメント21〜24から構成されている。なお、「セグメント」とは、ここでは、「文(sentence)」を意味するが、これに限定されるものではなく、自然言語の場合は、例えば、「単語」「句」「章」などであってもよい。また、文書をセグメント毎に分割する方法は、公知に技術により実現可能である。
図1に示す例では、領域20に表示される日本語文テキストは、領域10に表示されている英語文テキストを翻訳することにより得られた翻訳文である。ただし、セグメント21〜24は、必ずしも、セグメント11〜14を順番に翻訳することによって得られたものではない。例えば、セグメント13は、英語文テキストの中で第3番目に登場するが、セグメント13の翻訳文であるセグメント22は、日本語文テキストの中で第2番目に登場している。また、セグメント12を日本語に変換することによってセグメント23が得られているが、日本語文テキストの中には、セグメント23と類似するセグメント24が存在する。すなわち、日本語文テキストには、対応するセグメントが英語文テキストには存在しないセグメントが追加されている。なお、セグメント12を日本語に変換した結果、セグメント23およびセグメント24という2つのセグメントが得られた、という解釈も考えられる。即ち、1対2対応である。しかし、ここでは、前者の解釈で説明することにする。
対応付け処理においては、互いに対応するセグメントが検出され、その対応関係がグラフィカルに表示される。図1に示す例では、セグメント11とセグメント21とが互いに対応していることが検出され、それらを接続するリンク31が表示されている。同様に、セグメント13とセグメント22とを接続するリンク32が表示されている。他方、セグメント23およびセグメント24は互いに類似している。そして、セグメント12を翻訳した結果がセグメント23またはセグメント24のいずれであるのかを判断出来ないものとする。この場合、セグメント12とセグメント23とを接続するリンク33、およびセグメント12とセグメント24とを接続するリンク34が表示されることになる。
対応付け処理は、セグメント間を接続するリンクをユーザに追加/修正させるための手順を含むようにしてもよい。この場合、ユーザは、例えばマウス等を用いてリンクの追加/修正を行うことができる。図1に示す例では、ユーザは、例えば、リンク34を削除することができる。この結果、元文書と翻訳文書との対応関係がセグメント毎に得ることができる。
このように、対応付け処理では、元文書と翻訳文書との対応関係がセグメント毎に検出されて表示される。あるいは、元文書と翻訳文書との対応関係をセグメント毎に検出して表示するための支援が行われる。
ただし、従来の方法では、元文書と翻訳文書との間でセグメントの順番が入れ替わっていたり、一方の文書にはない文書が他方に存在していた場合などには、対応付けの精度が低下することがあった。そこで、本発明は、この問題を解決するための機能を提供する。
図2は、本発明の実施形態の対訳文対応付け支援システムの構成図である。ここで、対訳文対応付け支援システム40は、コンピュータを用いて所定のプログラムを実行することにより実現される。
テキスト入力部41は、英語文テキストファイル51および日本語文テキストファイル52を読み込む。なお、ここでは、英語文テキストおよび日本語文テキストは、それぞれ、予めセグメント毎に分割されて英語文テキストファイル51および日本語文テキストファイル52に格納されているものとする。ただし、テキスト入力部41が英語文テキストおよび日本語文テキストをそれぞれセグメント毎に分割する機能を備えるようにしてもよい。
確定リンク編集部42は、グラフィカルユーザインタフェース(GUI)55を介してユーザと対話をすることにより、ユーザが指定する確定リンクを確定リンク情報テーブルに登録する。ここで、「確定リンク」とは、この例では、英語文テキストの中のあるセグメントが日本語文テキストの中のあるセグメントに対応しているとユーザが認めた場合における、それらのセグメント間の対応関係を表すものである。
図3は、確定リンクについて説明する図である。ここでは、領域10に表示されている英語文テキストがセグメント11〜15を含んでおり、領域20に表示されている日本語文テキストがセグメント21〜25を含んでいるものとする。そして、セグメント番号「11」〜「15」は、英語文テキストを構成する各セグメントを識別する英語セグメントIDとして使用され、セグメント番号「21」〜「25」は、日本語文テキストを構成する各セグメントを識別する日本語セグメントIDとして使用される。なお、日本語文テキストは、英語文テキストの翻訳文であるが、セグメントの順番は互いに異なっている。
この状態において、ユーザは、セグメント11が確かにセグメント24に対応しており、セグメント13が確かにセグメント21に対応していると判断したものとする。この場合、ユーザは、マウス等を用いて、セグメント11とセグメント24とを接続するリンク、およびセグメント13とセグメント21とを接続するリンクを描画する。
確定リンク編集部42は、グラフィカルユーザインタフェース55を介してユーザの操作を認識すると、そのユーザにより指定された2本のリンクを「確定リンク61」及び「確定リンク62」として確定リンク情報テーブル101に登録する。具体的には、セグメント11を識別する英語セグメントID「ID=11」とセグメント24を識別する日本語セグメントID「ID=24」との組合せにより確定リンク61が登録され、セグメント13を識別する英語セグメントID「ID=13」とセグメント21を識別する日本語セグメントID「ID=21」との組合せにより確定リンク62が登録されている。
このように、確定リンク編集部42は、ユーザが指示する1または複数の確定リンクを表す対応関係情報を受け付け、それらの確定リンクを確定リンク情報テーブル101に登録する。
パラグラフ対応付け部43は、ユーザにより指定された確定リンクに基づいて、英語文テキストおよび日本語文テキストをそれぞれ複数のパラグラフに分割する。そして、英語文テキストのパラグラフと日本語文テキストのパラグラフとの対応付けを行う。このとき、パラグラフ対応付け部43は、予め用意されているパラグラフ対応付けルール53に従って、分割処理および対応付け処理を行う。
図4は、パラグラフの対応付けについて説明する図である。ここでは、図3を参照しながら説明した手順により、確定リンク61、62が登録されているものとする。
パラグラフ対応付け部43は、まず、確定リンクを利用して英語文テキストおよび日本語文テキストをそれぞれ分割する。例えば、英語文テキストにおいては、セグメント11に確定リンク61が接続されており、セグメント13に確定リンク62が接続されている。この場合、セグメント11を含むパラグラフとして、確定リンク61が接続されているセグメント11から次の確定リンクである確定リンク62が接続されているセグメント13までの間に位置するセグメントが抽出される。この結果、セグメント11、12が、ある1つのパラグラフに属するセグメントとして抽出される。同様に、セグメント13〜15が、他の1つのパラグラフに属するセグメントとして抽出される。また、日本語文テキストにおいては、セグメント21〜23がある1つのパラグラフに属するセグメントとして抽出されると共に、セグメント24、25が他の1つのパラグラフに属するセグメントとして抽出される。そして、これらの抽出結果は、パラグラフ情報テーブル102に登録される。
続いて、パラグラフ対応付け部43は、パラグラフ間の対応関係を検出する。具体的には、確定リンクにより互いに接続されているパラグラフ同士を対応付ける。図4に示す例では、セグメント11およびセグメント24が確定リンク61により互いに接続されているので、この場合、セグメント11を含むパラグラフとセグメント24を含むパラグラフとが対応付けられる。同様に、セグメント13を含むパラグラフとセグメント21を含むパラグラフとが対応付けられる。そして、この結果は、英語パラグラフIDおよび日本語パラグラフIDを利用して、パラグラフ対応関係テーブル103に登録される。
このように、パラグラフ対応付け部43は、ユーザにより指定された確定リンクに基づいて、各テキストを複数のパラグラフに分割し、それらのパラグラフ間の対応付けを行う。
なお、各確定リンクは、基本的には、それぞれ、英語文テキストの中のある1つのセグメントと日本語文テキストの中のある1つのセグメントとを接続する。このため、翻訳に際してセグメントの順番が入れ替わってないものとすると、パラグラフの対応関係は図5Aに示すようになる。また、翻訳に際してセグメントの順番が入れ替わっているものとすると、パラグラフの対応関係は図5Bに示すようになる。
しかし、何らかの理由により、ある1つのセグメントが複数の確定リンクによって複数のセグメントに接続されていた場合には、図5Cに示すように、1つのパラグラフが複数のパラグラフに対応付けられてしまう。すなわち、図5Cでは、パラグラフAが、パラグラフaおよびパラグラフxの双方に対応付けられてしまう。この場合、パラグラフ対応付け部43は、例えば、それら複数のパラグラフの中からテキスト内で最も先に登場するパラグラフを選択する。この結果、図5Cに示す例では、パラグラフAは、パラグラフaに対応付けられることになる。
セグメント対応付け計算部44は、パラグラフ対応付け部43により作成されたパラグラフ間の対応関係を利用して、英語文テキストを構成する複数のセグメントと日本語文テキストを構成する複数のセグメントとの対応付けを行う。すなわち、パラグラフ毎に、セグメント間の対応付けが行われる。なお、対訳文の各セグメントの対応付け方法は、特に限定されるものではないが、例えば、”A Program for Aligning Sentences in Bilingual Corpora”(Gale & Church 1993)が有名である。ちなみに、この論文は、下記のサイトから入手することができる。
http://citeseer.nj.nec.com/gale93program.html
セグメント対応付け計算部44の動作の例を示す。なお、ここでは、ユーザによって図3に示す確定リンク61、62が指定され、その後、パラグラフ対応付け部43により図4に示すパラグラフ情報テーブル102およびパラグラフ対応関係テーブル103が登録されているものとする。
この場合、セグメント対応付け計算部44は、例えば、まず、英語パラグラフ1に属する各セグメントについて対応付けを行う。ここで、英語パラグラフ1は、日本語パラグラフ2に対応している。したがって、英語パラグラフ1に属するセグメント11、12と、日本語パラグラフ2に属するセグメント24、25との対応関係が調べられる。
セグメント11は、確定リンク61によってセグメント24に接続されている。このため、セグメント11は、セグメント24に対応付けられる。また、セグメント12は、日本語パラグラフ2に属するセグメントの中で、セグメント24以外のセグメントに対応付けられる。この結果、セグメント12は、セグメント25に対応付けられる。
続いて、セグメント対応付け計算部44は、英語パラグラフ2に属する各セグメントについて対応付けを行う。ここで、英語パラグラフ2は、日本語パラグラフ1に対応している。したがって、英語パラグラフ2に属するセグメント13〜15と、日本語パラグラフ1に属するセグメント21〜23との対応関係が調べられる。
セグメント13は、確定リンク62によってセグメント21に接続されている。このため、セグメント13は、セグメント21に対応付けられる。また、セグメント14、15は、日本語パラグラフ1に属するセグメントの中で、セグメント21以外のセグメント(すなわち、セグメント22、23)に対応付けられる。このとき、セグメント14、15と、セグメント22、23との対応関係は、例えば、上述のGale & Churchの方法により求められる。そして、ここでは、セグメント14および15が、それぞれ、セグメント22および23に対応付けられたものとする。
この結果、英語文テキストに含まれるセグメント11、12、13、14、15は、それぞれ、日本語文テキストに含まれるセグメント24、25、21、22、23に対応付けられることになる。
図6は、セグメント対応付け計算部44による処理の結果を示す図である。セグメント対応付け計算部44により得られたセグメント間の対応関係は、リンク情報テーブル104に登録される。このとき、リンク情報テーブル104には、ユーザにより指定された確定リンクもいっしょに登録される。また、これらのセグメント間の対応関係は、対応関係編集部45によりグラフィカルユーザインタフェース55を介して表示される。
対応関係編集部45は、セグメント対応付け計算部44により得られたセグメント間の対応関係を表示すると共に、ユーザからの指示に従ってその対応関係を編集する。ここで、「ユーザからの指示」は、セグメント間を接続するリンクを追加、削除、変更する旨の指示を含む。また、「対応関係の編集」は、ユーザからの指示に従って図6に示すリンク情報テーブル104を更新する処理、および更新されたリンク情報テーブル104に従ってリンクを描画する処理を含む。なお、ユーザは、マウス等を利用してリンクの追加、削除、変更の指示を入力する。
対応関係出力部46は、セグメント対応付け計算部44により得られたセグメント間の対応関係を表す情報(対応関係編集部45によって編集された場合は、編集後の対応関係を表す情報)を、対応関係ファイル54に出力する。なお、ファイルの形式は特に限定されるものではない。
図7は、実施形態の対訳文対応付け支援システムの動作の流れを説明する図である。対訳文対応付け支援システムは、下記の手順でセグメント毎の対応付けを行う。
まず、確定リンク編集部42は、ユーザに対して、グラフィカルユーザインタフェース55を介して確定リンクを指定させるためのフォームを提示する。これに対してユーザが確定リンクを指定すると、確定リンク編集部42は、その指定された確定リンクを確定リンク情報テーブル101に登録する。
次に、パラグラフ対応付け部43は、ユーザにより指定された確定リンクに基づいて、英語文テキストおよび日本語文テキストをそれぞれ複数のパラグラフに分割する。そして、パラグラフ毎に、そのパラグラフに属するセグメントを検出し、それらの対応関係をパラグラフ情報テーブル102に登録する。
また、パラグラフ対応付け部43は、ユーザにより指定された確定リンクを利用して、複数の英語パラグラフおよび複数の日本語パラグラフの間の対応関係を検出する。そして、それらの対応関係をパラグラフ対応関係テーブル103に登録する。
続いて、セグメント対応付け計算部44は、パラグラフ対応関係テーブル103を参照し、パラグラフ毎にセグメントの対応付けを行う。そして、セグメント間の対応関係は、リンク情報テーブル104に登録される。
この後、対応関係編集部45は、セグメント対応付け計算部44により検出されたセグメント間の対応関係を、グラフィカルユーザインタフェース55を介してユーザに提示する。このとき、ユーザがセグメント間を接続するリンクの追加、削除、変更を指示したときは、対応関係編集部45は、その指示に従ってリンク情報テーブル104を更新する。そして、このリンク情報テーブル104の内容が、対応関係ファイル54に出力される。
このように、実施形態の対訳文対応付け支援システムにおいては、ユーザに確定リンクを指定させ、その確定リンクを利用してセグメント間の対応付けが行われる。従って、セグメント間の対応付けの精度が向上する。また、ユーザにより指定された確定リンクに基づいて各テキストが複数のパラグラフに分割され、その確定リンクを利用してそれら複数のパラグラフ間の対応付けが行われた後に、パラグラフ毎にセグメント間の対応付けが行われる。従って、元文書から翻訳文書を作成する際にパラグラフ単位で順序の入換えがあった場合でも、元文書に含まれている各セグメントを正確に翻訳文書に含まれている各セグメントに対応付けることができる。
次に、実施形態の対訳文対応付け支援システムの動作をフローチャートを参照しながら説明する。
図8は、確定リンク編集部42の動作を示すフローチャートである。ここでは、ユーザが、グラフィカルユーザインタフェース55を利用して新たな確定リンクを指定したときの処理を示す。なお、ユーザは、グラフィカルユーザインタフェース上でマウスを用いてある英語セグメントからある日本語セグメントへの「線」を描くことにより確定リンクを指定するものとする。
ステップS1では、マウスポインタが指し示す英語セグメントを検出する。ステップS2では、マウスによるドラッグ操作を検出する。即ち、マウスの左ボタンが押圧された状態でマウスカーソルが移動していることを検出する。ステップS3では、マウスポインタが指し示す日本語セグメントを検出する。ステップS4では、マウスの左ボタンがリリースされたことを検出する。
ステップS5では、ユーザにより指示された確定リンクを登録する。具体的には、ステップS1で検出した英語セグメントおよびステップS3で検出した日本語セグメントを確定リンク情報テーブル101に登録する。
なお、ユーザが確定リンクを削除したときの動作を示すフローチャートは省略するが、ユーザの指示に従って確定リンク情報テーブル101から対応するレコードが削除される。
図9は、パラグラフ対応付け部43の動作を示すフローチャートである。なお、この処理は、ユーザが確定リンクを指定した後に実行される。
ステップS11では、確定リンク情報テーブル101から確定リンク情報を取得する。すなわち、ユーザにより指定された確定リンクを認識する。ステップS12では、確定リンクに基づいて、英語文テキストおよび日本語文テキストをそれぞれ複数のパラグラフに分割する。そして、これらのパラグラフは、パラグラフ情報テーブル102に登録される。なお、各テキストをパラグラフ毎に分割する方法は、例えば、図4を参照しながら説明した手順により実現される。
ステップS13では、パラグラフ対応付けルール53に従って、複数の英語パラグラフと複数の日本語パラグラフとの対応付けを行う。なお、パラグラフ対応付けルール53としては、例えば、図4を参照しながら説明したように、確定リンクを利用してパラグラフ間の対応付けを行う手順を想定する。
図10は、セグメント対応付け計算部44の動作を示すフローチャートである。なお、この処理は、パラグラフ対応付け部43によるパラグラフ間の対応付けが終了した後に実行される。
ステップS21では、パラグラフ情報テーブル102から英語パラグラフを1つ選択する。ステップS22では、パラグラフ対応関係テーブル103を参照し、ステップS21で選択した英語パラグラフに対応する日本語パラグラフを選択する。ステップS23では、ステップS21およびS22で選択したパラグラフに属するセグメントを読み込む。そして、ステップS24において、ステップS23で読み込んだセグメント間の対応関係を検出する。
ステップS25では、選択されていない英語パラグラフが残っているか否かを調べる。そして、選択されてないパラグラフが残っていた場合には、ステップS26において、それらの中から英語パラグラフを1つ選択してステップS22に戻る。そして、すべての英語パラグラフが選択された時点で処理を終了する。
図11は、セグメント間の対応関係を検出する処理の一例のフローチャートである。なお、このフローチャートの処理は、図10のステップS24の処理に相当する。すなわち、このフローチャートの処理は、パラグラフ毎に実行される。
ステップS31では、選択された英語パラグラフに属する各セグメントのセグメント長、および対応する日本語パラグラフに属する各セグメントのセグメント長を個々に調べる。なお、セグメント長は、例えば、単語数または文字数により検出する。ステップS32では、英語パラグラフおよび日本語パラグラフから、それぞれ、最もセグメント長の長いセグメントを取り出し、それらを互いに対応する1組のセグメント対としてリンク情報テーブル104に登録する。
ステップS33では、いずれか一方の言語のパラグラフにおいてセグメントが無くなるまで、ステップS32の処理を繰り返し実行する。すなわち、英語パラグラフおよび日本語パラグラフから、それぞれ、セグメント長の長いものから順番にセグメントを抽出し、それらを互いに対応するセグメント対としてリンク情報テーブル104に登録していく。
これにより、パラグラフ毎に、セグメント間の対応関係がリンク情報テーブル104に登録される。したがって、各パラグラフについて同様の処理を実行することにより、与えられたテキストの全範囲に渡って、セグメント間の対応関係がリンク情報テーブル104に登録されることになる。
図12は、対応関係編集部45の動作を示すフローチャートである。なお、この処理は、セグメント対応付け計算部44によりセグメント間の対応関係がリンク情報テーブル104に登録された後に実行される。
ステップS41では、リンク情報テーブル104に登録されている対応関係を描画する。すなわち、セグメント間を接続するリンクを描画する。そして、以降、グラフィカルユーザインタフェース55を介して入力されるユーザの指示を待つ。
ステップS42において、リンクを削除する旨の指示を検出したときは、ステップS43において、そのリンクによって表される対応関係をリンク情報テーブル104から削除する。また、ステップS44において、リンクを追加する旨の指示を検出したときは、ステップS45において、そのリンクによって表される対応関係をリンク情報テーブル104に追加する。ステップS46において、リンクを変更する旨の指示を検出したときは、ステップS47において、その指示に従ってリンク情報テーブル104の内容を更新する。
なお、これらのリンクを削除、追加、変更する際のユーザの操作は、基本的に、確定リンクを削除、追加、変更する際の操作と同じである。そして、例えば、ユーザがリンクを追加した際の対応関係編集部45の動作は、基本的に、図8に示した確定リンク編集部42の動作と同じである。ただし、確定リンク編集部42は、ユーザにより指定された確定リンクを確定リンク情報テーブル101に登録するが、対応関係編集部45は、ユーザにより指定されたリンクをリンク情報テーブル104に登録する。
そして、ステップS43、45または47の処理によりリンク情報テーブル104が更新されると、ステップS41に戻り、グラフィカルユーザインタフェース55を介してその更新されたリンク情報テーブル104の内容を描画する。
図13は、本発明の他の実施形態の対訳文対応付け支援システムの構成図である。図13に示す対訳文対応付け支援システム70の基本構成は、図2に示した対訳文対応付け支援システム40と同じである。ただし、対訳文対応付け支援システム40は、パラグラフ対応付け部43を備え、セグメント対応付け計算部44は、パラグラフ毎にセグメント間の対応関係を検出する。これに対して、対訳文対応付け支援システム70は、パラグラフ対応付け部43を備えておらず、セグメント対応付け計算部71は、パラグラフを考慮することなくセグメント間の対応関係を検出する。
図14は、セグメント対応付け計算部71の動作を説明する図である。ここでは、ユーザにより、セグメント13とセグメント22とを接続する確定リンクが指定されているものとする。また、公知の技術により、セグメント12を翻訳することにより得られるセグメントの候補として、セグメント21およびセグメント24が求められているものとする。そして、この結果、2本の候補リンク73、74が生成されているものとする。
この場合、セグメント対応付け計算部71は、確定リンクから各候補リンクまで距離に基づいて、より確からしいリンクを決定する。ここで、「距離」は、例えば、セグメント間の行数により求められる。例えば、確定リンク72と候補リンク73との間の距離は、英語文テキストにおいてはセグメント13とセグメント12との間の距離が「1」であり、日本語文テキストにおいてはセグメント22とセグメント21との間の距離が「1」であるので、その合計値は「2」である。一方、確定リンク72と候補リンク74との間の距離は、英語文テキストにおいてはセグメント13とセグメント12との間の距離が「1」であり、日本語文テキストにおいてはセグメント22とセグメント24との間の距離が「2」であるので、その合計値は「3」である。そして、この場合は、候補リンク74よりも候補リンク73の方が確定リンク72に近いので、候補リンク73がより確からしいリンクとして選択される。すなわち、セグメント12は、セグメント21に対応付けられる。
セグメント対応付け計算部71は、上述のようにしてセグメント間の対応関係を検出すると、それらをリンク情報テーブル104に登録する。
図15は、セグメント対応付け計算部71の動作を示すフローチャートである。なお、このフローチャートの処理は、ある1つのセグメントに対して複数の候補リンクが生成された場合に実行される。また、この処理は、複数の候補リンクが生成されているセグメント毎に実行される。
ステップS51では、競合している候補リンクのそれぞれについて、確定リンクとの距離を算出する。ステップS52では、算出した距離に基づいて、各候補リンクの確信度を求める。ここでは、確定リンクとの距離が小さいほど、確信度が高いものとみなされる。ステップS53では、競合する候補リンクの中から最も確信度の高いリンクが選択される。そして、ステップS53において選択されたリンクが、リンク情報テーブル104に登録される。
このように、図13に示す対訳文対応付け支援システム70によれば、ある1つの英語セグメントに対応する日本語セグメントとして複数の候補が存在する場合には、その英語セグメントとそれらの日本語セグメントをそれぞれ接続する複数の候補リンクが生成され、ユーザにより指定された確定リンクと各候補リンクとの間の距離に基づいて、最も確からしい候補リンクが選択される。そして、その選択された候補リンクに従ってセグメント間の対応付けが行われる。したがって、確定リンクによる対応関係が正しいものとすると、セグメント間の対応付けの精度が向上する。
図16は、本発明のさらに他の実施形態の対訳文対応付け支援システムの構成図である。図16に示す対訳文対応付け支援システム80の基本構成は、図2に示した対訳文対応付け支援システム40と同じである。ただし、対訳文対応付け支援システム80は、確定リンク候補計算部81を備え、ユーザに対して確定リンクの候補を提示することができる。そして、ユーザは、確定リンク候補計算部81により提示された確定リンク候補を参考にしながら、確定リンクを指定することができる。なお、ユーザによって確定リンクが指定された後の処理は、基本的に、図2に示した対訳文対応付け支援システム40と同じである。
図17は、本発明のさらに他の実施形態の対訳文対応付け支援システムの構成図である。図17に示す対訳文対応付け支援システム90の基本構成は、図13に示した対訳文対応付け支援システム70と同じである。ただし、対訳文対応付け支援システム90は、図16に示す対訳文対応付け支援システム80と同様に、確定リンク候補計算部81を備え、ユーザに対して確定リンクの候補を提示することができる。
図18Aは、確定リンク候補計算部81の動作を示すフローチャートである。なお、確定リンク候補計算部81は、テキスト入力部41により英語文テキストファイル51および日本語文テキストファイル52が読み込まれたときに起動される。
ステップS61では、英語文テキストに含まれている各セグメント、および日本語文テキストに含まれている各セグメントを読み込む。ステップS62では、セグメント同士の対応関係を計算し、1または複数の確定リンク候補を決定する。そして、ステップS63において、確定リンク候補を出力する。なお、決定された確定リンク候補は、確定リンク編集部42によりグラフィカルユーザインタフェース55を介してユーザに提示される。
図18Bは、確定リンク候補を求める処理の一例を示すフローチャートである。なお、この処理は、図18AのステップS62の処理に相当する。
ステップS71では、英語文テキストを構成する各セグメントおよび日本語文テキストを構成する各セグメントについて、それぞれ、セグメント長を求める。なお、セグメント長は、例えば、各セグメントに含まれる単語の数または文字の数により検出する。
ステップS72では、まず、英語文テキストおよび日本語文テキストから1つずつセグメントを選択する。続いて、英語文テキストから選択したセグメントのセグメント長と日本語文テキストから選択したセグメントのセグメント長との「比」を算出する。そして、その「比」に基づいて、上記日本語セグメントが上記英語セグメントの翻訳文であることについての確信度を計算する。なお、自然言語の翻訳においては、元セグメントのセグメント長と翻訳セグメントのセグメント長の比は、概ね一定の値になるものと推測される。従って、ステップS72では、上述のようにして算出したセグメント長の比が、英語/日本語間の翻訳において推測されるセグメント長の比に近いか否かによって、確信度が求められる。
ステップS73では、ステップS72で求めた確信度が予め決められた閾値よりも高かった場合に、それら1組のセグメントを確定リンク情報テーブル101に書き込む。すなわち、それら1組のセグメントを接続するリンクを、確定リンク候補として確定リンク情報テーブル101に登録する。そして、ステップS74により、上記ステップS72およびS73の処理が各セグメントの組合せに対して実行される。
このように、確定リンク候補計算部81は、互いに対応していることについての確信度の高いセグメント間を接続するリンクを確定リンク候補としてユーザに提示する。そして、ユーザは、その確定リンク候補を参照して確定リンクを指定することができる。したがって、確定リンクを指定する際のユーザの負担が軽くなる。
なお、確定リンク候補を決定する方法は、図18Bを参照しながら説明した方法に限定されるものではない。すなわち、例えば、英語文テキストに含まれる各セグメントのセグメント長の分布と、日本語文テキストに含まれる各セグメントのセグメント長の分布とを比較し、その比較結果に基づいて確定リンク候補を求めるようにしてもよい。あるいは、英語文テキストおよび日本語文テキストを相互に変換するための翻訳辞書を用意しておき、英語セグメントと日本語セグメントとを比較する際にその翻訳辞書を参照して確定リンク候補を決定するようにしてもよい。
また、上述の実施例では、確定リンク候補計算部81がユーザに対して確定リンク候補を提示し、ユーザがその提示された候補を参照して確定リンクを指定するようになっているが、本発明はこれに限定されるものではない。すなわち、確定リンク候補計算部81が決定した確定リンク候補の確信度が高い場合は、ユーザの判断を受けることなく、その確定リンク候補をそのまま確定リンクとして使用するようにしてもよい。
本発明の実施形態の対訳文対応付け支援システムの具体的な一利用形態としては、例えば、文書の途中に登場する「章タイトル」などの対応関係が明確なセグメントのみについてユーザが確定リンクを指定し、対訳文対応付け支援システムがそれらの確定リンクに基づいて他のセグメント間の対応付けを行う手法が考えられる。
図19は、上述したフローチャートの処理を記述したプログラムを実行するコンピュータの構成図である。
CPU201は、上述のフローチャートに示した処理を記述したプログラムを記憶装置202からメモリ203にロードして実行する。記憶装置202は、例えばハードディスクであり、上記プログラムを格納する。なお、記憶装置202は、コンピュータ200に接続される外部記憶装置であってもよい。メモリ203は、例えば半導体メモリであり、CPU201の作業領域として使用される。
記録媒体ドライバ204は、CPU201の指示に従って可搬性記録媒体205にアクセスする。可搬性記録媒体205は、例えば、半導体デバイス(PCカード等)、磁気的作用により情報が入出力される媒体(フレキシブルディスク、磁気テープ等)、光学的作用により情報が入出力される媒体(光ディスク等)を含むものとする。通信制御装置206は、CPU201の指示に従って、ネットワークを介してデータを送受信する。
入力装置207は、例えば、キーボードおよびマウス等である。ユーザは、この入力装置207を利用して確定リンクを指定し、また、リンクの追加、削除、変更を行う。出力装置208は、表示装置であって、セグメント間の対応関係を表示する。
図20は、本発明に係わるソフトウェアプログラムの提供方法を説明する図である。本発明に係わるプログラムは、例えば、以下の3つの方法のなかの任意の方法で提供される。
(a)コンピュータにインストールされて提供される。この場合、プログラムは、例えば、コンピュータ200の出荷前にそのコンピュータ200にプレインストールされる。
(b)可搬性記録媒体に格納されて提供される。この場合、可搬性記録媒体205に格納されるプログラムは、基本的に、記録媒体ドライバ204を介して記憶装置202にインストールされる。
(c)ネットワーク上に設けられているプログラムサーバから提供される。この場合、コンピュータ200は、プログラムサーバからダウンロードすることにより対応するプログラムを取得する。あるいは、サーバ装置においてそのプログラムが実行され、コンピュータ200は、そのプログラムに対応する機能の提供を受けるようにしてもよい。
なお、上述の実施例では、自然言語で記述された元文書とその翻訳文書との対応関係について記載したが、本発明はこれに限定されるものではない。すなわち、本発明は、自然言語で記述された文書に限定されるものではなく、例えば、コンピュータ言語間の対応関係に適用することもできる。また、第1の言語で記述された文書と第2の言語で記述された文書との対応付けに限定されるものでもなく、例えば、人と人以外の生物のDNAを比較する際にも適用可能である。
【図1】

【図2】

【図3】

【図4】


【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【図15】

【図16】

【図17】


【図19】

【図20】


【特許請求の範囲】
【請求項1】
第1の言語により記述された第1のテキストを構成する複数のセグメントと第2の言語により記述された第2のテキストを構成する複数のセグメントとの間の対応付けを行う装置であって、
上記第1のテキストを構成する複数のセグメントの中の一部のセグメントが上記第2のテキストを構成する複数のセグメントの中の一部のセグメントに対応していることを指示する対応関係情報をユーザから受け付ける受付手段と、
上記受付手段が受け付けた対応関係情報に基づいて、上記第1のテキストを構成する複数のセグメントの中の他のセグメントと上記第2のテキストを構成する複数のセグメントの中の他のセグメントとの対応関係を検出する検出手段と、
上記検出手段により検出された対応関係を表す情報を出力する出力手段、
を有する対訳文対応付け装置。
【請求項2】
請求項1に記載の対訳文対応付け装置であって、
上記受付手段が受け付けた対応関係情報に基づいて、上記第1のテキストおよび第2のテキストをそれぞれ複数のパラグラフに分割し、それら第1のテキストを構成する複数のパラグラフと第2のテキストを構成する複数のパラグラフの対応関係を検出するパラグラフ検出手段、
をさらに有する。
【請求項3】
請求項2に記載の対訳文対応付け装置であって、
上記検出手段は、パラグラフ毎に、上記第1のテキストを構成するセグメントと上記第2のテキストを構成するセグメントとの対応関係を検出する。
【請求項4】
請求項1に記載の対訳文対応付け装置であって、
上記検出手段は、上記受付手段が受け付けた対応関係情報により指示されるセグメントからの距離に基づいて、上記第1のテキストを構成するセグメントと上記第2のテキストを構成するセグメントとの対応関係を検出する。
【請求項5】
請求項1に記載の対訳文対応付け装置であって、
上記ユーザに上記対応関係情報を入力させるための候補情報を提示する提示手段、
をさらに有する。
【請求項6】
第1の言語により記述された第1のテキストを構成する複数のセグメントと第2の言語により記述された第2のテキストを構成する複数のセグメントとの間の対応付けを行う装置であって、
上記第1のテキストを構成する複数のセグメントの中の一部のセグメントが上記第2のテキストを構成する複数のセグメントの中の一部のセグメントに対応していることを指示する対応関係情報を生成する生成手段と、
上記生成手段により生成された対応関係情報に基づいて、上記第1のテキストを構成する複数のセグメントの中の他のセグメントと上記第2のテキストを構成する複数のセグメントの中の他のセグメントとの対応関係を検出する検出手段と、
上記検出手段により検出された対応関係を表す情報を出力する出力手段、
を有する対訳文対応付け装置。
【請求項7】
請求項6に記載の対訳文対応付け装置であって、
上記生成手段により生成された対応関係情報をユーザに修正させる修正手段をさらに有し、
上記検出手段は、上記ユーザにより修正された対応関係情報に基づいて、上記第1のテキストを構成する複数のセグメントの中の他のセグメントと上記第2のテキストを構成する複数のセグメントの中の他のセグメントとの対応関係を検出する。
【請求項8】
第1の言語により記述された第1のテキストを構成する複数のセグメントと第2の言語により記述された第2のテキストを構成する複数のセグメントとの間の対応付けを行うプログラムであって、
コンピュータにより実行されたときに、
上記第1のテキストを構成する複数のセグメントの中の一部のセグメントが上記第2のテキストを構成する複数のセグメントの中の一部のセグメントに対応していることを指示する対応関係情報をユーザから受け付ける受付手段と、
上記受付手段が受け付けた対応関係情報に基づいて、上記第1のテキストを構成する複数のセグメントの中の他のセグメントと上記第2のテキストを構成する複数のセグメントの中の他のセグメントとの対応関係を検出する検出手段と、
上記検出手段により検出された対応関係を表す情報を出力する出力手段、
を提供する対訳文対応付けプログラム。
【請求項9】
請求項8に記載の対訳文対応付けプログラムであって、
上記受付手段が受け付けた対応関係情報に基づいて、上記第1のテキストおよび第2のテキストをそれぞれ複数のパラグラフに分割し、それら第1のテキストを構成する複数のパラグラフと第2のテキストを構成する複数のパラグラフの対応関係を検出するパラグラフ検出手段、
をさらに提供する。
【請求項10】
請求項9に記載の対訳文対応付けプログラムであって、
上記検出手段は、パラグラフ毎に、上記第1のテキストを構成するセグメントと上記第2のテキストを構成するセグメントとの対応関係を検出する。
【請求項11】
請求項8に記載の対訳文対応付けプログラムであって、
上記検出手段は、上記受付手段が受け付けた対応関係情報により指示されるセグメントからの距離に基づいて、上記第1のテキストを構成するセグメントと上記第2のテキストを構成するセグメントとの対応関係を検出する。
【請求項12】
請求項8に記載の対訳文対応付けプログラムであって、
上記ユーザに上記対応関係情報を入力させるための候補情報を提示する提示手段、
をさらに提供する。
【請求項13】
第1の言語により記述された第1のテキストを構成する複数のセグメントと第2の言語により記述された第2のテキストを構成する複数のセグメントとの間の対応付けを行うプログラムであって、
コンピュータにより実行されたときに、
上記第1のテキストを構成する複数のセグメントの中の一部のセグメントが上記第2のテキストを構成する複数のセグメントの中の一部のセグメントに対応していることを指示する対応関係情報を生成する生成手段と、
上記生成手段により生成された対応関係情報に基づいて、上記第1のテキストを構成する複数のセグメントの中の他のセグメントと上記第2のテキストを構成する複数のセグメントの中の他のセグメントとの対応関係を検出する検出手段と、
上記検出手段により検出された対応関係を表す情報を出力する出力手段、
を提供する対訳文対応付けプログラム。
【請求項14】
請求項13に記載の対訳文対応付けプログラムであって、
上記生成手段により生成された対応関係情報をユーザに修正させる修正手段をさらに提供し、
上記検出手段は、上記ユーザにより修正された対応関係情報に基づいて、上記第1のテキストを構成する複数のセグメントの中の他のセグメントと上記第2のテキストを構成する複数のセグメントの中の他のセグメントとの対応関係を検出する。
【請求項15】
第1の情報を構成する複数のセグメントと上記第1の情報に対応する第2の情報を構成する複数のセグメントとの間の対応付けを行うプログラムであって、
コンピュータにより実行されたときに、
上記第1の情報を構成する複数のセグメントの中の一部のセグメントが上記第2の情報を構成する複数のセグメントの中の一部のセグメントに対応していることを指示する対応関係情報をユーザから受け付ける受付手段と、
上記受付手段が受け付けた対応関係情報に基づいて、上記第1の情報を構成する複数のセグメントの中の他のセグメントと上記第2の情報を構成する複数のセグメントの中の他のセグメントとの対応関係を検出する検出手段と、
上記検出手段により検出された対応関係を表す情報を出力する出力手段、
を提供する対訳文対応付けプログラム。
【請求項16】
第1の言語により記述された第1のテキストを構成する複数のセグメントと第2の言語により記述された第2のテキストを構成する複数のセグメントとの間の対応付けを行う方法であって、
上記第1のテキストを構成する複数のセグメントの中の一部のセグメントが上記第2のテキストを構成する複数のセグメントの中の一部のセグメントに対応していることを指示する対応関係情報をユーザから受け付け、
上記受付手段が受け付けた対応関係情報に基づいて、上記第1のテキストを構成する複数のセグメントの中の他のセグメントと上記第2のテキストを構成する複数のセグメントの中の他のセグメントとの対応関係を検出し、
上記検出手段により検出された対応関係を表す情報を出力する、
対訳文対応付け方法。
【請求項17】
第1の言語により記述された第1のテキストを構成する複数のセグメントと第2の言語により記述された第2のテキストを構成する複数のセグメントとの間の対応付けを行う方法であって、
上記第1のテキストを構成する複数のセグメントの中の一部のセグメントが上記第2のテキストを構成する複数のセグメントの中の一部のセグメントに対応していることを指示する対応関係情報を生成し、
上記生成手段により生成された対応関係情報に基づいて、上記第1のテキストを構成する複数のセグメントの中の他のセグメントと上記第2のテキストを構成する複数のセグメントの中の他のセグメントとの対応関係を検出し、
上記検出手段により検出された対応関係を表す情報を出力する、
対訳文対応付け方法。

【国際公開番号】WO2004/107203
【国際公開日】平成16年12月9日(2004.12.9)
【発行日】平成18年7月20日(2006.7.20)
【国際特許分類】
【出願番号】特願2005−500235(P2005−500235)
【国際出願番号】PCT/JP2003/006869
【国際出願日】平成15年5月30日(2003.5.30)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】