説明

自動換言装置、自動換言方法及び換言処理プログラム

【課題】簡易な構成でしかも開発者の知識能力に左右されることなく、入力された原文に対して最適な換言文を自動的に生成可能な自動換言装置を提供する。
【解決手段】自動換言装置80は、用例コーパスC1中の表現素片を出現度数とともに記憶する表現素片データベース(DB)D1と、対訳コーパスC2中の用例文に対する換言文を、換言の態様を示す換言情報とともに記憶する換言文DBD2と、対訳コーパスC2中の用例文から換言文への換言情報を適用頻度とともに記憶する換言情報DBD3と、表現素片の少なくとも一つを原文と共有する換言文を換言文DBD2から検索する類似文検索部84と、検索された換言文に対し、元の用例文との間の換言と、原文との間の換言に関する妥当性スコアを評価する表現検証部85と、妥当性スコアが最も高い換言文に対応する換言情報を原文に対し逆方向に適用し換言文を生成する原文換言部83とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は自然言語処理に関し、特に、例えば機械翻訳装置の前処理に使用され、入力された原表現を、意味が同じで後の処理のために好適な別の表現に変換する(換言する)ための自動換言装置、自動換言方法及び換言処理プログラムに関する。
【背景技術】
【0002】
機械翻訳装置として、原文を入力すると、入力された原文を言い回しの異なる複数の文に換言し、換言後の文のいずれかに対して機械翻訳を試みるものが知られている。
【0003】
しかし、このような機械翻訳装置では、換言された複数の換言文の中から、機械翻訳の原文として最も適切なものを操作者が選択する必要がある。このため、操作者は原言語と目的言語(例えば日英翻訳における原言語は日本語、目的言語は英語)との双方の知識を持ち、換言文を的確に選択する能力を備える必要がある。その結果、機械翻訳装置の利用者が限定されるという問題があった。
【0004】
また、システムによっては、例えば「パスポートを拝見できますか。」を、一旦英語に翻訳してから日本語に直訳し直したような、「貴方のパスポートを私に見せて下さい。」という文に人手により換言しなければならない。これでは、その機械翻訳装置を使えるのは英語に翻訳する能力のある人に限定されてしまうことになる。
【0005】
また、ごく自然な「パスポートを見せて頂けますか」という表現からは、「パスポートを見せて下さい」や「パスポートを見せろ」まで様々な表現を得ることが可能である。操作者は、これら多様な表現の中でどの表現が、使用する機械翻訳装置がうまく翻訳できる表現であるかを知っていなければならない。これでは、その機械翻訳装置の前処理を適切に行なえるのは、その機械翻訳装置を熟知した人に限定されてしまうことになる。
【0006】
そこで、下記文献に示されるように、翻訳前に原文を自動編集したり自動書換えしたりする技術が提案されている。
【0007】
【特許文献1】特開平5−225232号公報
【特許文献2】特開平6−139274号公報
【特許文献3】特開2000−268034号公報
【非特許文献1】白井諭、池原悟、河岡司、中村行宏、「日英機械翻訳における原文自動書き替え型翻訳方式とその効果」、情報処理学会論文誌、Vol.36、No.1、pp.12−21(1995)
【非特許文献2】吉見毅彦、佐田いち子、福持陽士、「頑健な英日機械翻訳システム実現のための原文自動前編集」、自然言語処理、Vol.7、No.4、pp.99−117(2000)
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかし、このような原文自動編集機能や自動書換機能を備えた翻訳装置では、換言の結果が複数個にならないように、換言操作の根拠となる知識(以下、換言知識という)の条件を予め詳細に設定しておかなければならない。このため、換言知識の開発・準備の負荷が大きくなり、機械翻訳装置の開発には大きな資源が必要であるとともに、翻訳装置の性能は開発者の知識能力に大きく左右されるという問題があった。
【0009】
そこで、この発明の目的は、簡易な構成でしかも開発者の知識能力に左右されることなく、入力された原文に対して最適な換言文を自動的に生成できる自動換言装置を提供することである。
【課題を解決するための手段】
【0010】
本発明のある局面にしたがった自動換言装置は、所定言語の第1の用例文群において出現する表現素片を、表現素片の各々の第1の用例文群における出現度数とともに記憶するための表現素片記憶手段と、所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を示す換言情報とともに記憶するための換言文記憶手段と、第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶するための換言情報記憶手段と、換言対象となる原文を受け、表現素片記憶手段に記憶された表現素片のうち少なくとも一つを原文と共有する換言文を、換言文記憶手段に記憶されている換言文の中から検索するための検索手段と、検索手段により検索された換言文の各々に対し、対応する元の用例文との間の換言、及び原文との間の換言に関して、換言情報記憶手段に記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価するための評価手段と、換言文記憶手段において、評価手段により評価された妥当性スコアが所定の条件を充足する換言文に対応付けられた換言情報を原文に対し逆方向に適用することにより、原文に対する換言文を生成するための原文換言手段とを含む。
【0011】
原文が入力されると、この原文と、表現素片記憶手段に記憶されている表現素片の少なくとも一つを共有する換言文が、検索手段により換言文記憶手段から検索される。検索された換言文の中からさらに絞り込みを行なう。絞り込みの際には、検索された換言文とこれに対応する元の用例文との間の換言と、検索された換言文と原文との間の換言とに関して評価手段によって評価された妥当性スコアが用いられる。妥当性スコアの評価は、換言情報記憶手段に記憶された換言情報の適用頻度に基づき予め定める算出法により行なわれる。
【0012】
こうして、選択された換言文について2種類の換言に関連する妥当性が評価され、この評価に基づいて、元の文との間の換言と、原文との間の換言との双方を勘案したときに最も妥当性が高いと思われる換言情報を持つ換言文が選択される。原文に対し、この選択された換言文に対応付けられて換言文記憶手段に記憶されている換言情報を逆方向に適用することにより、原文に対する換言文が生成される。こうして得られた換言文は、妥当性スコアが所定の条件を充足する換言文に対応する元の用例文に近くなる。したがって、元の用例文を言語変換のための資源として用いる機械翻訳装置において、原文を換言して得られた換言文を翻訳した結果が正しい翻訳文となる可能性が高くなる。
【0013】
このように、この自動換言装置では、原文に対する換言文であって、翻訳したときに好ましい結果が得られる可能性の高いものが自動的に特定される。すなわち、操作者の換言知識を必要とすることなく自動的にしかも最適な換言文を得ることができる。しかも、表現素片記憶手段、換言文記憶手段、換言情報記憶手段に記憶されているデータを利用して原文に対する最適な換言文を特定するから、換言知識の条件を予め詳細に設定しておく必要はなく、簡易な構成で装置を実現できる。
【0014】
検索手段は、換言対象となる原文を受け、表現素片記憶手段に記憶された表現素片のうち少なくとも一つを原文と共有する換言文を、換言文記憶手段に記憶されている換言文の中から抽出するための抽出手段と、抽出手段により抽出された換言文のうち、原文との間で共有される表現素片の種類数、又は原文との間で共有される表現素片に関し表現素片記憶手段に記憶されている出現頻度、又はこれらの組合わせが予め定める条件を充足しているものを選択するための選択手段とを含む。
【0015】
原文と表現素片を共有する換言文を抽出した後、それらの中で原文との間で共有される表現素片の種類数又は原文との間で共有される表現素片に関する出現頻度、又はこれらの組合わせが予め定める条件を充足している換言文が選択される。この選択は、原文と各換言文との共有表現素片について、表現素片記憶手段に記憶されている同一の表現素片の出現度数を参照して行なわれる。これらを考慮して所定の条件を充足する換言文のみを選択するので、原文に対応する換言文として条件のよいもののみを選ぶことができる。
【0016】
選択手段は、原文との間で共有される表現素片の種類数、原文との間で共有される表現素片に関し表現素片記憶手段に記憶されている出現頻度、又はこれらの組合わせにより定められるスコアの上位の所定個数の換言文を選択するための手段を含んでもよい。
【0017】
スコアが上位の所定個数の換言文を選択するため、常に処理時間が安定し、かつ原文に対する換言文を得る上で好適な換言文が得られる。
【0018】
評価手段は、対応する換言情報の適用頻度が小さい換言部分を、換言文又は用例文の長さに比して換言文が多く含む場合は、換言文と用例文との換言の妥当性を低く評価するようにしてもよい。
【0019】
又は評価手段は、対応する換言情報の適用頻度が小さい差異部分を、原文又は換言文の長さに比して換言文が多く含む場合は、原文と換言文との類似の妥当性を低く評価するようにしてもよい。
【0020】
このようにすることで、原文、換言文又は換言文に対応する用例文の長さによって各換言文に関係する換言情報の重みを正規化でき、換言文の長さに影響を受けずに好適な換言文を選択できる。
【0021】
また、換言情報記憶手段に記憶される換言情報は、用例文と換言文との換言部位における表現素片対を含むようにしてもよい。これは、換言情報を客観的で取り扱いの容易なものとなしうる点で望ましい。
【0022】
本発明の他の局面にしたがった換言処理プログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの自動換言装置として動作させるものである。
【0023】
本発明のさらに他の局面にしたがった自動換言方法は、所定言語の第1の用例文群において出現する表現素片と、前記第1の用例文群における各表現素片の出現度数とを記憶した表現素片データベースと、所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を表す換言情報とともに記憶した換言文データベースと、第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶した換言情報データベースとを用いて、入力された原文を一つの換言文に言い換える自動換言方法であって、換言対象となる原文を受け、表現素片データベースに記憶された表現素片のうち少なくとも一つを原文と共有する換言文を、換言文データベースに記憶されている換言文の中から検索する検索ステップと、検索ステップにおいて検索された換言文の各々に対し、対応する元の用例文との間の換言、及び原文との間の換言に関して、換言情報データベースに記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価する評価ステップと、換言文データベースにおいて、評価ステップにおいて評価された妥当性が所定の条件を充足する換言文に対応付けられた換言情報を原文に対し逆方向に適用することにより、原文に対する換言文を生成するステップとを含む。
【発明を実施するための最良の形態】
【0024】
[構成の説明]
後に述べるように、本実施の形態は、コンピュータとその上で動作するコンピュータプログラムとにより実現できる。そのプログラムとコンピュータとにより実現される装置を自動換言装置80とみなして機能的に示したのが図1のブロック図である。図1を参照して、この装置80は、機械翻訳における原言語の用例コーパスC1と、原言語の用例コーパスC1から、後述する表現素片を予め多数収集するための表現素片収集部81と、表現素片収集部81により収集された表現素片群をそれらの出現頻度とともにデータベースとして保持する表現素片データベースD1とを含む。
【0025】
表現素片とは、二つの表現の間の相違を表現するために予め選択される自然言語表現上の単位である。これをどのように定めるかは設計事項であり、言語と目的と処理対象となる表現の分野とにより、異なってもよい。本実施の形態では、対象言語は日本語であって、表現素片とは文を構成する所定文字数の部分文字列のことをいう。例えば、文を構成する文字列のうち、漢字の並びは2文字、カタカナの並びは、小さな文字「ッ」「ャ」「ュ」「ョ」や「ー」を含めず数えて2文字、文字種の変わり目を含む場合は3文字、等の単純な基準により定められる数の文字を含む文字列のことをいう。この規則にしたがって用例文を先頭から順に走査することにより、各用例文を表現素片に分解することができる。この場合、本実施の形態では、先行する表現素片の最終文字と、後続する表現素片の先頭文字とが二つの表現素片で共有される(重複する)ような形で表現素片を抽出する。
【0026】
英語等、単語の分かち書きをする場合には単語を表現素片とすることもできる。日本語でも単語等の単位で表現素片としてもよいが、形態素解析等をして文を単語分解する必要があるので、処理のための負荷が高くなり、上記したように表現素片を決めるのが実用的である。
【0027】
自動換言装置80はさらに、機械翻訳において使用する原言語と目的言語との多数の対訳用例文を記憶する対訳コーパスC2と、対訳コーパスC2に含まれる原言語の文から、公知の方法により多数の換言文を生成し、併せてこれら換言を行なう際にどのような表現の置換が行なわれたかに関する換言情報をそれらの適用頻度とともに生成するための換言文生成部82とを含む。
【0028】
換言情報は、本実施の形態では、表現の置換の態様(すなわち換言の態様)を表現素片の対で表した表現素片対を含む。表現素片対とは、例えばある文から順番付で得られた表現素片群と、その文の換言文から得られた表現素片群との間で、互いに異なる部分であってかつ互いに対応する位置に存在する表現素片を対の形で抽出したものである。
【0029】
自動換言装置80はさらに、換言文生成部82により生成された換言文を、それら換言文を生成する際に使用された表現素片対からなる換言情報とともにデータベースとして保持する換言文データベースD2と、換言文生成部82による換言文の生成の際に使用された表現素片対からなる換言情報をそれらの適用頻度とともに保持する換言情報データベースD3とを含む。
【0030】
自動換言装置80はさらに、入力される原文に対する一つの換言文を作成する処理を行なうために、以下に説明するような制御を行なうための原文換言部83と、原文換言部83から原文を受け、表現素片データベースD1を参照して原文を複数の表現素片に分解し、得られた表現素片と共通の表現素片を持つ換言文の中で特に原文と類似する所定数の換言文を換言文データベースD2から抽出してそのリストを原文換言部83に与えるための類似文検索部84と、類似文検索部84により抽出された換言文が元の用例文から得られた際の換言の妥当性、及び類似文検索部84により抽出された換言文と原文との間で換言を行なう妥当性を換言情報データベースD3に保持された換言情報とその適用頻度とを使用して所定の算出式にしたがって算出される妥当性スコアとして評価し、評価結果を原文換言部83に与えるための表現検証部85とを含む。原文換言部83は、類似文検索部84から与えられたリストに含まれる換言文を表現検証部85に与え、表現検証部85から返される各換言文の妥当性スコアに基づいて、換言文のうちの一つを選択し、その換言文を生成する際に使用した表現素片対で表される表現素片の置換を、換言文の生成時の適用方向とは逆の方向に原文に適用することにより原文の換言文を作成する機能を持つ。
【0031】
原言語の用例コーパスC1、対訳コーパスC2、表現素片データベースD1、換言文データベースD2、及び換言情報データベースD3は、いずれも後述するようにこの自動換言装置80を実現するコンピュータのハードディスク等の記憶装置に格納される。
【0032】
表現素片収集部81は、原言語の用例コーパスC1を走査して原言語表現の類似度を判断するためのデータを収集する。具体的には、表現素片収集部81は、原言語で構成された大量の用例文に対し、各用例文を表現素片に分解する。そして、原言語の用例コーパスC1中の全用例文について分解処理を行なったときの各表現素片の出現度数を、当該表現素片とともに表現素片データベースD1に記憶する。ただし出現度数が極端に少ない表現素片や、誤った表現から得られる表現素片を利用してもそれほど意味はない。したがってこの実施の形態では、出現度数の少ない表現素片を類似度判断基準の対象から除外する。そのため、予め定めたしきい値以上の出現度数を持つ表現素片のみを表現素片データベースD1に登録する。
【0033】
たとえば、コーパスC1の原言語の用例文に「パスポートを見せて頂けますか。」があったものとする。他にも「パスポート」、「〜を見せて」、及び「〜て頂けますか」を含む用例文が相当数あったものとすると、この文からは「パス」「スポー」「ポート」「を見せ」「見せて」「せて」「て頂け」「頂けま」「けま」「ます」「すか」がしきい値以上の度数を持つ文字列(表現素片)として表現素片データベースD1に登録され保持されることになる。
【0034】
なお、原言語の用例コーパスC1を対訳コーパスC2の原言語側の用例文群で兼用してもよい。
【0035】
換言文生成部82は、対訳コーパスC2の原言語側の用例文を、翻訳する原文に対するのと同様の手段で解析する。さらに換言文生成部82は、例えば既存の機械翻訳装置に利用されているような公知の換言方法により、用例文を1個又は複数個の換言文に変換し、出力する。原言語と目的言語とが同一言語である点を除けば、換言文生成部82は既存の機械翻訳装置の機構と同等又はその一部として構成される。
【0036】
例えば、対訳コーパスC2の原言語側の用例文に「パスポートを見せて頂けますか。」があったものとする。この文に対する換言文として換言文生成部82が生成するものは、「パスポートを拝見いたします。」「パスポートを見せて下さい。」「パスポートをお願いします。」等となる。
【0037】
換言文生成部82から出力された各用例文に対する換言文は換言文データベースD2に登録される。このとき、換言文生成部82は、生成した換言文を表現素片収集部81と同じ基準で表現素片に分解し、それらを検索キーとして当該換言文が検索されるように各換言文を換言文データベースD2に登録する。
【0038】
また、換言文生成部82は、各用例文と、当該用例文に対して生成された換言文との間の相違部分を抽出し、用例文のどこがどのように言い換えられているかについての情報を、対応する表現素片の対からなる換言情報として換言情報データベースD3に登録する。換言文生成部82はこれと併せて、表現素片をそれが使用されている換言文と組にして換言文データベースD2に登録する。
【0039】
図2に、換言文データベースD2に登録されている換言文データの内容を示す。図2を参照して、一つの用例文91に対して1個又は複数個の換言文92が登録される。各換言文92には、その換言文と用例文91との間の相違部分を表現素片の対の形で表す換言情報93が関連付けられて記憶されている。なお、換言文と用例文とを比較すると、一方には文字列があって他方には存在しない場合があり得る。本実施の形態では、そうした場合にも、一方の表現素片と、対応する表現素片がないことを示す記号(図2における「Φ」)とを対応付けて換言文データベースD2に記憶する。
【0040】
換言情報データベースD3に記憶される換言情報は、この実施の形態では、用例文と換言文の換言部分における表現素片対と、その適用頻度とを含む。例えば、用例文1が「パスポートを見せて頂けますか。」であり、換言文1が「パスポートを見せて下さい。」である場合を考える。この例では、用例文の「頂けますか」が「下さい」に換言されている。これらを表現素片に分解して、「頂けま−下さい」「けま−さい」「ます−φ」「すか−φ」が換言情報93として記憶される。
【0041】
このように換言情報を表現素片対で表すことにより、換言情報の客観性を担保でき、取り扱いも容易となる。
【0042】
換言情報データベースD3には、上述した表現素片対からなる換言情報93の適用頻度、つまり換言文生成部82が大量の用例文を各換言文に換言する際に出現した換言情報の出現度数を、換言情報毎にまとめたものが登録されている。例えば、図3に示す例では、「頂けま−下さい」の適用頻度がn1、「けま−さい」の適用頻度がn2、「ます−φ」の適用頻度がn3、「すか−φ」の適用頻度がn4、・・・となっている。
【0043】
原文換言部83は、原文が入力されるとこれを類似文検索部84に出力するとともに、類似文検索部84から選択されてきた換言文や換言情報のリストを表現検証部85に出力する。さらに、原文換言部83は、表現検証部85から出力されてきた妥当性の評価を基に、入力された原文に対する換言文を最終的に決定するものである。この点については後述する。
【0044】
類似文検索部84は、原文換言部83から送られてきた原文を表現素片収集部81と同じ基準の文字数の表現素片に分解し、それらの表現素片を検索キーとして換言文データベースD2を検索し、入力した原文と少なくとも1個の表現素片を共有する換言文をすべて抽出する。
【0045】
類似文検索部84はさらに、抽出した換言文の中から、原文と類似する換言文を選択する動作も行なう。選択は、原文及び各換言文が相互に共有する表現素片についての前記表現素片データベースD1に記憶されている出現度数を参照して行なわれる。この実施の形態では、具体的には、より出現度数の高い表現素片を原文と共有し、原文と共有する表現素片の種類が多い換言文の上位のものから所定数を、原文と類似する換言文として選択する。なお、換言文の選択方法はこれに限定されることはなく、共有する表現素片の出現度数の総和が高い換言文を選択する方法等であってもよい。
【0046】
さらに類似文検索部84は、選択した換言文と、選択した換言文の各々に付属する換言情報とをリストにして原文換言部83に出力する。この時、類似文検索部84は、入力した原文と類似した換言文との表現素片の差異についても、図2に示した換言情報93と同じ表現素片対の形式で表現して換言情報とし、この換言情報を原文換言部83への出力リストに含めて原文換言部83に出力する。
【0047】
表現検証部85は、類似文検索部84から原文換言部83に与えられ、さらに原文換言部83から表現検証部85に送られてきた原文、換言文、換言情報を受領し、送られてきた換言文についての元の用例文との換言の妥当性を評価するとともに、原文と換言文との類似の妥当性を評価するものである。
【0048】
換言文と用例文との換言の妥当性の評価について以下に説明する。換言文は、対訳コーパスC2の原言語側の用例文から換言されたものであり、換言前の文は用例文にあたる。換言文の妥当性を評価するには、用例文と換言文との換言部分における表現素片対と同一の表現素片対(換言情報)について換言情報データベースD3に登録されている適用頻度を参照する。
【0049】
適用頻度が低い表現素片対(換言情報)は、換言表現としてあまり用いられないものと考えられる。そこで、例えば、換言情報が適用頻度の低い表現素片対を用例文又は換言文の長さに比して多く含む場合は、換言操作の妥当性が低くなるように、適用頻度、表現素片対の数、用例文又は換言文の長さに重み付けを行なう、等の方法により妥当性スコアを算出する。こうすることで、表現素片対の適用頻度等から算出されるスコアを換言文等の長さに対して正規化できる。なお、スコアの具体的な付け方は特に限定されることはなく、換言部分における表現素片対についての適用頻度の総和や平均値が、用例文又は換言文の長さに比して大きいものほど大きなスコアとなるようにしてもよい。また、用例文又は換言文の長さに関係なく、適用頻度の総和や平均値が大きいものほど大きなスコアとしてもよい。
【0050】
次に、原文と換言文との類似の妥当性の評価について説明すると、表現検証部85は、類似文検索部84で作成され原文換言部83から送られてきた原文と各換言文との差異情報を基に、差異部分における表現素片対と同一の表現素片対(換言情報)について換言情報データベースD3に登録されている適用頻度を参照する。つまり、原文と換言文との差異部分を、表現素片対からなる換言情報として表し、それらの適用頻度を調べる。
【0051】
適用頻度が低い表現素片の対(換言情報)は、換言表現としてあまり用いられないものと判断できる。そこで、例えば、適用頻度が低い表現素片対を原文又は換言文の長さに比して多く含む場合は、類似の妥当性が低くなるように、適用頻度、表現素片対の数、原文又は換言文の長さに重み付けを行なう、等の方法により妥当性のスコアを算出する。ここでも原文又は換言文の長さに対し、表現素片対から算出されるスコアを正規化できる。なお、スコアの具体的な付け方は特に限定されることはなく、差異部分における表現素片対についての適用頻度の総和や平均値が、原文/換言文の長さに比して大きいものほど大きなスコアとしてもよい。また、原文/換言文の長さに関係なく、適用頻度の総和や平均値が大きいものほど大きなスコアとしてもよい。
【0052】
例えば、原文が「パスポートを拝見できますか。」であるものとする。類似文として、「パスポートを拝見いたします。」という換言文が選択されているものとする。さらに、この換言文は、「パスポートを見せて頂けますか。」という用例文から換言されたものであるとする。この場合、「パスポートを見せて頂けますか。」という用例文と「パスポートを拝見いたします。」という換言文の換言部分は「見せて頂けますか」と「拝見いたします」とになる。そして、これらの間の換言情報の適用頻度が相当数あったものとする。この場合、換言文「パスポートを拝見いたします。」についての用例文に対する換言の妥当性スコアは高く算出されることになる。
【0053】
また、「パスポートを拝見できますか。」という原文と「パスポートを拝見いたします。」という換言文との間の差異部分は「できますか」と「いたします」とになる。これらの間の換言情報の適用頻度も相当数あったものとする。この場合も、換言文「パスポートを拝見いたします。」についての原文に対する類似の妥当性スコアも高く算出されることになる。
【0054】
これに対し、「パスポートを拝見できますか。」という原文に対して、「パスカードを拝見できますか。」という換言文が類似文として選択されているものとする。両者の差異部分「ポート」と「カード」とについては、言換えがされる頻度は少なく、したがってこれらの間の換言情報の適用頻度は登録されていない可能性が高い。すると、この換言文「パスカードを拝見できますか。」についての原文に対する類似の妥当性スコアは低く算出されることになる。
【0055】
表現検証部85は、原文換言部83から送られてきた換言文と、算出した換言及び類似の2種類の妥当性のスコアとを組にしたリストを、原文換言部83に出力する。
【0056】
原文換言部83は、表現検証部85から妥当性スコアと組にされた換言文のリストを受領すると、これら2種類のスコアを総合的に判断して、換言文の中から最も妥当性の高い一つの換言文を原文と最も類似している換言文として選択する。例えば二つの妥当性スコアの積を新たな妥当性スコアとして用いてもよい。そして、選択した換言文と組にされて登録された換言情報を逆方向に適用して、入力した原文を換言する。逆方向とは、換言後の文を換言前の文(用例文)に逆戻りするように換言情報を適用することである。ここでいう換言文は、換言文生成部82により対訳コーパスC2の原言語側の用例文から換言されたものであり、換言前の文は用例文にあたる。よって原文は、選択した換言文に対応する用例文に近い文(又は用例文そのもの)に換言される。
【0057】
例えば、原文が「パスポートを拝見できますか。」であり、「パスポートを拝見いたします。」が最も妥当性の高い換言文として選択された場合を考える。「パスポートを拝見いたします。」の元の用例文は「パスポートを見せて頂けますか。」である。この場合、元の用例文と同一の文「パスポートを見せて頂けますか。」が、原文「パスポートを拝見できますか。」に対する換言文として生成されることになる。
【0058】
[コンピュータによる実現]
−ハードウェア構成−
本実施の形態に係る自動換言装置80は、コンピュータ及びコンピュータ上で動作するソフトウェアにより実現される。もちろん、前述した機能の一部又は全部を、ソフトウェアでなくハードウェアで実現することも可能である。
【0059】
図5に、本実施の形態で利用されるコンピュータシステム20の外観図を、図6にコンピュータシステム20のブロック図を、それぞれ示す。なおここに示すコンピュータシステム20はあくまで一例であり、この他にも種々の構成が可能である。
【0060】
図5を参照して、コンピュータシステム20は、コンピュータ40と、いずれもこのコンピュータ40に接続されたモニタ42、キーボード46、及びマウス48を含む。コンピュータ40にはさらに、CD−ROM(Compact Disk Read−Only Memory)ドライブ50と、FD(Flexible Disk)ドライブ52とが内蔵されている。
【0061】
図6を参照して、コンピュータシステム20はさらに、コンピュータ40に接続されるプリンタ44を含むが、これは図5には示していない。またコンピュータ40はさらに、CD−ROMドライブ50及びFDドライブ52に接続されたバス66と、いずれもバス66に接続された中央演算装置(Central Processing Unit:CPU)56、コンピュータ40のブートアッププログラム等を記憶したROM(Read−Only Memory)58、CPU56が使用する作業エリア及びCPU56により実行されるプログラムの格納エリアを提供するRAM(Random Access Memory)60、及び後述する音声データベースを格納したハードディスク54を含む。
【0062】
以下に述べる実施の形態のシステムを実現するソフトウェアは、たとえば、CD−ROM62のような記録媒体上に記録されて流通し、CD−ROMドライブ50のような読取装置を介してコンピュータ40に読込まれ、ハードディスク54に格納される。CPU56がこのプログラムを実行する際には、ハードディスク54からこのプログラムを読出してRAM60に格納し、図示しないプログラムカウンタによって指定されるアドレスから命令を読出して実行する。CPU56は、処理対象のデータをハードディスク54から読出し、処理結果を同じくハードディスク54に格納する。
【0063】
コンピュータシステム20の動作自体は周知であるので、ここではその詳細については繰り返さない。
【0064】
なお、ソフトウェアの流通形態は上記したように記憶媒体に固定された形には限定されない。たとえば、ネットワークを通じて接続された他のコンピュータからデータを受取る形で流通することもあり得る。また、ソフトウェアの一部が予めハードディスク54中に格納されており、ソフトウェアの残りの部分をネットワーク経由でハードディスク54に取込んで実行時に統合するような形の流通形態もあり得る。
【0065】
一般的に、現代のプログラムはコンピュータのオペレーティングシステム(OS)によって提供される汎用の機能を利用し、それらを所望の目的にしたがって組織化した形態で実行することにより前記した所望の目的を達成する。したがって、以下に述べる本実施の形態の各機能のうち、OS又はサードパーティが提供する汎用的な機能を含まず、それら汎用的な機能の実行順序の組合わせだけを指定するプログラム(群)であっても、それらを利用して全体的として所望の目的を達成する制御構造を有するプログラム(群)である限り、それらが本発明の技術的範囲に含まれることは明らかである。
【0066】
−プログラム構造−
上記した自動換言装置80をコンピュータにより実現する場合、当該コンピュータを自動換言装置80として動作させるコンピュータプログラムは以下のような制御構造を有する。なお、これに先立って原言語の用例コーパスC1、対訳コーパスC2、表現素片データベースD1、換言文データベースD2、及び換言情報データベースD3については予めハードディスク54内に準備されているものとする。これらは表現素片収集部81と換言文生成部82とに相当するコンピュータプログラムにより実現される。それらコンピュータプログラムが実現する機能については比較的単純であるので、ここではその詳細については省略する。
【0067】
図4を参照して、原文から換言文を生成する換言プログラムは、起動すると原文が入力されるのを待つ(ステップ101)。原文が入力されると(ステップ101の判断がYES)、入力された原文に対して原文を表現素片に分解し、それら表現素片の少なくとも一つを共有する換言文が、換言文データベースD2から抽出される(ステップ102)。
【0068】
次に、抽出された換言文の中から、原文及び各換言文が共有する表現素片の各々について、表現素片データベースD1を参照して出現頻度を調べ、より出現度数の高い表現素片を原文と共有し、原文と共有する表現素片の種類が多い換言文のうち上位のものから所定数を、原文と類似する換言文として選択する(ステップ103)。ここではまた、選択された換言文は、元になる用例文から換言文に換言する際の換言情報、及び原文と換言文との差異情報とともにリストにされる。
【0069】
続いてステップ104で、用例文と換言文の換言部分における表現素片対、及び原文と各換言文との差異部分における表現素片対(換言情報)の各々について、換言情報データベースD3に登録されている適用頻度を参照することにより、用例文と換言文との換言の妥当性及び原文と換言文との類似の妥当性が評価される。
【0070】
さらに、換言及び類似の2種類の妥当性の評価結果に基づいて、原文に対して最も妥当性の高い1個の換言文が選択される(ステップ105)。
【0071】
次いで、選択された1個の換言文に付されていた換言情報を原文に対して逆方向に適用することにより、原文の換言文が生成される(ステップ106)。
【0072】
[動作]
本実施の形態に係る自動換言装置80は以下のように動作する。
【0073】
自動換言装置80の動作には全部で二つのフェーズがある。第1のフェーズは準備段階であり、表現素片データベースD1、換言文データベースD2、及び換言情報データベースD3を作成するフェーズである。第2のフェーズは動作段階であり、与えられた原文から換言文を作成する処理である。
【0074】
−データベースの作成−
まず、準備段階として、表現素片収集部81がコーパスC1を走査して、原言語で構成された大量の用例文を表現素片に分解する。表現素片収集部81は、各表現素片に対し、同一の表現素片の出現度数を調べて予め定められたしきい値以上の出現度数を持つ表現素片とその出現度数とを表現素片データベースD1に登録する。
【0075】
一方、換言文生成部82は、対訳コーパスC2の対訳のうちの用例文の各々に対して公知の方法により換言文を生成する。これら換言文を、換言文生成のときに使用された換言情報(表現素片対)とともに換言文データベースD2に登録しておく。換言文生成部82はさらに、対訳コーパスC2の用例文を換言文に換言する際に出現した換言情報の出現度数である適用頻度を、換言情報とともに換言情報データベースD3に登録しておく。
【0076】
なお、表現素片データベースD1、換言文データベースD2、換言情報データベースD3の作成は、原文に対する以下の換言処理を行なうコンピュータと同一のコンピュータで実行してもよいし、別のコンピュータで実行してもよい。ただし、機械翻訳装置の前処理として換言を実行する場合には、対訳コーパスC2は機械翻訳装置が使用するものと一致するものであることが好ましい。
【0077】
こうして、各データベースを作成した後には、自動換言装置80による原文からの換言文の作成が可能になる。
【0078】
−原文からの換言文の作成−
原文は原文換言部83に与えられる。原文換言部83はこの原文を類似文検索部84に与える。類似文検索部84は、原文を表現素片に分解し、換言文データベースD2に記録された換言文の中で原文と表現素片を少なくとも一つ共有する換言文を抽出する。類似文検索部84はこのとき、表現素片データベースD1を参照して各表現素片の出現頻度を調べ、より出現度数の高い表現素片を原文と共有し、原文と共有する表現素片の種類が多い換言文の上位のものから所定数を、原文と類似する換言文として選択する。類似文検索部84は選択した換言文とそれらに対し付されている換言情報とをリストにして原文換言部83に与える。
【0079】
原文換言部83はこのリストを表現検証部85に与える。表現検証部85は、原文換言部83から与えられたリストに含まれる各換言文について、それらに付されている換言情報と、換言情報データベースD3に記録されている各換言情報の適用頻度とに基づき、元になる用例文から当該換言文が換言文生成部82により得られた際の換言の妥当性を算出する。このとき、対応する換言情報の適用頻度が小さい換言部分や差異部分を、換言文と用例文の長さに比して多く含む場合は、換言文と用例文との換言の妥当性は低く評価される。対応する換言情報の適用頻度が小さい換言部分や差異部分は、換言表現としてあまり用いられないものと判断できるからである。
【0080】
表現検証部85はまた、リストに含まれる各換言文について、原文との間の相違部分を表現素片対の集まりの形で表す。そして、それら表現素片対により表される原文から換言文への換言の妥当性を、換言情報データベースD3に記録されている換言情報の適用頻度に基づき算出する。このとき、換言の妥当性の算出時と同様に、対応する換言情報の適用頻度が小さい換言部分や差異部分を、原文と換言文との長さに比して多く含む場合は、原文と換言文との類似の妥当性は低く評価される。
【0081】
表現検証部85は、原文換言部83から与えられたリスト中の各換言文に対し上記した二つの妥当性(換言の妥当性と類似の妥当性)を、各換言文に付したリストの形で原文換言部83に返す。
【0082】
原文換言部83は、表現検証部85から与えられたリストに含まれる二つの妥当性の値に基づき、最も妥当と思われる換言文を一つ選択する。そして、選択された換言文に付されている換言情報を原文に対して逆方向に適用することにより、原文から換言文を生成する。こうして得られた換言文は、原文換言部83が選択した換言文の元になった用例文に近いものとなる。
【0083】
[実施の形態の効果]
このように、この実施の形態に係る自動換言装置では、用例文を換言した換言文の中から、それが得られたときの換言の妥当性と、原文との間で必要とされる換言の妥当性とを合わせた形で、妥当性の最も高い1個の換言文が選択される。この換言文が用例文から得られた際に適用された換言情報を原文に対して逆方向に適用する。この操作により、原文に対して1個の換言文が自動的に生成される。操作者による操作は必要とされない。したがって、操作者の換言知識を必要とすることなく自動的にしかも最適な1個の換言文を得ることができる。
【0084】
しかも、この特定のために必要とされるデータは、表現素片データベースD1、換言文データベースD2、換言情報データベースD3であり、これらを利用して最適な換言文を特定する。したがって換言のための知識を予め詳細に設定しておく必要はなく、簡易な構成で装置を実現できる。
【0085】
本実施形態に係る自動換言装置を適用した機械翻訳システムは、原文換言部83において原文に対する換言文が特定されると、その換言文で原文を置換し、図示しない言語変換部に出力して言語変換処理をさせ、言語変換された目的言語文を所定の形式に整形する等の翻訳処理を進める。この際、原文を換言して得られた換言文は、対訳コーパスC2に存在する用例文に近いか、同一の文となる。言語変換部における言語変換が対訳コーパスC2を用いた用例ベースの場合、上記のように得られた換言文から言語変換を行なえば、良い結果が得られることになる。
【0086】
したがって、本実施の形態に係る自動換言装置を適用した機械翻訳システムは、当該機械翻訳システムが言語変換処理に利用する知識の獲得源である用例文に最も近い形態に自動的に換言を行なうことができる。したがって操作者がどのような換言を行なえば効果的であるかに関する知識を有していなくとも、あたかも、当該機械翻訳システムに合わせて換言を行なったかのように動作するものとなる。
【0087】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
【図面の簡単な説明】
【0088】
【図1】この発明の一実施の形態の自動換言装置の構成を示すブロック図である。
【図2】換言文データベースに記憶されているデータの一例を示す図である。
【図3】換言情報データベースに記憶されているデータの一例を示す図である。
【図4】図1の自動換言装置による換言処理の内容を示すフローチャートである。
【図5】この発明の一実施の形態の換言処理プログラムを実行するコンピュータシステムの外観図である。
【図6】図5のコンピュータシステムのブロック図である。
【符号の説明】
【0089】
40 コンピュータ
80 自動換言装置
81 表現素片収集部
82 換言文生成部
83 原文換言部
84 類似文検索部
85 表現検証部
91 用例文
92 換言文
93 換言情報
D1 表現素片データベース
D2 換言文データベース
D3 換言情報データベース
C1 用例コーパス
C2 対訳コーパス

【特許請求の範囲】
【請求項1】
所定言語の第1の用例文群において出現する表現素片を、前記表現素片の各々の前記第1の用例文群における出現度数とともに記憶するための表現素片記憶手段と、
前記所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を示す換言情報とともに記憶するための換言文記憶手段と、
前記第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶するための換言情報記憶手段と、
換言対象となる原文を受け、前記表現素片記憶手段に記憶された表現素片のうち少なくとも一つを前記原文と共有する換言文を、前記換言文記憶手段に記憶されている換言文の中から検索するための検索手段と、
前記検索手段により検索された換言文の各々に対し、対応する元の用例文との間の換言、及び前記原文との間の換言に関して、前記換言情報記憶手段に記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価するための評価手段と、
前記換言文記憶手段において、前記評価手段により評価された妥当性スコアが所定の条件を充足する換言文に対応付けられた換言情報を前記原文に対し逆方向に適用することにより、前記原文に対する換言文を生成するための原文換言手段とを含む、自動換言装置。
【請求項2】
前記検索手段は、
換言対象となる原文を受け、前記表現素片記憶手段に記憶された表現素片のうち少なくとも一つを前記原文と共有する換言文を、前記換言文記憶手段に記憶されている換言文の中から抽出するための抽出手段と、
前記抽出手段により抽出された換言文のうち、前記原文との間で共有される表現素片の種類数、前記原文との間で共有される表現素片に関し前記表現素片記憶手段に記憶されている出現頻度、又はこれらの組合わせが予め定める条件を充足しているものを選択するための選択手段とを含む、請求項1に記載の自動換言装置。
【請求項3】
前記選択手段は、前記原文との間で共有される表現素片の種類数、前記原文との間で共有される表現素片に関し前記表現素片記憶手段に記憶されている出現頻度、又はこれらの組合わせにより定められるスコアの上位の所定個数の換言文を選択するための手段を含む、請求項2に記載の自動換言装置。
【請求項4】
前記評価手段は、対応する換言情報の適用頻度が小さい換言部分を、換言文又は用例文の長さに比して換言文が多く含む場合は、換言文と用例文との換言の妥当性を低く評価する、請求項1〜請求項3のいずれかに記載の自動換言装置。
【請求項5】
前記評価手段は、対応する換言情報の適用頻度が小さい差異部分を、原文又は換言文の長さに比して換言文が多く含む場合は、原文と換言文との類似の妥当性を低く評価する、請求項1〜請求項4のいずれかに記載の自動換言装置。
【請求項6】
前記換言情報記憶手段に記憶される前記換言情報は、用例文と換言文との換言部位における表現素片の組合わせを含む、請求項1〜請求項5のいずれかに記載の自動換言装置。
【請求項7】
コンピュータにより実行されると、請求項1〜請求項6のいずれかに記載の自動換言装置として当該コンピュータを動作させる、換言処理プログラム。
【請求項8】
所定言語の第1の用例文群において出現する表現素片と、前記第1の用例文群における各表現素片の出現度数とを記憶した表現素片データベースと、
前記所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を表す換言情報とともに記憶した換言文データベースと、
前記第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶した換言情報データベースと、
を用いて、入力された原文を一つの換言文に言い換える自動換言方法であって、
換言対象となる原文を受け、前記表現素片データベースに記憶された表現素片のうち少なくとも一つを前記原文と共有する換言文を、前記換言文データベースに記憶されている換言文の中から検索する検索ステップと、
前記検索ステップにおいて検索された換言文の各々に対し、対応する元の用例文との間の換言、及び前記原文との間の換言に関して、前記換言情報データベースに記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価する評価ステップと、
前記換言文データベースにおいて、前記評価ステップにおいて評価された妥当性が所定の条件を充足する換言文に対応付けられた換言情報を前記原文に対し逆方向に適用することにより、前記原文に対する換言文を生成するステップとを含む、自動換言方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2006−190072(P2006−190072A)
【公開日】平成18年7月20日(2006.7.20)
【国際特許分類】
【出願番号】特願2005−1288(P2005−1288)
【出願日】平成17年1月6日(2005.1.6)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成16年度独立行政法人情報通信研究機構、研究テーマ「大規模コーパスベース音声対話翻訳技術の研究開発」に関する委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】