説明

対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置

【課題】ウェブ検索技術及びデータマイニング技術を用いて語句の目的言語における正確な訳を得ること。
【解決手段】語句を入力する入力装置と、語句が入力された後に回答される電子文書及びウェブページによって候補訳を設定し、候補訳の境界を見出し、候補訳の特性をカウンティングする候補訳カウンティング装置と、候補訳のカウンティング装置によって生成されたノイズを識別して処理する候補訳ノイズ処理装置と、候補訳のカウンティング装置から取得した候補訳の特性によってすべてのあり得る候補訳を評価して順位付けする候補訳評価装置と、候補訳の典型的な例示文章をウェブ上でマイニングし、これを典型性の程度によって順位付けする候補訳典型例示文章マイニング装置と、他の言語で重み値に応じた順に配列された語句の候補訳リスト及び典型的な例示文章を出力する出力装置と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的にコンピュータ技術を用いて外国語の読み書きを補助する技術に関し、より詳しくは、ウェブ検索技術及びデータマイニング技術を用いて語句(例えば、技術用語、名詞、定着した慣用句など)の目的言語における正確な訳を得る対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置に関する。特に、本発明は、データマイニングに基づいて語句の訳情報を得る対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置に関する。
【背景技術】
【0002】
外国語を読み、書き、翻訳するとき、人々は、一般的な辞書には収録されていない語句(例えば、技術用語、名詞、定着した慣用句など)に接することがある。しかし、辞書を引き、ファイルを検索するのに多くの時間を費やすにもかかわらず、これらの用語及び語句に対する正確な翻訳結果を得ることは不可能である。
【0003】
グーグル(Google)が調査したウェブに関する統計によれば、電子文書及びウェブページの約76.6%が英語で書かれている。一方、中国の場合、統計調査、すなわち2005年の1月に中国インターネット情報局により公表された「中国インターネット開発状況に関する統計報告書」によれば、インターネットユーザが9400万人に至り、そのうち87.4%が高等学校以上の学歴を有している。彼らは、一般的な英語ウェブページを読むことには大きな問題はないが、ウェブサーフィン中やウェブページを読んでいる場合に、辞書に説明されていない語句(例えば、技術用語、名詞及び定着した慣用句など)に接することが多くあり、大抵これら語句(例えば、専門用語)を理解しなければ、全体の内容を理解することができなくなる。
【0004】
このように、辞書に記載されていない所定の重要な用語及び語句(例えば、技術用語、名詞及び定着した慣用句など)の習得は非常に重要である。一部の専門家らは、このような問題を解決するためウェブ検索エンジンに頼ることもあるが、関係のないページや重複した情報が膨大な量回答されると、実際に必要とする情報を探すことが難しくなる。
【0005】
従来、二つの言語の対訳または翻訳を自動的に取得するためのさまざまな試みが行われている。(1)対訳コーパスからの訳語の取得。この方法は、膨大な量の二つの言語からなる対訳コーパスを必要とする。しかし、対訳コーパスに関する既存のデータベースの容量と、これら言語データのデータベースを構築する困難さとがこの方法のそれ以上の適用を制限する。(2)1つの句に含まれる各構成要素に対応する訳語の組合せによる訳の取得、および、その組合せ結果の評価後の最終的な訳の生成。この1つの句に含まれる各構成要素に対応する訳語の組合せによる訳の取得方法は、基礎的な名詞句に対する訳の取得に向いている。しかし、技術用語/名詞に関しては、これらが大抵辞書に収録されていない語句からなるため、訳が各構成要素の単なる組合せになる場合がほとんどなく、このような直接的な組合せの効果は理想からは程遠い。(3)元の言語の文脈における情報が目的言語の文脈における情報と同一であるかまたは類似しているという手がかりに基づく訳の取得。このような試みの目的は、多くの場合、個々の単語の分析にのみ向けられている。すなわち、訳文と原文の単語比が1:1である。また、このような試みの大部分は、見出される訳が選択可能な候補群に既に含まれていることを前提に行われる。したがって、この方法を外国語訳のマイニング方法として実際に適用するには、さらに研究が必要な多くの問題が残っている。(4)ウェブからの訳の取得。非特許文献1には、ウェブ検索エンジンを用いて日本語文書から英語訳を取得する方法が提示されている。この場合、日本語を検索アイテムとして100件の回答文書から英語訳を検索する。しかし、このようなシステムは、訳の境界に対しては効果的に処理することができない。したがって、一部の隠れた意味を見出しにくいだけでなく、発生する結果のノイズに対してはどのようなマイニング処理もおこなわれない。また、検索された日本語の上記100件のウェブページには英語の訳が含まれていないこともあり、これはこのシステムの適用をさらに制限させる。
【0006】
特許文献1には、ウェブ検索を用いて技術用語及び新語の訳を検索する技術が提示されている。この特許技術では、主に検索及び二言語パラレル技術を用いて得られた二言語文書及び二言語パラレルパラグラフによって訳を得る。しかし、この特許技術は、日本語と英語とを扱うだけであり、また、そのさまざまな特性や訳のノイズが、訳をマイニングするときの完全性及び正確性に及ぼす影響をいかに拡大するかについての研究はなされていない。
【0007】
また、非特許文献2によれば、クロス言語情報検索において適用される未知の問い合わせの訳を取得するために、ウェブリソースを用いる。しかし、この方法では、候補語句の頻度特性に関する情報のみを使うので、深く内在した特性をマイニングすることはできない。また、このようなシステムでは、訳のノイズを処理することができないため、多くの妨害アイテムが生成されてしまう。
【0008】
ウェブから全体の正確な訳を取得するためには、次のような問題を解決しなければならない。すなわち、すべてのあり得る形式の注釈対をウェブからいかに正確にマイニングするか、候補訳の正確な境界をいかにして得るかの問題である。これは、中国語、日本語、及び韓国語のような言語において特に重要である。それは、その訳が左読みまたは右読みになっているか、途中にどのようなスペースがあるか、及び、どこで終わるかが分からないためである。また、いかにしてこのようなさまざまな特性を用いるカウンティングによって生成されたノイズを除去し、候補訳を正確な順位付けにより保持するかはこの方法から取り除かれるべき難しい問題である。このシステムでは、上記問題を解決することによってはじめて正確かつ効率的に訳を得ることができるようになる。
【0009】
【特許文献1】特開2002−24266号公報
【非特許文献1】M.Nagata, T.Saito, and K.Suzuki, Using the Web as a Bilingual Dictionary, Proc.ACL 2001 Workshop Data-Driven Methods in Machine Translation,2001,pp.95-102
【非特許文献2】P.J.Cheng, J.W.Teng, Ruei-Cheng Chen, et al. Translation unknown queries with web corpora for cross-language information retrieval. SIGIR 2004:146-153
【発明の開示】
【発明が解決しようとする課題】
【0010】
しかし、上述の特許及び論文に記載された技術では、基本的に単なる頻度特性を使うだけで、訳のノイズ及び隠された訳の形態の対する徹底した処理がおこなわれないだけでなく、訳の典型的な語法を提示することもできない。したがって、用語及び語句に関する効果的な情報を直接的に抽出及びマイニングすることができるシステム及び方法を提供することは非常に重要である。
【0011】
本発明の目的は、語句に関する完全かつ正確な訳を得るとともに、その典型的な語法を提示するために、データマイニングに基づいて語句の訳情報を得る対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置を提供するものであって、ユーザが辞書に収録されていないランダムな語句(例えば、技術用語、名詞及び定着した慣用句など)を入力すると、システムは、もう1つの言語において重み値に従って配列された訳の候補リストを回答するとともに、その訳の語法を現す簡単な文脈上の環境を提示する。そして、ユーザは、ウェブページに直接アクセスしてさらに多くの詳細な訳情報を取得することもできる。
【課題を解決するための手段】
【0012】
本発明の技術的解決法は、以下のとおりである。語句を入力する入力手順と、入力された語句を含む文書群をストレージ上の電子文書あるいはネットワーク上の電子文書から取り出す検索手順と、入力された語句の対訳語句候補を取り出す対訳候補取り出し手順と、対訳語句候補を提示する対訳語句提示手順とをコンピュータに実行させる対訳語句提示プログラムであって、前記対訳候補取り出し手順は、対訳語句の境界候補を取り出す語句境界候補取り出し手順と、対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出手順と、統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価手順と、をコンピュータに実行させることで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示プログラムが提案される。
【0013】
前記対訳語句評価手順により評価された対訳語句候補に対応し、対訳語句候補を利用している例示文章を抽出し、抽出した例示文章を提示する例示文章抽出手順をさらにコンピュータに実行させる。
【0014】
前記例示文章抽出手順により抽出された各例示文書に対して、典型性度を算出する典型性度計算手順と、典型性度に応じて順位付け等を行って表示する典型性度依存表示手順と、をさらにコンピュータに実行させる。
【0015】
前記検索手順は、英語の小文字大文字の変換、空白の数の制御、ひらがなとカタカナの変換、中国語の簡体字と繁体字の変換などを含む入力された語句のバリエーションをバリエーション生成規則に基づいて生成するバリエーション生成手順をさらにコンピュータに実行させ、より多くの対訳語句候補を得る。
【0016】
前記語句境界候補取り出し手順は、訳語として現れ得ない文字やあらかじめ指定された文字を無視することにより対訳語候補の数を限定する。
【0017】
前記対訳語句候補の統計的特性としては、対訳語句候補頻度、対訳語句候補分布、原語と対訳語句候補との間の長さ比、原語と対訳語句候補との間の間隔、及び原語と対訳語句候補との間のキーワード、符号及び境界情報を含む。
【0018】
前記対訳語句評価手順は、対訳語句候補間である対訳語句候補が別の対訳語句候補の文字列の部分文字列になっているかどうかの関係である部分文字列関係と、対訳語句候補間の頻度やエントロピー等の統計情報の関係から他の文字列の部分文字列になっているかどうかを示す訳語としての完全度を求める訳語候補完全度算出手順と、算出された完全度に応じて訳語候補とするかどうかを判定するないしカテゴライズする訳語候補完全度判定手順と、をさらにコンピュータに実行させる。
【0019】
前記対訳語句評価手順は、対訳語句候補に影響を与え得るすべてのあり得る特性及び前記あり得る特性の影響を分析する候補訳特性分析手順と、複数の候補訳の特性を組み合わせ、有効な評価式を定める組み合わせ特性評価手順と、をコンピュータに実行させる。
【0020】
前記対訳語句候補のあり得る特性としては、対訳語句候補頻度、異なるウェブページにおける対訳語句候補の分布、原語と目的対訳語句候補との間の長さ比、原語と目的対訳語句候補との間の距離、及び原語と目的語からなる対訳語句候補との間のキーワード、符号及び境界情報を含み、距離特性分布は、電子文書及びウェブページにおける原語と目的対訳語句候補との間の距離をカウンティングすることにより得られ、前記原語と目的対訳語句候補との距離特性は、ガウスモデルによってシミュレーションされる。
【0021】
前記組み合わせ特性評価手順は、対訳語句候補の異なる特性に対して寄与度に応じて異なる重み値を付与し、有効な評価式を定める。
【0022】
前記例示文書抽出手順は、文章抽出、クラスタリング、典型的文章抽出などの一連のマイニング方法を用いて、ウェブ上で対訳語句候補に関する典型的な文脈上の環境または例示文章をマイニングし、前記典型性度計算手順は、それぞれのカテゴリーにおける個数によって典型性度を算出し、前記典型性度依存表示手順は、例示文章のサイズに応じてユーザに出力する。
【0023】
前記対訳語句提示手順は、重み値の順に配列された対訳語句候補リストを出力インターフェースに表示し、前記出力インターフェースにはオプションの語法の典型的な例示文章あるいは訳の語法の文脈上の環境が同時に表示される。
【0024】
また、語句を入力する入力工程と、入力された語句を含む文書群をストレージ上の電子文書あるいはネットワーク上の電子文書から取り出す検索工程と、入力された語句の対訳語句候補を取り出す対訳候補取り出し工程と、対訳語句候補を提示する対訳語句提示工程とを含む対訳語句提示方法であって、前記対訳候補取り出し工程は、対訳語句の境界候補を取り出す語句境界候補取り出し工程と、対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出工程と、統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価工程と、を含むことで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示方法が提案される。
【0025】
また、語句を入力する入力手段と、入力された語句を含む文書群をストレージ上の電子文書あるいはネットワーク上の電子文書から取り出す検索手段と、入力された語句の対訳語句候補を取り出す対訳候補取り出し手段と、対訳語句候補を提示する対訳語句提示手段とを備えた対訳語句提示装置であって、前記対訳候補取り出し手段は、対訳語句の境界候補を取り出す語句境界候補取り出し手段と、対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出手段と、統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価手段と、を備えることで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示装置が提案される。
【発明の効果】
【0026】
本発明は、インターネット上の情報を用いて、辞書には収録されていない語句の典型的な語法及び訳のオプションをマイニングすることができるため、ユーザが外国語を正確に読み書きすることを補助することができるという点にその有利な効果がある。ウェブに基づいて技術用語の訳をマイニングするための研究の目的は、インターネット上の膨大な情報を用いて、辞書では見出すことができない技術用語及び固有名詞(例えば、Mont Blanc→
[文字1]

→merit student)に対する訳の問題をデータマイニング法で解決することによって、技術用語のための訳マイニングシステムを構築することである。このようなシステムは、コンピュータ補助言語学習の一部分として、外国語の補助翻訳や読み書きにも直接適用することができる。また、このシステムは、二言語辞書を編纂するための道具としても用いることができる。すなわち、二言語辞書の編纂時、一方では専門辞書における訳候補オプションを提供し、他方では既存辞書における複数の訳オプションに対する評価機能を提供する。また、このように構成された二言語辞書は、機械翻訳及びクロス言語情報検索にも適用することができる。本発明は、クロス言語情報検索をウェブマイニングと組み合わせた応用の典型的な例を提供している。
【0027】
前述のように、頻度情報に基づいて二言語を含むウェブページから訳を抽出するとき、多くのノイズが存在し、また隠された形態の訳をマイニングすることが非常に難しいという問題に対する解決策として、本発明によるシステムは、カウンティング処理で現れるサブクラス重複及び接頭語/接尾語重複ノイズ情報を除去する。また、複数の目的言語の訳が存在する問題について、本システムは、多様な特性を統合し、重み値の和の形式で候補訳を順位付けして、その典型的な語法を提示する。目的言語テキスト検索は、文書収集部分に含まれ、同一の文書に存在する多言語からなる訳(原語−目的語)を探索する。
【発明を実施するための最良の形態】
【0028】
以下、本発明による具体的な実施形態について添付図面を参照して説明する。図1に示すデータマイニングに基づく語句の訳情報を取得するシステムは、語句を入力する入力装置と、前記語句が入力された後に回答される電子文書及びウェブページによって候補訳を設定し、候補訳の境界を見出し、候補訳の特性をカウンティングする候補訳のカウンティング装置と、前記候補訳のカウンティング装置によって生成されたノイズを識別して処理する候補訳のノイズ処理装置と、前記候補訳のカウンティング装置から取得した候補訳の特性によってすべてのあり得る候補訳を評価して順位付けする候補訳の評価装置と、前記候補訳の典型的な例示文章をウェブ上でマイニングし、これを典型性の程度によって順位付けする候補訳典型例示文章マイニング装置と、他の言語で重み値に応じた順に配列された前記語句の候補訳リスト及び典型的な例示文章を出力する出力装置と、を備える。
【0029】
入力装置はコンピュータであってよく、この場合コンピュータのキーボードを用いて語句を入力する。あるいは、語句は、ネットワーク(例えば、LANまたはインターネットなど)を介して入力装置へ入力することもでき、この場合、入力装置は、ネットワークインターフェースの形態で構成される。また、語句を入力装置へ入力するため、スキャナまたは記憶手段(例えば、ハードウェア駆動装置など)などを使うこともでき、この場合、入力装置は、データ通信のため、記憶手段などに接続できる規格(例えば、USB(Universal Serial Bus)による有線接続またはブルートゥースなどによる無線接続のような規格)に従うように構成される。また、記憶媒体(例えば、さまざまなフラッシュメモリ及びフロッピー(登録商標)ディスク、CD(Compact Disk)、DVD(Digital Versatile Disc, Digital Video Disc)など)に記憶されている語句が入力装置に入力されてもよく、この場合、入力装置は、記憶媒体からデータを読み出す装置(例えば、フラッシュメモリリーダ、フロッピー(登録商標)ディスク駆動装置、CD駆動装置、またはDVD駆動装置など)で構成される。
【0030】
また、入力装置を上記全ての場合に適合するように構成することとしてもよい。
【0031】
出力装置は、ネットワークを介して訳情報を出力し、この場合、出力装置は、ネットワークインターフェースとして構成される。また、訳情報は、他の情報処理装置やパーソナルコンピュータなどの記憶手段へ出力され、この場合、出力装置は、データ通信のため、他情報処理装置やパーソナルコンピュータなどの記憶手段に接続できる規格に従うように構成される。また、訳情報は、記憶媒体へ出力(読出)でき、この場合、出力装置は、これら記憶手段または記憶媒体にデータを記録する装置(例えば、フラッシュメモリリーダ、フロッピー(登録商標)ディスク駆動装置、CD−R駆動装置、またはDVD−R駆動装置)で構成される。
【0032】
出力装置によって出力される訳情報の特定目的の例についても説明する。例えば、訳情報をディスプレイ装置へ出力するためには、出力装置から出力されたデータを用いることができるが、この場合、出力装置は、例えば、ディスプレイ装置とデータ通信をおこなうインターフェース、ディスプレイ装置に接続されたインターフェース、あるいは、内蔵された情報処理装置にデータを伝達するインターフェースとして構成される。
【0033】
また、前記出力装置は、上記全ての場合に適合するように構成することとしてもよい。
【実施例】
【0034】
1.語句の訳マイニングの全体的な構成
図2は、データマイニングに基づいて語句に関する訳及び典型的な語法を得る原理を示すフローチャートである。このシステムは、2つの主要な部分、すなわち、電子文書・ウェブページ収集部分及び訳マイニング部分に分けられる。電子文書・ウェブページ収集部分は、文書・ウェブページ収集モジュール(モジュール202)及び文書・ウェブページ分析モジュール(モジュール204)を含む。文書・ウェブページ収集モジュール(モジュール202)の機能は、異なる言語のキーワード及び注釈を含むウェブページ及び電子文書をダウンロードすることと、ダウンロードしたウェブページ及び電子文書を分析するために、文書・ウェブページ分析モジュール(モジュール204)にウェブページ及び電子文書を提供することである。文書・ウェブページ分析モジュール(モジュール204)は、ウェブページをツリー構造に構成し、必要な特性及びテキスト情報を分析して抽出する。文書及びウェブページの分析後、電子文書及びウェブページは対応するテキストに変換され、同時に文書及びウェブページ内の単語対からなる訳特性情報データベース(モジュール208)が得られる。訳マイニング部分は主に、候補訳カウンティング装置(モジュール205)、候補訳ノイズ処理装置(モジュール206)、及び候補訳評価装置(モジュール207)を含む。対応する候補はクラスタ頻度カウンティングによって得られ、その後生成された訳のノイズが分析されて対応する解が提示され、最後にすべてのあり得る特性を用いてノイズが除去された候補が評価される。
【0035】
ユーザが任意の技術用語、名詞または定着した慣用句(モジュール201)、例えば、「Mont Blanc」を入力すると、システムは、
[文字2]

のように、重み値に応じて順に配列された異なる言語の訳候補リスト(モジュール209)で回答するとともに、候補訳典型例示文章マイニング装置(モジュール210)を介して典型的な例示文章または訳の語法を現す簡単な文脈上の環境を提示する。また、ユーザは、ウェブページに直接アクセスしてさらに詳細な情報を得ることができる。
【0036】
1.1 電子文書及びウェブページにおける訳の分布
電子文書及びウェブページにおける訳注釈の分布は多様化されており、これらのモードの正確な分析をおこなうことにより訳マイニングシステムが全体的な結果を抽出できるようになる。電子文書及びウェブページにおける訳の分布状態は、下記のように一般化されている。一般的にその分布状態は、6つのモード、すなわち、
1.直接ラベリングモード(a)
2.分離ラベリングモード(b)
3.サブクラスラベリングモード(c)
4.テーブルラベリングモード(d)
5.リストモード(e)
6.説明モード(f)
に細分化することができる。直接ラベリングモードは、最も頻繁に用いられる形式であって、通常英語訳が中国語の技術用語の後に位置するものである。この場合、小括弧や中括弧などのような句読点を含むものや、「
[文字3]

Mont Blanc」のようにいかなる符号も含まないものがある。分離ラベリングモードは、単語対の間に中国語または英語が挿入されている場合であって、これは正確に識別しなければならないが、例えば、「
[文字4]

(英語名称)universal life insurance」というようなものである。サブクラスラベリングモードは、抽出に必要な訳が単語対に対応するサブクラスである場合であって、例えば、「Mont Blanc」を検索すると、「
[文字5]

(Chamomix Mont Blanc)」のような単語対が検索される。テーブルラベリングモードは、電子文書及びウェブページのフォーマットが互いに対応する表形式である場合である。リストラベリングモードは、単語対がリストの形態になっている場合である。説明モードは、電子文書及びウェブページに技術用語が記載及び説明されている場合である。電子文書及びウェブページにおける訳分布の具体的な例が図7に示されている。a1〜a3は直接ラベリングモードを示し、b1〜b3は分離ラベリングモードを示し、cはサブクラスラベリングモードを示し、dはテーブルラベリングモードを示し、eはリストモードを示し、fは説明モードを示す。
【0037】
1.2 単語対の潜在特性分析
電子文書及びウェブページを総合的に分析した結果、訳のマイニング過程で候補をマイニングする際に訳に影響を及ぼす潜在特性として、候補語句頻度、異なるウェブページにおける候補語句の分布、原語と目的候補語との間の長さの比、原語と目的候補語との間の距離、及び原語と目的候補語との間のキーワード、符号及び境界情報があることが判明した。
【0038】
(1)候補語句頻度
頻度は、候補語を反映する最も重要な特性であり、判断のための基になるものである。また、頻度は、所定の閾値より大きい場合にのみ考慮される。我々の実験では、閾値は1に設定されているが、検索アイテムがほとんどない単語に対しては、閾値は0に設定される。頻度カウンティングは、全体のアルゴリズム実行効率においてキーとなるものであるので、カウンティングアルゴリズム及びデータ構造を適切に設計しなければならない。
【0039】
(2)異なるウェブページにおける候補語句の分布
分布特性は、主に異なるウェブページにおける候補語句の分布情報を反映する。候補語が均一に分布するほど、その重み値が大きくなる。これは、我々の直観的な認識とも一致するものである。例えば、「Blue chip」の候補用語である
[文字6]


[文字7]

の頻度は、両方とも5であるが、
[文字7]

は、1つのウェブページで2倍もよく現れる。
[文字6]

の分布は、異なるウェブページで1、1、1、1、1である一方、
[文字7]

の分布は、2、2、1である。したがって、
[文字6]

の分布がより均一であるため、候補語になる可能性がさらに高い。
【0040】
(3)原語と目的候補語との間の長さ比
原語と目的候補語との間の長さは、所定の制限要件を満たさなければならない。例えば、英語の単語数が2である場合、対応する中国語の単語数が4であるときに分布確率は最大となり、56.59%に達する。対応する中国語の単語数が2〜6である場合の分布確率は、全体の95.78%となるが、一方で対応する中国語の単語数が1である確率、または7を超える確率は非常に少ない。また、英語の単語数が3である場合、対応する中国語の単語数が4または6であるときに分布確率は最大となり、それぞれ25.54%、28.57%に達し、対応する中国語の単語数が3〜8である確率は全体の93.73%となる。通常、中国語及び英語の単語数が2および3である確率は全体の85.66%である。つまり、2つまたは3つの単語を含む句が最も多いということである。したがって、訳の選択過程でこのような制限的な分布関係を用いて異なる重み値を適用することにより候補語の重み値を改善することができる。
【0041】
(4)原語と目的候補語との間の距離
外見からいって、両単語間の距離が離れているほど両単語が訳語対である確率は少なくなり、その逆も同様である。このような方法を通じてノイズの影響の一部を除去することができる。
【0042】
5)原語と目的候補語との間のキーワード、符号及び境界情報
原語と候補語との間には
[文字8]

などのキーワードや大文字の英文字があるが、このようなキーワード及び文字は、訳の判断を助けるものとなる。また、2つの文章対間の句読点は強力な制限能力を提供するが、例えば、「(」や「)」、「[」のような句読点が現れる場合には、それらが互いに単語対であることの重み値がそれに応じて増加される。したがって、一方では句読点はカウンティング結果をさらに包括的なものとするものであり、他方ではこれら候補語は我々が必要とする正確な訳語である可能性が非常に高いため、我々は正確な判断ができる。境界情報とは、「Chinese to English」、括弧あるいは符号境界、及び個別的に現れる語句などのような、ウェブページで現れる明確な分離マークを候補語句が有することを示す情報である。
【0043】
2.候補語句及びその特性のカウンティング
候補語句及び特性のカウンティング方法は、すべてのあり得る形態の用語、名詞及び定着した慣用句の訳に対する候補語句を完全にマイニングし、それらの頻度及び分布の特性情報を迅速かつ効果的にカウンティングする。この方法によると、(中国語または日本語の)単語あるいは(英語の)用語を増分ユニットとし、ストップワードと分離マークのルールベースを組み合わせて候補訳の正確な境界を得るとともに、登録されていない語句の形態で存在する技術用語、名詞及び定着した慣用句を検索する。
【0044】
候補語句及びその特性のカウンティング方法に関するフローチャートが図3に示されている。このような装置において、対訳を検索しようとする用語及び語句を検索エンジンに入力すると、その用語及び語句を含む文書及びウェブページ(モジュール301)が回答される。このウェブページは、文書・ウェブページ分析モジュール(モジュール302)によって有効なテキスト形式(モジュール303)に変換される。その後、位置決めモジュールによって、テキストにおける検索キーワード位置へのキーワードの直接的な位置付けが行われた後(モジュール305)、キーワードの周囲のウィンドウ(100bytes)においてクラスタカウンティング及び分布情報カウンティング作業が行われる。技術用語は、ウェブページ上のノイズの影響のため多様な形式で現れるが、例えば、「Mont Blanc」は、MONT BLANC、Mont-Blanc、Mont??Blanc、MontBlancなどと記載されている可能性もある。このようなキーワードを完璧に見出すために、多義クラスタ検索技術(モジュール304)が提案されている。この方法は、キーワードにおいては26個の文字を有効な照合クラスタとして用いる一方、目的テキストではこれら有効な文字に対してのみ比較作業を行い、関係ない符号は無視する。この方法を用いると、キーワードの多様な形式を効果的にマイニングすることができる。また、ここでは、英語の大文字・小文字の変換、空白の数の違いを考慮しているが、ひらがなとカタカナの変換や中国語の簡体字と繁体字の変換などをさらに考慮してもよい。
【0045】
クラスタ頻度カウンティング方法(モジュール307)は次のようなものである。すなわち、(中国語または日本語の)各単語または(英語の)用語を開始インデックスとして用い、(中国語または日本語の)単語または(英語の)用語の増分モードで、中心となるキーワード前後のウィンドウに候補クラスタが形成される。中国語及び日本語の技術用語の大部分は登録されていない用語であるので、カウンティング作業をおこなうために技術用語よりは単語をユニットとしてみなすようになり、その結果これらの登録されていない用語をできるだけ多く検索することができるようになる。候補単語クラスタは、ハッシュインデックス法と二分法(モジュール306)によって検索されるが、単語クラスタが見出された場合には、その頻度が累積的に加算される一方、それが見出されない場合には、そのアイテムはその位置に加えられる。そして、電子文書及びウェブページを処理した後、候補語に対する分布情報が記録される。プログラムが実行される間、所定のストップワード及び分離マークのルールベースだけでなく、キーワードの位置に関して設定される開始位置及び終了位置の発見的規則がカウンティング速度を向上させるように構成される(モジュール308)。このような語句の処理を介して候補語句カウンティングの特性情報データベース(モジュール309)を得ることによって、以後の各モジュールの処理を引き続きおこなうことができるようになる。
【0046】
モジュール306では、クラスタの頻度情報が候補訳の抽出のための重要な基準となるので、それに対するカウンティング効率が全体のシステムの動作速度に直接的な影響を及ぼす。ここでは、ハッシュ関数を二分法と組み合わせる方法を用いてインデックスメカニズムを確立する。中国語におけるハッシュ関数は、中国語GB2312コードの6763個の単語によって直接ハッシュ値を算出するものである。この中国語単語は、ハッシュ値に一対一で対応する。すべての単語クラスタは、このハッシュ関数を用いて中国語の頭文字語のハッシュ値によってブロックに分けられる。頭文字語が同一であれば、辞書に決められた順に従って順位付けされる。頭文字語が中国語ではない用語は、すべてインデックス値6763にマッピングされる。ここでGB2312コードはベンチマークとして用いられ、その以外のコーディングシステムはすべて対応するGB2312コードに変換される。GB2312コードに対応しない難しい単語や希少語は、主に技術用語がこのような希少語で構成されることはないという理由から処理されない。また、ユニコードのような他のコーディングシステムと比べる場合、インデックス設定時にGB2312コードを使えば空間的な制約が大きく減少し、カウンティング速度が増大する。英語におけるハッシュ関数は、英語の文字のバイトにおける最後の4つの値を累積的に加算することによって直接用いることができる。
【0047】
3.候補訳ノイズ及びその処理
図4は、候補語句のノイズ及び順位付け処理を示すフローチャートである。クラスタ頻度カウンティング処理後、未処理候補語句リスト(モジュール401)が得られる。この語句は、サブクラス重複識別モジュール(モジュール402)に送信され、接頭語/接尾語重複識別モジュール(モジュール403)を通過した後、候補訳の評価方法(モジュール404)が提示される。この方法では、電子文書及びウェブページから得られた分析された頻度、分布、境界及び距離のような特性情報データベース(モジュール405)(詳細な内容は、単語対の潜在特性分析を参照)を組み合わせる。最後に、順位付けされた候補訳リスト(モジュール406)がユーザに出力される。
【0048】
クラスタ頻度カウンティング方法を用いて、技術用語及び定着した慣用句に関するすべてのあり得る形式の訳を効果的かつ完全にマイニングすることができる。しかし、マイニングされた結果には多量の無用なノイズ及び重複する情報が存在する。これらは、主に次の2つの様相で現れる。(1)サブクラス重複情報。この情報の特徴は、ある単語が別の単語のサブクラスであるということと、その頻度がそれより長い単語の頻度に比べて低いということである。例えば、Mont Blanc:
[文字9]

において、
[文字10]


[文字11]

とは、サブクラス重複情報に属するものであるため、削除しなければならない。(2)接頭語/接尾語重複情報。この情報の特徴は、ある単語がそれより長い単語の接頭語または接尾語であるということと、その頻度がそれより長い単語の頻度より高いということである。例えば、1.Mont Blanc:
[文字12]

(括弧内の16のような数字は、発生頻度を示している)、
[文字13]

、2.Credit rating:
[文字14]

、3.Knowledge portal:
[文字15]

などが挙げられる。第一の例における「
[文字16]

」は、接尾語重複情報であるため、削除しなければならない。第二の例における「
[文字17]

」は、接頭語重複情報であるため、削除しなければならない。第三の例における「
[文字18]

」は、接頭語/接尾語重複情報の定義に従ってはいるが、正しい候補として保持しなければならない。このように、接頭語/接尾語重複情報に係る問題は多少複雑であるため、このような情報は正確な方法で識別しなければならない。
【0049】
3.1 順位付けサブクラス削除法に基づくサブクラス重複語句識別
順位付けサブクラス削除法に基づいてサブクラス重複語句を識別する方法を提案する。ほとんどすべてのサブクラス重複情報は技術用語をカウンティングする過程で生成された過渡的な情報であるので、サブクラス重複情報が含んでいる情報はさらに高い頻度及び分布情報を有するより長い単語クラスタに本質的に含まれている。したがって、先に順位付けしてから、それがサブクラスであるか否かを判定する概念は優れた解決策である。具体的なアルゴリズムのフローが図5に示されているが、ここにおける装置は、モジュール402の拡張となっている。この装置で候補語句リスト(モジュール501)は、エントロピー値によってまず順位付けされる。もしエントロピー値が同一であれば、長さによって順位付けされ、長さが同一であれば、辞書に決められた順によって順位付けされる(モジュール502)。順位付けされたリストでは、保持リストは空に設定され(モジュール503)、保持リストが空であるか否かを判定するため、現時点の候補語句iが順位付けされたリストから読み出される(モジュール504)。空であると判定すると(YES)、それはリストへの最初の登録であるということを示すので、その境界及び長さの比の情報によってこのアイテムを保持するか否かが判定される(モジュール505)。このとき、条件が満たされると、このアイテムは保持リストに加えられ(モジュール506)、条件が満たされないと、順位付けされたリストが繰り返し処理を完了したか否かを判定して、繰り返し処理が完了していない場合繰り返し処理を継続する。一方、保持リストが空ではない場合(NO)、候補jが保持リストにおいて順に読み出され(モジュール507)、jがiのサブクラスであるか及びjが境界情報を含んでいないかが判定される(モジュール508)。そうでない場合(NO)、このアイテムは保持リストに加えられる。その他の場合には、保持リストが繰り返し処理を完了したか否かが判定され、繰り返し処理が完了していなかった場合繰り返し処理を継続する。最後に、保持されている候補語句リストが生成される(モジュール509)。
【0050】
3.2 順位付け相互情報量法に基づくサブクラス接頭語/接尾語重複語句識別
接頭語/接尾語重複情報に関する問題は、比較的複雑である。ある状況では以前の結果は正しい候補であるためそれを保持しなければならない一方、他の状況ではそれを削除しなければならない。したがって、本発明は、接頭語/接尾語重複語句を保持するかまたは削除するかを正確に識別するため、相互情報量法を用いることを提案する。
【0051】
情報エントロピーの概念は、シャノン(Shannon)によって初めて提示された。この情報エントロピーは、ランダム変数の不確実性の程度を測定するためのものであって、次のように定義される。すなわち、
【数1】

ここで、P(xi)は、離散ランダム変数Xの値がxiと設定される場合の離散ランダム変数Xの確率関数である。相互情報量は、情報主義における概念であって、1つのメッセージ中の2つの信号間の相互依存性の程度を測定するために用いられる。2つのイベントXとYの相互情報量は、I(X,Y)=H(X)+H(Y)−H(X,Y)で定義される。ここで、H(X)とH(Y)はそれぞれ、文書内のテキストフォーマットにおけるXとYのエントロピーであり、H(X,Y)は、XとYとが互いに接した後同時に現れるエントロピーである。
【0052】
また、相互情報量は、XとYとの間の組合せの近似度を反映する。たとえXとYが互いに独立であれば、すなわち、XとYとの間にいかなる交わりもなければ、I(X,Y)=0となる。相互情報量I>>0が大きくなるほど、XとYが同時に現れる可能性がランダムに現れる可能性よりも高くなる。すなわち、XとYとの間の組合せがより近くなり、これが一旦単語及び表現に反映されると、2つの単語が結合されて1つの句となる可能性が高くなる。相互情報量の値が低くなるほど、XとYとは比較的ゆるく組み合わされ、それらの間に句境界が存在する可能性が高くなる。
【0053】
クラスタ頻度カウンティングにおいては、異なるウェブページをカウンティングしなければならないが、各ウェブページにおいて候補語が何度も現れることもある。これをエントロピーの算出に反映させ、
【数2】

を定義する。ここで、niは、あるウェブページでカウントされた候補語の数をそれぞれ示し、Nは、候補語の総数を示す。従って、エントロピーの値を算出する公式は、
【数3】

のように表現できる。
【0054】
このように公式を変形すると、すべてのデータをカウントしてから、エントロピー値の算出を開始することが不要となるため、1回のカウンティング作業をおこなうのに必要な時間を減らすことができる。
【0055】
エントロピー値は、用語の発生頻度情報Nを反映するだけでなく、異なるウェブページにおけるその用語の分布情報も反映するが、これは、頻度が増加するとエントロピー値も大きくなるからである。また、候補語が均一に分布するほど、エントロピー値も大きくなる。このことは、我々の直観的な認識とも一致するものである。例えば、「Blue chip」の候補用語である
[文字6]

及び
[文字7]

の頻度は、両方とも5であるが、
[文字7]

は、1つのウェブページで2倍もよく現れる。例えば、
[文字6]

の分布は、異なるウェブページにおいて1、1、1、1、1である一方、
[文字7]

の分布は、2、2、1である。従って、
[文字6]

の分布がより均一であるため、候補語になる可能性がより高くなる。
【0056】
候補モード群において、モードt1、t2についてはC(t1)>C(t2)であり、Cは発生頻度のカウントを表すものとする。また、接尾語重複情報については、t1=suff(t2)であり、接頭語重複情報の場合については、t1=pref(t2)である。また、相互情報量の定義から、I(t2)=H(t1)+H(t2−t1)−H(t2)となることが分かる。
【0057】
相互情報量法に基づく接頭語/接尾語重複語句の識別フローチャートが図6に示されている。ここで用いられる装置は、モジュール403の拡張部分である。サブクラス重複削除モジュールによる処理後、処理される語句リストが生成される(モジュール601)。そして、候補アイテムtがそのリストから読み出され、引き続く10個の候補のtを含む候補モードtΔiまたはΔitの頻度が累積的に加算された後(モジュール603)、条件
【数4】

あるいは、
【数5】

が満たされるかを判定する(モジュール604)。ここで、候補tΔiは、tに引き続く10個の候補ウィンドウ内部に存在し、互いに包摂されない。条件が満たされる場合には、tは削除される(モジュール607)。例えば、Dendritic cell:
[文字19]

の場合、(40+15+4)/62=0.952>0.95であるので、
[文字20]

は削除される。たとえ接頭語/接尾語重複情報が上記条件を満たさない場合、tとtΔ1との相互情報量がそれぞれ算出され(モジュール605)、λI(t)<I(tΔ1)かどうかを判定する(モジュール606)。YESである場合、tは削除され、そうでなければそのまま保持される。ここでλの値はその後の実験によって得られ、実験結果は約0.85でその効果が最高となることを示している。
【0058】
4.候補訳の評価方法
訳ノイズ除去モジュール(モジュール402及びモジュール403)の処理後、最も可能性のある候補語句を最前に配置するため、候補訳の語句の順序を再配置する。例えば、「Mont Blanc」に対する3つの訳語「
[文字21]

」、「
[文字22]

」、及び、「
[文字23]

」はすべて正しいため、前に提示した5つの潜在特性、すなわち、候補語句頻度、異なるウェブページにおける候補語句の分布、原語と目的候補語との間の長さの比、原語と目的候補語との間の間隔、及び、原語と目的候補語との間のキーワード、符号及び境界情報を用いて各候補に対する点数を付ける。その結果、「
[文字21]

、「
[文字23]

」、「
[文字22]

」のような配置結果を得る。この評価の公式は、次のように定義される。すなわち、
【数6】

ここで、PL(s,t)は、原語sと目的候補tとの間の長さ関係の比を示す。この関係は、膨大な量の技術用語及び技術名詞を取得した辞書から学習されたモデル関係であって、それぞれの割合関係は、確率重み値に対応する。Nは、異なるウェブページにおける候補語句の分布を反映するもので、候補語句を含むウェブページの数を示す。Nが大きいほど、Score(t)も大きくなる。PD(i,j)は、原語と、i番目のウェブページでj回現れる目的語との間の距離寄与確率として定義される。ここで、距離は、原語と目的語との間のバイト数として定義される。ウェブページの距離特性をカウンティングした後、その分布はガウスモデルと類似するので、ガウスモデルを用いてシミュレーションをおこなう。δ(i,j)wは、原語と目的候補語との間のキーワード、符号及び境界情報の寄与であって、両方とも予め定義されたキーワードを有している場合、δ(i,j)=1となり、重み値wは大きくされる。その以外の場合、δ(i,j)=0であって、これは公式全体にどのような影響も及ばない。
【0059】
モジュール404の処理を介して、ユーザがランダムな技術用語、名詞及び定着した慣用句を入力すると、本システムは、重み値によって配置された別の言語の訳候補リストで回答するとともに(モジュール406)、その訳の語法を反映した簡単な文脈上の環境を提示する。また、ユーザは、ウェブページに直接アクセスしてさらに多くの詳細な訳情報を取得する。
【0060】
5.訳の典型的な例示文章のマイニング
前記のデータマイニング処理を介して、各語句は、複数のあり得る候補語に対応するようになる。それぞれの目的候補語に対しては目的言語における正確な語法が分からないため、ウェブ上でこのような候補語に対する典型的な文脈上の環境または例示文章をマイニングしなければならない。
【0061】
まず、このような候補語を含む電子文書及びウェブページから、この候補アイテムを含む文章を抽出する。このような文章抽出過程では、句読点マークが分離マークとして用いられ、また文章の長さが閾値として用いられる。所定の最小長さ閾値より短いか、または、所定の最大長さ閾値より長い文章は除去され、その範囲内にある文章は保持される。
【0062】
しかし、このようにして抽出される文章は多すぎるため、意味的かつ文法的に類似する文章をいかにして除去し、最も代表的な文章をいかにして保持し、順位付けするかが課題として残っている。本発明では、中国語における用語の範囲を広げるために、ハウネット(Hownet)の意味リソース及び
[文字24]

(類義語辞書)を活用し、英語における用語範囲を広げるためには、ワードネット(Wordnet)のリソースを活用する。文章間の類似度を算出するためには、動的計画法を用いる。そして、文章間の類似度に従い、ISODATA法を用いてこれら文章をクラスタリングする。クラスタリングされたユニットにおいては、典型的な例示文章が各クラスから抽出され、この抽出された例示文章は、クラスにおけるサンプル数が減少する順に順位付けされる。
【0063】
各クラスから典型的な例示文章を抽出するためには、中央文章法及び平均TF法が用いられる。
【0064】
中央例示文章は、次のように定義される。すなわち、この文章がこのクラスにおける例示文章であり、このクラスにおける他のすべてのサンプルとの間の距離が最短であるものである。
【0065】
平均TFは、次のように定義される。すなわち、
【数7】

ここで、tfはwiの頻度を示し、Lsは文章に含まれた用語の個数を示す。
【0066】
このような典型的な例示文章のマイニング処理を介して、ユーザは、非常に容易に目的言語からなる語句に関する典型的な語法及び例示文章を得ることができる。これにより、非常に容易に外国語を学び、外国語で文章を書くことができるようになる。
【0067】
本発明は、インターネット上の情報を用いて、辞書には収録されていない語句の訳のオプション及び典型的な語法をマイニングし、ユーザが外国語を正確に読み書きすることを補助することができるという点にその有利な効果がある。ウェブに基づいて技術用語の訳をマイニングするための研究の目的は、インターネット上の膨大な情報を用いて、辞書では見出すことができない技術用語及び固有名詞(例えば、Mont Blanc→
[文字1]

→merit studentなど)に対する訳の問題をデータマイニング法で解決することによって、技術用語のための訳マイニングシステムを構築することである。このようなシステムは、コンピュータ補助言語学習の一部分として、外国語の補助翻訳や読み書きにも直接適用することができる。また、このシステムは、二言語辞書を編纂するための道具としても用いることができる。すなわち、二言語辞書の編纂時、一方では専門辞書における訳候補オプションを提供し、他方では既存の辞書における複数の訳オプションに対する評価機能を提供する。また、このようにして構成された二言語辞書は、機械翻訳及びクロス言語情報検索にも適用することができる。本発明は、クロス言語情報検索をウェブマイニングと組み合わせた応用の典型的な例を提示している。
【0068】
本発明は、語句に関する訳の取得及びその典型的な語法に係る問題を解決するため、データマイニング法を用いる効果的なシステムソリューションを提示している。このソリューションは、あり得る訳形式をマイニングし、訳ノイズを識別して処理し、効率的な順位付けをおこなうために複数の特性を用いて、システムが完全かつ正確に訳を得られるようにするとともに、その典型的な語法を提示できるようにする。このように、ユーザが辞書には登録されていないランダムな技術用語、名詞または定着した慣用句を入力すると、システムは、重み値による順に配列された別の言語の訳候補リストで回答するとともに、その訳の語法を現す簡単な文脈上の環境を提示する。また、ユーザは、ウェブページに直接アクセスしてさらに多くの詳細な訳情報を取得することもできる。文、特に技術論文や専門記事を執筆する際、アジア言語(例えば、中国語、日本語、韓国語など)を使う場合には、人々は比較的に専門的な用語を見つけると、対応する英語訳をたびたび書き留めておく。インターネットの発達とアクセス可能な電子文書、技術論文及び公開デジタル図書館の増加により、このような形態の資料はますます多様化していくであろう。したがって、データマイニング法を用いる技術用語、名詞及び定着した慣用句の訳の取得は、非常に効果的なシステムソリューションである。
【0069】
以上説明した実施形態は、単なる例示的なものであって、本発明を限定するものではない。
【0070】
(付記1)語句を入力する入力手順と、入力された語句を含む文書群をストレージ上の電子文書あるいはネットワーク上の電子文書から取り出す検索手順と、入力された語句の対訳語句候補を取り出す対訳候補取り出し手順と、対訳語句候補を提示する対訳語句提示手順とをコンピュータに実行させる対訳語句提示プログラムであって、
前記対訳候補取り出し手順は、
対訳語句の境界候補を取り出す語句境界候補取り出し手順と、
対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出手順と、
統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価手順と、
をコンピュータに実行させることで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示プログラム。
【0071】
(付記2)前記対訳語句評価手順により評価された対訳語句候補に対応し、対訳語句候補を利用している例示文章を抽出し、抽出した例示文章を提示する例示文章抽出手順をさらにコンピュータに実行させることを特徴とする付記1に記載の対訳語句提示プログラム。
【0072】
(付記3)前記例示文章抽出手順により抽出された各例示文書に対して、典型性度を算出する典型性度計算手順と、
典型性度に応じて例示文書の順位付け等を行って例示文書を表示する典型性度依存表示手順と、
をさらにコンピュータに実行させることを特徴とする付記2に記載の対訳語句提示プログラム。
【0073】
(付記4)前記検索手順は、英語の小文字大文字の変換、空白の数の制御、ひらがなとカタカナの変換、中国語の簡体字と繁体字の変換などを含む入力された語句のバリエーションをバリエーション生成規則に基づいて生成するバリエーション生成手順をさらにコンピュータに実行させ、より多くの対訳語句候補を得ることを特徴とする付記1に記載の対訳語句提示プログラム。
【0074】
(付記5)前記語句境界候補取り出し手順は、訳語として現れ得ない文字やあらかじめ指定された文字を無視することにより対訳語候補の数を限定することを特徴とする付記1に記載の対訳語句提示プログラム。
【0075】
(付記6)前記対訳語句候補の統計的特性としては、対訳語句候補頻度、対訳語句候補分布、原語と対訳語句候補との間の長さ比、原語と対訳語句候補との間の間隔、及び原語と対訳語句候補との間のキーワード、符号及び境界情報を含むことを特徴とする付記1に記載の対訳語句提示プログラム。
【0076】
(付記7)前記対訳語句評価手順は、
対訳語句候補間である対訳語句候補が別の対訳語句候補の文字列の部分文字列になっているかどうかの関係である部分文字列関係と、対訳語句候補間の頻度やエントロピー等の統計情報の関係から他の文字列の部分文字列になっているかどうかを示す訳語としての完全度を求める訳語候補完全度算出手順と、
算出された完全度に応じて訳語候補とするかどうかを判定するないしカテゴライズする訳語候補完全度判定手順と、
をさらにコンピュータに実行させることを特徴とする付記1に記載の対訳語句提示プログラム。
【0077】
(付記8)前記対訳語句評価手順は、
対訳語句候補に影響を与え得るすべてのあり得る特性及び前記あり得る特性の影響を分析する候補訳特性分析手順と、
複数の候補訳の特性を組み合わせ、有効な評価式を定める組み合わせ特性評価手順と、
をコンピュータに実行させることを特徴とする付記1に記載の対訳語句提示プログラム。
【0078】
(付記9)前記対訳語句候補のあり得る特性としては、対訳語句候補頻度、異なるウェブページにおける対訳語句候補の分布、原語と目的対訳語句候補との間の長さ比、原語と目的対訳語句候補との間の距離、及び原語と目的語からなる対訳語句候補との間のキーワード、符号及び境界情報を含み、距離特性分布は、電子文書及びウェブページにおける原語と目的対訳語句候補との間の距離をカウンティングすることにより得られ、前記原語と目的対訳語句候補との距離特性は、ガウスモデルによってシミュレーションされることを特徴とする付記8に記載の対訳語句提示プログラム。
【0079】
(付記10)前記組み合わせ特性評価手順は、対訳語句候補の異なる特性に対して寄与度に応じて異なる重み値を付与し、有効な評価式を定めることを特徴とする付記8に記載の対訳語句提示プログラム。
【0080】
(付記11)前記例示文書抽出手順は、文章抽出、クラスタリング、典型的文章抽出などの一連のマイニング方法を用いて、ウェブ上で対訳語句候補に関する典型的な文脈上の環境または例示文章をマイニングし、前記典型性度計算手順は、それぞれのカテゴリーにおける個数によって典型性度を算出し、前記典型性度依存表示手順は、例示文章のサイズに応じてユーザに出力することを特徴とする付記3に記載の対訳語句提示プログラム。
【0081】
(付記12)前記対訳語句提示手順は、重み値の順に配列された対訳語句候補リストを出力インターフェースに表示し、前記出力インターフェースにはオプションの語法の典型的な例示文章あるいは訳の語法の文脈上の環境が同時に表示されることを特徴とする付記1に記載の対訳語句提示プログラム。
【0082】
(付記13)語句を入力する入力工程と、入力された語句を含む文書群をストレージ上の電子文書あるいはネットワーク上の電子文書から取り出す検索工程と、入力された語句の対訳語句候補を取り出す対訳候補取り出し工程と、対訳語句候補を提示する対訳語句提示工程とを含む対訳語句提示方法であって、
前記対訳候補取り出し工程は、
対訳語句の境界候補を取り出す語句境界候補取り出し工程と、
対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出工程と、
統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価工程と、
を含むことで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示方法。
【0083】
(付記14)前記対訳語句評価工程により評価された対訳語句候補に対応し、対訳語句候補を利用している例示文章を抽出し、抽出した例示文章を提示する例示文章抽出工程をさらに含んだことを特徴とする付記13に記載の対訳語句提示方法。
【0084】
(付記15)前記例示文章抽出工程により抽出された各例示文書に対して、典型性度を算出する典型性度計算工程と、
典型性度に応じて順位付け等を行って表示する典型性度依存表示工程と、
をさらに含んだことを特徴とする付記14に記載の対訳語句提示方法。
【0085】
(付記16)前記検索工程は、英語の小文字大文字の変換、空白の数の制御、ひらがなとカタカナの変換、中国語の簡体字と繁体字の変換などを含む入力された語句のバリエーションをバリエーション生成規則に基づいて生成するバリエーション生成工程をさらに含み、より多くの対訳語句候補を得ることを特徴とする付記13に記載の対訳語句提示方法。
【0086】
(付記17)前記語句境界候補取り出し工程は、訳語として現れ得ない文字やあらかじめ指定された文字を無視することにより対訳語候補の数を限定することを特徴とする付記13に記載の対訳語句提示方法。
【0087】
(付記18)前記対訳語句候補の統計的特性としては、対訳語句候補頻度、対訳語句候補分布、原語と対訳語句候補との間の長さ比、原語と対訳語句候補との間の間隔、及び原語と対訳語句候補との間のキーワード、符号及び境界情報を含むことを特徴とする付記13に記載の対訳語句提示方法。
【0088】
(付記19)前記対訳語句評価工程は、
対訳語句候補間である対訳語句候補が別の対訳語句候補の文字列の部分文字列になっているかどうかの関係である部分文字列関係と、対訳語句候補間の頻度やエントロピー等の統計情報の関係から他の文字列の部分文字列になっているかどうかを示す訳語としての完全度を求める訳語候補完全度算出工程と、
算出された完全度に応じて訳語候補とするかどうかを判定するないしカテゴライズする訳語候補完全度判定工程と、
をさらに含んだことを特徴とする付記13に記載の対訳語句提示方法。
【0089】
(付記20)前記対訳語句評価工程は、
対訳語句候補に影響を与え得るすべてのあり得る特性及び前記あり得る特性の影響を分析する候補訳特性分析工程と、
複数の候補訳の特性を組み合わせ、有効な評価式を定める組み合わせ特性評価工程と、
を含んだことを特徴とする付記13に記載の対訳語句提示方法。
【0090】
(付記21)前記対訳語句候補のあり得る特性としては、対訳語句候補頻度、異なるウェブページにおける対訳語句候補の分布、原語と目的対訳語句候補との間の長さ比、原語と目的対訳語句候補との間の距離、及び原語と目的語からなる対訳語句候補との間のキーワード、符号及び境界情報を含み、距離特性分布は、電子文書及びウェブページにおける原語と目的対訳語句候補との間の距離をカウンティングすることにより得られ、前記原語と目的対訳語句候補との距離特性は、ガウスモデルによってシミュレーションされることを特徴とする付記20に記載の対訳語句提示方法。
【0091】
(付記22)前記組み合わせ特性評価手順は、対訳語句候補の異なる特性に対して寄与度に応じて異なる重み値を付与し、有効な評価式を定めることを特徴とする付記20に記載の対訳語句提示方法。
【0092】
(付記23)前記例示文書抽出工程は、文章抽出、クラスタリング、典型的文章抽出などの一連のマイニング方法を用いて、ウェブ上で対訳語句候補に関する典型的な文脈上の環境または例示文章をマイニングし、前記典型性度計算工程は、それぞれのカテゴリーにおける個数によって典型性度を算出し、前記典型性度依存表示工程は、例示文章のサイズに応じてユーザに出力することを特徴とする付記15に記載の対訳語句提示方法。
【0093】
(付記24)前記対訳語句提示工程は、重み値の順に配列された対訳語句候補リストを出力インターフェースに表示し、前記出力インターフェースにはオプションの語法の典型的な例示文章あるいは訳の語法の文脈上の環境が同時に表示されることを特徴とする付記13に記載の対訳語句提示方法。
【0094】
(付記25)語句を入力する入力手段と、入力された語句を含む文書群をストレージ上の電子文書あるいはネットワーク上の電子文書から取り出す検索手段と、入力された語句の対訳語句候補を取り出す対訳候補取り出し手段と、対訳語句候補を提示する対訳語句提示手段とを備えた対訳語句提示装置であって、
前記対訳候補取り出し手段は、
対訳語句の境界候補を取り出す語句境界候補取り出し手段と、
対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出手段と、
統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価手段と、
を備えることで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示装置。
【産業上の利用可能性】
【0095】
以上のように、本発明にかかるデータマイニングに基づいた語句の訳情報を得る対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置は、ウェブ検索技術及びデータマイニング技術を用いて語句(例えば、技術用語、名詞、定着した慣用句など)の目的言語における正確な訳を得ることが必要な対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置に有用である。
【図面の簡単な説明】
【0096】
【図1】本発明によるシステムの構造を示すブロック図である。
【図2】データマイニングに基づいて語句に関する訳及び典型的な語法を得る原理を示すフローチャートである。
【図3】候補訳及びその特性に関するカウンティング方法を示すフローチャートである。
【図4】候補訳のノイズ及び順位付け処理を示すフローチャートである。
【図5】順位付けされたサブクラス削除方法に基づくサブクラス重複識別語句を示すフローチャートである。
【図6】相互情報量法に基づく接頭語/接尾語重複識別語句を示すフローチャートである。
【図7】電子文書及びウェブページにおける訳の分布モードを示す具体的な例を示す図であって、a1〜a3は直接ラベリングモードを示し、b1〜b3は分離ラベリングモードを示し、cはサブクラスラベリングモードを示し、dはテーブルラベリングモードを示し、eはリストモードを示し、fは説明モードを示す。
【符号の説明】
【0097】
201 調査する語句
202 文書及びウェブページダウンロードモジュール
203 WWW及びアクセス可能な文書
204 文書・ウェブページ分析モジュール
205 候補訳カウンティング装置
206 候補訳ノイズ処理装置
207 候補訳評価装置
208 訳特性情報抽出装置
209 順位付けされた候補訳リスト
210 訳典型的例示文章マイニング装置
301 回答された文書及びウェブページ
302 文書・ウェブページ分析モジュール
303 有効テキスト情報
304 多義クラスタ検索技術
305 テキストにおけるキーワードの位置付け
306 ハッシュ法と二分法とを組み合わせたインデクシングモジュール
307 クラスタ頻度カウンティング方法
308 ストップワード及び分離マークのルールベース
309 候補ユニットカウンティング特性情報
401 未処理候補ユニットリスト
402 サブクラス重複確認モジュール
403 接頭語/接尾語重複確認モジュール
404 訳候補評価方法
405 特性情報データベース(頻度、分布、境界、距離)
406 順位付けされた候補訳リスト
501 候補語句リスト
502 エントロピー値順位付け、長さ順位付け、辞書順序順位付け
503 順位付けリスト
504 候補i読出
505 境界及び長さの比の情報に従いこのアイテムを保持するかを判定
507 保持リストの候補jを順次読出
508 jがiのサブクラスであるかを判定
506 このアイテムを保持リストに追加
509 保持された候補ユニットリスト
601 処理される語句リスト
602 候補アイテムt読出
603 引き続く10個の候補のtを含む候補モードtΔiまたはΔitの頻度を累積的に加算
604 tの頻度と累積的に加算された頻度との間の比を算出
605 tとtΔiの相互情報量をそれぞれ算出
606 相互情報量間の比を算出
607 現時点のアイテム削除
608 終了?
609 保持された候補語句リスト

【特許請求の範囲】
【請求項1】
語句を入力する入力手順と、入力された語句を含む文書群をストレージ上の電子文書あるいはネットワーク上の電子文書から取り出す検索手順と、入力された語句の対訳語句候補を取り出す対訳候補取り出し手順と、対訳語句候補を提示する対訳語句提示手順とをコンピュータに実行させる対訳語句提示プログラムであって、
前記対訳候補取り出し手順は、
対訳語句の境界候補を取り出す語句境界候補取り出し手順と、
対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出手順と、
統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価手順と、
をコンピュータに実行させることで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示プログラム。
【請求項2】
前記対訳語句評価手順により評価された対訳語句候補に対応し、対訳語句候補を利用している例示文章を抽出し、抽出した例示文章を提示する例示文章抽出手順をさらにコンピュータに実行させることを特徴とする請求項1に記載の対訳語句提示プログラム。
【請求項3】
前記例示文章抽出手順により抽出された各例示文書に対して、典型性度を算出する典型性度計算手順と、
典型性度に応じて順位付け等を行って表示する典型性度依存表示手順と、
をさらにコンピュータに実行させることを特徴とする請求項2に記載の対訳語句提示プログラム。
【請求項4】
前記検索手順は、英語の小文字大文字の変換、空白の数の制御、ひらがなとカタカナの変換、中国語の簡体字と繁体字の変換などを含む入力された語句のバリエーションをバリエーション生成規則に基づいて生成するバリエーション生成手順をさらにコンピュータに実行させ、より多くの対訳語句候補を得ることを特徴とする請求項1に記載の対訳語句提示プログラム。
【請求項5】
前記語句境界候補取り出し手順は、訳語として現れ得ない文字やあらかじめ指定された文字を無視することにより対訳語候補の数を限定することを特徴とする請求項1に記載の対訳語句提示プログラム。
【請求項6】
前記対訳語句評価手順は、
対訳語句候補間である対訳語句候補が別の対訳語句候補の文字列の部分文字列になっているかどうかの関係である部分文字列関係と、対訳語句候補間の頻度やエントロピー等の統計情報の関係から他の文字列の部分文字列になっているかどうかを示す訳語としての完全度を求める訳語候補完全度算出手順と、
算出された完全度に応じて訳語候補とするかどうかを判定するないしカテゴライズする訳語候補完全度判定手順と、
をさらにコンピュータに実行させることを特徴とする請求項1に記載の対訳語句提示プログラム。
【請求項7】
前記対訳語句評価手順は、
対訳語句候補に影響を与え得るすべてのあり得る特性及び前記あり得る特性の影響を分析する候補訳特性分析手順と、
複数の候補訳の特性を組み合わせ、有効な評価式を定める組み合わせ特性評価手順と、
をコンピュータに実行させることを特徴とする請求項1に記載の対訳語句提示プログラム。
【請求項8】
前記例示文書抽出手順は、文章抽出、クラスタリング、典型的文章抽出などの一連のマイニング方法を用いて、ウェブ上で対訳語句候補に関する典型的な文脈上の環境または例示文章をマイニングし、前記典型性度計算手順は、それぞれのカテゴリーにおける個数によって典型性度を算出し、前記典型性度依存表示手順は、例示文章のサイズに応じてユーザに出力することを特徴とする請求項3に記載の対訳語句提示プログラム。
【請求項9】
語句を入力する入力工程と、入力された語句を含む文書群をストレージ上の電子文書あるいはネットワーク上の電子文書から取り出す検索工程と、入力された語句の対訳語句候補を取り出す対訳候補取り出し工程と、対訳語句候補を提示する対訳語句提示工程とを含む対訳語句提示方法であって、
前記対訳候補取り出し工程は、
対訳語句の境界候補を取り出す語句境界候補取り出し工程と、
対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出工程と、
統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価工程と、
を含むことで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示方法。
【請求項10】
語句を入力する入力手段と、入力された語句を含む文書群をストレージ上の電子文書あるいはネットワーク上の電子文書から取り出す検索手段と、入力された語句の対訳語句候補を取り出す対訳候補取り出し手段と、対訳語句候補を提示する対訳語句提示手段とを備えた対訳語句提示装置であって、
前記対訳候補取り出し手段は、
対訳語句の境界候補を取り出す語句境界候補取り出し手段と、
対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出手段と、
統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価手段と、
を備えることで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2007−73054(P2007−73054A)
【公開日】平成19年3月22日(2007.3.22)
【国際特許分類】
【出願番号】特願2006−243314(P2006−243314)
【出願日】平成18年9月7日(2006.9.7)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】