説明

対訳対抽出装置および対訳対抽出プログラム

【課題】 理想的な対訳関係ではない2言語の文書から固有名詞などの対訳対を自動的に抽出できる対訳対抽出装置を提供する。
【解決手段】 固有表現の出現の類似傾向を示す情報を記憶した記憶部70と、記憶部58に記憶された固有表現と記憶部60に記憶された固有表現との間に対応関係を仮定する仮定部81と、仮定された対応関係に対し、記憶部58に記憶された固有表現と記憶部60に記憶された固有表現との間の対応の良さの尤もらしさを、記憶部70に記憶された類似傾向を示す情報に基づいて算出する尤度算出手段82,83,84と、尤度算出手段82,83,84により算出された尤度に基づいて評価値を算出する尤度統合部85と、評価値に基づいて、記憶部58に記憶された固有表現と記憶部60に記憶された固有表現との間の対応関係を選択することにより対訳対を抽出する選択部86とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、2言語間の対訳対を作成する装置に関し、特に、互いに同じ題材を扱っていることが分っている2言語の文書から単語の対訳対を自動的に抽出する対訳対抽出装置および対訳対抽出プログラムに関する。
【背景技術】
【0002】
従来、対訳辞書を参照することにより、入力した第1言語文書(例えば日本語)を第2言語(例えば英語)文書に自動的に翻訳する機械翻訳システムが知られている。このような機械翻訳においては、対訳辞書に数多くの対訳対が含まれているほど、翻訳の精度が高くなることが期待できる。この対訳辞書を人手で作成するには、手間とコストを要する。そこで、専門用語などの対訳辞書を自動的に作成する装置が知られている(例えば、特許文献1参照)。
【0003】
特許文献1に開示されている装置は、英語文書と日本語文書のそれぞれの文(例文)の間で対応づけを予め行っているデータを格納した対訳コーパス(対訳文書集合)から入力された日本語文書および英語文書に対して、単語の対訳対を抽出するものである。この装置は、入力された英語文書の文中の単語が、同じく入力された日本語文書の文中のどの単語に対応するか求めるために、対訳コーパス中の英文和訳を参照する。また、逆に、入力された日本語文書の文中の単語が、英語文書の文中のどの単語に対応するかを求めるために、対訳コーパス中の和文英訳を参照する。そして、注目している単語に対応した相手先言語の単語の対訳コーパス中での出現頻度に基づいて、注目している単語に尤も対応している相手先言語の単語を抽出することができる。
【特許文献1】特開平7−28819号公報(0011〜0020、図2)
【発明の開示】
【発明が解決しようとする課題】
【0004】
特許文献1に開示された装置は、対訳コーパスから入力された日本語文書および英語文書から単語の対訳対を抽出するものなので、一文ごとに文間の対応づけがなされている理想的な対訳を前提としている。そのため、例えば、新聞記事のニュース等の理想的な対訳ではないが同じ内容の伝達を意図して作成されたことが分かっている2言語の文書からは、単語の対訳対を抽出することができない。
【0005】
このような新聞記事のニュース等の機械翻訳においては、いかに大規模な対訳辞書を用意していても、人名や地名といった固有名詞に関して、新しい表現や急に多用されるようになった表現など、対訳辞書に載っていない表現が常に出現する傾向があるので、このような固有名詞などを対訳辞書に随時補充することが必要である。そのため、一文ごとに文間の対応づけがなされていない2言語の文書から、単語の対訳対を自動的に抽出する装置が要望されている。
【0006】
また、本願発明者らは、抽出の対象である対訳表現を固有名詞や数値表現(合わせて固有表現)に限定して抽出し、抽出した固有表現について、同一の具体的対象を指し示すものをグループ化してから、それぞれの言語の固有表現グループの間の対応関係を、対応づけのよさを表す評価値が最も大きくなるように決定する方法を提案してきた。この中で、固有表現グループ間の対応づけのよさを表す評価値の定義は、それぞれの言語の固有表現グループの各々が対応先を持てば持つ程大きく、かつ、対応を持つ両言語の固有表現グループの各文書中での出現順序が一致していればいる程大きくなるように固定した。しかしながら、理想的な対訳関係ではない2言語の文書において、固有表現グループの出現とその順序が両言語で完全に一致することはまれであり、得られた対応づけが正しい対応づけとならない場合が現実には生じている。また、評価値を、考えられる対応の良さを表わす複数の尺度の加重平均によって定義したが、この加重平均の重みづけをどのように決定するのが最も適切であるかは自明でなかった。
【0007】
本発明は、以上のような問題点に鑑みてなされたものであり、理想的な対訳関係にある文書でなくても、2言語の文書から固有名詞などの対訳対を自動的に抽出することが可能な対訳対抽出装置および対訳対抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
前記目的を達成するために、本願発明者は種々検討を行った結果、以下の知見を見出した。すなわち、ある文書の種類に依存した性質を最もよく受け継いでいるような(尤もらしい)対応関係に対して、最大値を与えるような尺度を、ある文書の種類に依存した性質や特徴にフィットさせることができれば、理想的な対訳関係にある文書でなくても、2言語の文書から固有名詞などの対訳対を自動的に抽出することができる。そのために、本発明の対訳対抽出装置への入力である対訳文書対と同様の性質を持つような対訳文書対の集合に対して、予め人手等で固有名詞などの固有表現、固有表現の類似したものをまとめた固有表現グループ、2言語の固有表現グループ間の対応関係の候補を示すための正解タグなどを付与しておくことを前提とする。この正解タグつき対訳文書対の集合をタグつき対訳コーパスと呼ぶ。この前提の下、ある固有表現グループが相手先言語に対応先を持つ確率、ある2個の固有表現グループの出現順序が両言語で一致している確率などの尺度の基準値を、タグつき対訳コーパスから計算しておく。そして、各々の尺度の基準値が、タグつき対訳コーパス内での当該基準値に最も近似しているときに最尤になるように、この基準値を用いた定義を持つような固有表現の対応関係の良さを示す尤度を導入する。そして、対訳対として抽出すべき最尤の両言語の固有表現の対応関係に対して最大の値を与えるような評価値によって、抽出すべき対訳対を選択する。
【0009】
そこで、本発明の請求項1に記載の装置は、第1言語の文書と、文書全体として第1言語の文書と共通の話題を伝達する意図で作成された第2言語の文書とからなる対訳文書対から、同一対象を指し示す固有表現の対訳対を抽出する対訳対抽出装置において、類似傾向記憶手段と、対応関係仮定手段と、尤度算出手段と、尤度統合手段と、対応関係選択手段とを備える構成とした。
【0010】
かかる構成によれば、対訳対抽出装置は、類似傾向記憶手段によって、対訳文書対と同種の複数の対訳文書対に基づいて予め算出された固有表現の出現の類似傾向を示す情報を記憶する。これは、同一内容を伝達する2言語文書には、その情報の提示順に文書の種類に依存して定まるある特徴的な類似性があり、結果として情報の根幹を伝達する固有表現の出現傾向も文書の種類に依存して定まるある特徴的な類似性を持つという性質と、情報伝達の手段としての固有表現の出現は、出現する固有表現の種類と出現順序によって特徴づけられるという性質を用いたものである。ここで、固有表現とは、人名や地名などの固有名詞のほかに、日時や金額などの数値表現を含んでおり、一般的に出現頻度が低い表現を表している。また、固有表現の出現とは、対訳文書対に固有表現が記載されていることを示す。
【0011】
そして、対訳対抽出装置は、対応関係仮定手段によって、第1言語の文書から抽出された固有表現と、第2言語の文書から抽出された固有表現との間に対応関係を仮定する。ここで、抽出された固有表現が例えば複数個ずつあれば、それぞれの固有表現を組み合わせた数だけ対応関係が仮定されることとなる。そして、対訳対抽出装置は、複数の尤度算出手段によって、対応関係仮定手段により仮定された対応関係に対し、第1言語の文書から抽出された固有表現と、第2言語の文書から抽出された固有表現との間の対応の良さの尤もらしさを、類似傾向記憶手段に記憶された類似傾向を示す情報に基づいて算出する。そして、対訳対抽出装置は、尤度統合手段によって、複数の尤度算出手段により算出された複数個の尤度の値に基づいて生成される値を、評価値として算出する。そして、対訳対抽出装置は、対応関係選択手段によって、尤度統合手段で算出された評価値に基づいて、第1言語の文書から抽出された固有表現と、第2言語の文書から抽出された固有表現との間の対応関係を選択することにより対訳対を抽出する。この対応関係選択手段は、例えば、複数の異なる尺度から求められた尤度を反映した評価値が大きいものほど対応の良さがすぐれているものとして選択する。
【0012】
また、請求項2に記載の対訳対抽出装置は、請求項1に記載の対訳対抽出装置において、類似傾向記憶手段に記憶された類似傾向を示す情報は、第1言語の文書から抽出された固有表現が第2言語の文書から抽出された固有表現と対応づけられている割合を示す訳出確率と、第2言語の文書から抽出された固有表現が第1言語の文書から抽出された固有表現と対応づけられない割合を示す新出確率と、第1言語の文書中の第1の固有表現および第2の固有表現の出現順序が、第2言語の文書中の第1の固有表現に対応する固有表現および第2の固有表現に対応する固有表現の出現順序と一致する割合を示す順序保存確率とを含み、複数の尤度算出手段は、第1言語訳出尤度算出手段と、第2言語新出尤度算出手段と、並べ替え尤度算出手段とを含むこととした。
【0013】
かかる構成によれば、対訳対抽出装置は、第1言語訳出尤度算出手段によって、対応関係仮定手段により仮定された対応関係に対する訳出確率が、類似傾向記憶手段に記憶された訳出確率に基づいてどれだけ尤もらしいかを表す第1言語訳出尤度を算出する。ここで、第1言語訳出尤度は、例えば、第1言語の固有表現が、対応する第2言語の固有表現を持っている場合に訳出されていることとなり、類似傾向記憶手段に記憶されている訳出確率を反映し、持っていない場合、(1−訳出確率)を反映したものとすることができる。
【0014】
そして、対訳対抽出装置は、第2言語新出尤度算出手段によって、対応関係仮定手段により仮定された対応関係に対する新出確率が、類似傾向記憶手段に記憶された新出確率に基づいてどれだけ尤もらしいかを表す第2言語新出尤度を算出する。ここで、例えば、第2言語の固有表現は、対応する第1言語の固有表現を持っていない場合に新出していることとなる。この場合、第2言語新出尤度は、類似傾向記憶手段に記憶されている新出確率を反映したものとすることができる。
【0015】
そして、対訳対抽出装置は、並べ替え尤度算出手段によって、対応関係仮定手段により仮定された対応関係に対する順序保存確率が、類似傾向記憶手段に記憶された順序保存確率に基づいてどれだけ尤もらしいかを表す並べ替え尤度を算出する。ここで、並べ替え尤度は、例えば、第2言語の2つの固有表現が、対応する第1言語の2つの固有表現と同じ順序で出現している場合に順序保存確率を反映し、そうではない場合に(1−順序保存確率)を反映したものとすることができる。
【0016】
また、請求項3に記載の対訳対抽出装置は、請求項2に記載の対訳対抽出装置において、対応規則記憶手段と、確定対応設定手段とをさらに備える構成とした。
【0017】
かかる構成によれば、対訳対抽出装置は、対応規則記憶手段によって、第1言語の文書から抽出された固有表現と第2言語の文書から抽出された固有表現との間の確定的な対応関係の候補を決定する規則を記憶する。ここで、確定的とは、第1言語の固有表現および第2言語の固有表現が、全く同じ文字列を含んでいる場合、数値表現が同じ場合などが含まれる。そして、対訳対抽出装置は、確定対応設定手段によって、対応規則記憶手段に記憶された規則に基づいて、第1言語の文書から抽出された固有表現と、第2言語の文書から抽出された固有表現との間で、前記規則に合致する固有表現対を検出して確定的な対応関係の候補を設定する。そして、対訳対抽出装置は、対応関係仮定手段によって、確定対応設定手段で設定された対応関係の候補を持つ固有表現に対して、候補である相手先以外との対応関係の仮定を排除して、第1言語の文書から抽出された固有表現と、第2言語の文書から抽出された固有表現との間に対応関係を仮定する。これにより、明らかに無用な対応関係の組み合わせを排除することができる。
【0018】
また、請求項4に記載の対訳対抽出装置は、請求項2または請求項3に記載の対訳対抽出装置において、第1の分類手段と、第2の分類手段とをさらに備える構成とした。
【0019】
かかる構成によれば、対訳対抽出装置は、第1の分類手段によって、第1言語の文書から抽出された固有表現を、1つ以上の同一の対象を指す固有表現からなる固有表現グループに分類する。ここで、分類する際には、固有表現に、予め、例えば、人名、地名、日付、金額などの分類種別を付与しておくことができ、人名ならば、ある人物の姓名と姓の関係というものを同一の固有表現グループに分類する。そして、対訳対抽出装置は、第2の分類手段によって、第2言語の文書から抽出された固有表現を、1つ以上の同一の具体的対象を指す固有表現からなる固有表現グループに分類する。そして、対訳対抽出装置は、対応関係仮定手段によって、第1の分類手段により分類された固有表現グループと、第2の分類手段により分類された固有表現グループとの間の対応関係を仮定する。これによれば、対訳が同じ表現になり得る固有表現が予めまとめられるので、第1言語の固有表現と第2言語の固有表現との対応づけをし易くすることができる。
【0020】
また、請求項5に記載の対訳対抽出装置は、請求項4に記載の対訳対抽出装置において、訳出確率をα、新出確率をβ、順序保存確率をγ、第1言語の文書から抽出された固有表現グループの数をa、第2言語の文書から抽出された固有表現グループの数(=d+w)をb、第1言語から第2言語へ訳出された固有表現グループの数をd、第2言語で新出した固有表現グループの数をw、第1言語の文書から抽出された固有表現グループのうち第2言語の文書中の固有表現グループと対応関係があるものから2個選択する組み合わせの数をg、このgのうち、第1言語から第2言語へ固有表現グループ間の順序が保存されている数をhとしたときに、尤度統合手段は、式(1)を用いて評価値Tを算出することを特徴とする。
T=αd×(1−α)(a-d)×βw×γh×(1−γ)(g-h)/(bw×w!)…式(1)
【0021】
このようにすることで、対訳対抽出装置は、尤度統合手段によって、第1言語訳出尤度算出手段と、第2言語新出尤度算出手段と、並べ替え尤度算出手段とから算出された尤度と、その補正とを含めた精度の良い評価値を算出することができる。これによれば、第1言語訳出尤度算出手段と、第2言語新出尤度算出手段と、並べ替え尤度算出手段が算出する各尤度を、確率論に基づいた尤度として構成したので、評価値(正確には式(1)の分子)を各尤度の積で定義することができ、理想的な対訳関係にはない文書の性質に即した評価値を実現できる。なお、式(1)の分母は補正項である。
【0022】
また、請求項6に記載の対訳対抽出装置は、請求項4に記載の対訳対抽出装置において、第1の分類手段により分類された固有表現グループに含まれる固有表現の各々が、対応先である第2の分類手段により分類された固有表現グループに含まれる固有表現の各々に対して対訳関係である割合を示す翻訳確率が、類似傾向を示す情報として、類似傾向記憶手段に記憶され、対応関係仮定手段で仮定された対応関係における前記固有表現グループ全体としての翻訳確率が、類似傾向記憶手段に記憶された翻訳確率に基づいてどれだけ尤もらしいかを表す翻訳尤度を算出する翻訳尤度算出手段を備えることを特徴とする。
【0023】
かかる構成によれば、対訳対抽出装置は、固有表現グループ間の対応の良さを見積もる尺度が増加し、尤度統合手段によって、第1言語訳出尤度算出手段と、第2言語新出尤度算出手段と、並べ替え尤度算出手段と、翻訳尤度算出手段とから算出される各尤度に基づいて、評価値を算出することができる。その結果、文書の特徴を考慮した形で対応づけの精度を向上させることができる。
【0024】
また、請求項7に記載の対訳対抽出装置は、請求項6に記載の対訳対抽出装置において、訳出確率をα、新出確率をβ、順序保存確率をγ、第1言語のi番目の固有表現グループFiから対応する第2言語のi番目の固有表現グループSiへの翻訳確率をp(Si|Fi)、第1言語の文書から抽出された固有表現グループの数をa、第2言語の文書から抽出された固有表現グループの数(=d+w)をb、第1言語から第2言語へ訳出された固有表現グループの数をd、第2言語で新出した固有表現グループの数をw、第1言語の文書から抽出された固有表現グループのうち第2言語の文書中の固有表現グループと対応関係があるものから2個選択する組み合わせの数をg、このgのうち、第1言語から第2言語へ固有表現グループ間の順序が保存されている数をhとしたときに、尤度統合手段は、式(2)を用いて所定の評価値Tを算出することを特徴とする。
【数2】

【0025】
このようにすることで、対訳対抽出装置は、尤度統合手段によって、第1言語訳出尤度算出手段と、第2言語新出尤度算出手段と、並べ替え尤度算出手段と、翻訳尤度算出手段とから算出された尤度と、その補正とを含めた精度の良い評価値を算出することができる。
【0026】
また、請求項8に記載の対訳対抽出プログラムは、第1言語の文書と、文書全体として第1言語の文書と共通の話題を伝達する意図で作成された第2言語の文書とからなる対訳文書対から、同一対象を指し示す固有表現の対訳対を抽出するために、コンピュータを、対応関係仮定手段、尤度算出手段、尤度統合手段、対応関係選択手段として機能させることを特徴とする。
【0027】
かかる構成によれば、対訳対抽出プログラムは、対応関係仮定手段によって、第1言語の文書から抽出された固有表現と、第2言語の文書から抽出された固有表現との間に対応関係を仮定する。そして、複数の尤度算出手段によって、対応関係仮定手段により仮定された対応関係に対し、第1言語の文書から抽出された固有表現と、第2言語の文書から抽出された固有表現との間の対応の良さの尤もらしさを、対訳文書対と同種の複数の対訳文書対に基づいて予め算出された固有表現の出現の類似傾向に基づいて算出する。これにより、理想的な対訳関係にはない文書であっても2言語の文書から尤も適した固有表現の対応関係を求めることができる。そして、尤度統合手段によって、複数の尤度算出手段により算出された複数個の尤度の値に基づいて生成される値を、所定の評価値として算出する。そして、対訳対抽出プログラムは、対応関係選択手段によって、尤度統合手段で算出された評価値に基づいて、第1言語の文書から抽出された固有表現と、第2言語の文書から抽出された固有表現との間の対応関係を選択することにより対訳対を抽出する。
【発明の効果】
【0028】
請求項1又は請求項8に記載の発明によれば、対訳対抽出装置において、入力される対訳文書対と同様の性質を持つような対訳文書対の集合に対して、予め2言語の固有表現の対応関係の正解を付与したタグつき対訳コーパスを構築することを前提として、このタグつき対訳コーパスに基づいて、予め算出された固有表現の出現の類似傾向を示す情報により、尤も適した固有表現の対応関係を求めることができる。このとき、タグつき対訳コーパス内での基準値に最も近似しているときに最尤になるように、この基準値を用いた定義を持つような固有表現の対応関係の良さを示す尤度を複数導入する。これらの尤度の重み付けは確率論的には乗算により表現できるので、評価値を構成する尤度の重み付けを適切なものとすることができる。これによって、理想的な対訳関係にある文書でなくても、2言語の文書から、固有表現などの出現頻度の低い表現も含めて、対訳対を自動的に抽出することができる。
【0029】
請求項2または請求項5に記載の発明によれば、対訳対抽出装置において、第1言語訳出尤度算出手段と、第2言語新出尤度算出手段と、並べ替え尤度算出手段が算出する各尤度を、確率論に基づいた尤度として構成したので、評価値を各尤度の積で定義することができ、理想的な対訳関係にはない文書の性質に即した評価値を実現できる。
【0030】
請求項3に記載の発明によれば、対訳対抽出装置において、固有表現の対応の良さを示す尤度を算出する前に、明らかに無用な対応関係の組み合わせを排除できるので、対訳対を精度よく、迅速に抽出することができる。
請求項4に記載の発明によれば、対訳対抽出装置において、対訳が同じ表現になり得る固有表現が予めまとめられる。したがって、第1言語の固有表現と第2言語の固有表現との対応づけをし易くすることができるので、対訳対を精度よく、迅速に抽出することができる。
【0031】
請求項6または請求項7に記載の発明によれば、対訳対抽出装置において、第1言語訳出尤度算出手段と、第2言語新出尤度算出手段と、並べ替え尤度算出手段と、翻訳尤度算出手段とから算出される各尤度に基づいて、評価値を算出することができる。その結果、文書の特徴を考慮した形で対応づけの精度を向上させることができる。
【発明を実施するための最良の形態】
【0032】
以下、本発明の実施の形態について図面を参照して説明する。
(第1の実施形態)
[対訳対抽出装置の構成]
図1は、第1の実施形態の対訳対抽出装置の構成を示す図である。
対訳対抽出装置1は、2つの言語間における厳密な意味での対訳ではないが、文書全体として互いに共通の話題を伝達する意図で作成された2つの文書(対訳文書対)から、同一の対象を指し示す固有名詞(人名、地名、組織名など)、または数値表現(日時、金額)(この固有名詞または数値表現を以後単に「固有表現」と呼ぶ)の対訳対を、同種の対訳文書対における固有表現の出現の類似傾向を参考にして抽出するものである。この種の対訳文書対としては、例えばある事件を伝える新聞記事等が挙げられる。
以下の説明では、日本語と英語の対訳文書対(例えば図3参照)から対訳対を抽出する装置を例に説明するが、言語の組合せはこの2言語に限定されるものではなく、どのような言語の組合せでも本発明を適用することができる。
【0033】
対訳対抽出装置1は、図1に示すように、日本語文書記憶部10と、英語文書記憶部20と、日本語文書処理部30と、英語文書処理部40と、日本語固有表現グループ記憶部50と、英語固有表現グループ記憶部52と、対応規則記憶部54と、確定対応設定部56と、日本語固有表現グループ記憶部58と、英語固有表現グループ記憶部60と、類似傾向記憶部70と、評価値算出部80と、対訳辞書作成部90と、対訳辞書記憶部100とを備えている。
【0034】
日本語文書記憶部10は、対訳文書対のうち、日本語の文書を記憶するもので、ハードディスク等の一般的な記憶装置である。
英語文書記憶部20は、対訳文書対のうち、英語の文書を記憶するもので、ハードディスク等の一般的な記憶装置である。
本実施の形態では、対訳文書対は例えば新聞記事であり、日本語の文書が先に作成されたものとする。なお、これら日本語文書記憶部10と、英語文書記憶部20とを備えずに、日本語文書処理部30と英語文書処理部40とに、直接またはネットワークなどを介して対訳文書対である日本語の文書と英語の文書とをそれぞれ入力するようにしてもよい。
【0035】
日本語文書処理部30は、日本語文書記憶部10から日本語の文書を読み出して、固有表現を抽出し、抽出した固有表現から同一の対象を指し示すもの同士をグループ(固有表現グループ)にまとめるものである。この日本語文書処理部30は、固有表現抽出部32と、固有表現記憶部34と、グループ化処理部36とを備えている。
【0036】
固有表現抽出部32は、日本語文書記憶部10から日本語の文書を読み出して、この日本語の文書を構成する単語列中から固有表現である単語列を抽出すると共に、各々の固有表現を分類種別(例えば、組織名、人名、地名、固有物名、日付、時刻、金額、割合など)に分類するものである。この固有表現抽出部32は、例えば、人手で記述した抽出規則を用いるアプリケーションプログラムを実行することにより実現できる。または、予め構築された分類種別のタグ付の固有表現のデータ(正解データ)から機械学習の手法によって抽出規則を学習済のアプリケーションプログラムを実行することにより実現できる。このような機械学習を用いたアプリケーションプログラムを実行する装置して、例えばSVM(Support Vector Machine)を利用することができる。
固有表現記憶部34は、固有表現抽出部32により抽出された日本語の固有表現を記憶するものである。
【0037】
グループ化処理部(第1の分類手段)36は、固有表現記憶部34に記憶された日本語の固有表現の中で、それら固有表現どうしの文字列の類似度等に基づき、同一の対象を指し示すものか否かを判定し、同一の対象を指し示すものをグループ化する処理を行って日本語の固有表現グループを作成するものである。ここで、同一のグループにまとめることができる固有表現は、その分類種別が同一であるものに限定される。このグループ化処理部36は、例えば、ある人物の姓名と姓の関係、ある固有表現とその略語の関係というものを同一のグループにまとめる。このとき、他の固有表現と共にグループを構成しない単独の固有表現もあり得るが、本実施形態の固有表現グループでは、このような一要素の場合もグループとして含める。
【0038】
英語文書処理部40は、英語文書記憶部20から英語の文書を読み出して、固有表現を抽出し、抽出した固有表現から同一の対象を指し示すもの同士をグループ(固有表現グループ)にまとめるものである。この英語文書処理部40は、固有表現抽出部42と、固有表現記憶部44と、グループ化処理部46とを備えている。
【0039】
固有表現抽出部42、固有表現記憶部44およびグループ化処理部(第2の分類手段)46は、言語が異なることを除き、日本語文書処理部30の固有表現抽出部32、固有表現記憶部34およびグループ化処理部36と同様なものであるので説明を省略する。なお、英語の固有表現抽出部42と日本語の固有表現抽出部32とは、同様の基準によって同一の分類種別を使用して固有表現を抽出かつ分類できるように、予め規則が用意されているか、あるいは予め何らかの正解データからの機械学習が済んでいるものとする。
【0040】
日本語固有表現グループ記憶部50は、日本語文書処理部30により抽出および分類された日本語の固有表現グループを記憶するものである。
英語固有表現グループ記憶部52は、英語文書処理部40により抽出および分類された英語の固有表現グループを記憶するものである。
【0041】
対応規則記憶部(対応規則記憶手段)54は、対訳辞書、字面対応規則などを記憶するもので、ハードディスク等の一般的な記憶装置である。ここで、字面対応規則とは、たとえばアラビア数字と英語でいうスペルアウトした数値表現(例えば「30」と「thirty」)等、互いに全く同じ語であることが明らかなことが字面からわかるような語の対応関係を記述したものである。
【0042】
確定対応設定部(確定対応設定手段)56は、対応規則記憶部54を参照して、日本語固有表現グループ記憶部50に記憶された日本語の固有表現グループと、英語固有表現グループ記憶部52に記憶された英語の固有表現グループの各々の組み合わせについて、両言語の各グループに含まれる日本語の固有表現と英語の固有表現との組み合わせの中で確定的に対応しているものがあるかどうかを判定するものである。この確定対応設定部56は、確定的に対応していると判定した場合に、2言語の両グループの双方に相手グループへの対応候補であることを示す確定対応候補情報を付与する。そして、確定対応設定部56は、判定を行った後、日本語の固有表現グループおよび英語の固有表現グループをそれぞれ日本語固有表現グループ記憶部58および英語固有表現グループ記憶部60に格納する。ここで、確定的なものの例としては、日本語の固有表現グループおよび英語の固有表現グループが共に、「EU」という文字列を含んでいる場合、日付を表す文字列が同じ場合、双方に同一の分類種別が1つずつしかない場合などがある。
【0043】
日本語固有表現グループ記憶部58は、確定対応設定部56から出力される日本語の固有表現グループを記憶するものである。この日本語固有表現グループ記憶部58は、確定対応設定部56で確定対応候補情報を付与したときには、確定対応候補情報が一部に付与された日本語の固有表現グループを記憶することとなる。
英語固有表現グループ記憶部60は、言語が異なる点を除いて、日本語固有表現グループ記憶部58と同様なものであり、確定対応設定部56から出力される英語の固有表現グループを記憶するものである。
【0044】
類似傾向記憶部(類似傾向記憶手段)70は、予め同種の複数の対訳文書対から抽出された固有表現の出現類似傾向として、日本語訳出確率、英語新出確率および順序保存確率を記憶するもので、ハードディスク等の一般的な記憶装置である。
日本語訳出確率(訳出確率)は、ある日本語固有表現グループが対応先である英語固有表現グループを持つ確率である。この日本語訳出確率はすべての種類の日本語固有表現グループに対して同じ値を持つものとする。
【0045】
この日本語訳出確率を算出するためには、予め、日本語文書処理部30に入力する日本語の文書と同種の複数の対訳文書対に対して、人手で正解の固有表現、固有表現グループ、後記する対応集合を付与したもの(タグつき対訳コーパス)を用意する。そして、このタグつき対訳コーパスから予め計算された日本語訳出確率が類似傾向記憶部70に格納される。なお、このタグつき対訳コーパスを利用する代わりに、日本語訳出確率として、経験的に妥当だと思われる何らかの確率値を先験的に与えることもできる。
【0046】
英語新出確率(新出確率)は、ある英語固有表現グループが対応先である日本語固有表現グループを持たない確率である。この英語新出確率はすべての種類の英語固有表現グループに対して同じ値を持つものとする。この英語新出確率は、英語文書処理部40に入力する英語の文書と同種の複数の対訳文書対に基づいたタグつき対訳コーパスから予め計算しておくことができる。なお、このタグつき対訳コーパスを利用する代わりに、英語新出確率として、経験的に妥当だと思われる何らかの確率値を先験的に与えることもできる。
【0047】
順序保存確率は、対応先である英語固有表現グループを持つ2個の日本語固有表現グループが日本語の文書中に出現する順序が、それらの各々の対応先である英語固有表現グループが英語文書中に出現する順序と一致する確率である。なお、日本語(英語)の文書中に出現する2個の固有表現グループの出現順序とは、各グループ中で日本語(英語)の文書の先頭に最も近い固有表現の出現順序であると定義する。
【0048】
この順序保存確率は、日本語文書処理部30および英語文書処理部40に入力する対訳文書対と同種の複数の対訳文書対に基づいたタグつき対訳コーパスから予め計算しておくことができる。なお、このタグつき対訳コーパスを利用する代わりに、順序保存確率として、経験的に妥当だと思われる何らかの確率値を先験的に与えることもできる。
【0049】
評価値算出部80は、詳細は後記するが、確定対応候補情報と矛盾しない範囲で、類似傾向記憶部70を参照して、日本語固有表現グループ記憶部58に記憶された日本語固有表現グループと、英語固有表現グループ記憶部60に記憶された英語固有表現グループとの間に対応関係を仮定して、それぞれの対応関係に対して所定の評価値を算出し、対訳辞書作成部90に出力するものである。
【0050】
対訳辞書作成部(対応関係選択手段)90は、評価値算出部80により算出された評価値に基づいて、日本語固有表現グループと英語固有表現グループとの間のすべての対応関係(後記する対応集合)に対して、評価値が最大であるものを決定すべき対応関係として選択するものである。この対訳辞書作成部90は、選択した対応関係から、日本語の固有表現と英語の固有表現との可能なすべての組み合わせを対訳対として抽出し、抽出した対訳対を対訳辞書記憶部100に格納する。
対訳辞書記憶部100は、評価値算出部80により抽出された対訳対を記憶するもので、ハードディスク等の一般的な記憶装置である。
【0051】
図2は、評価値算出部の詳細な構成を示すブロック図である。この評価値算出部80は、対応関係仮定部81と、日本語訳出尤度算出部82と、英語新出尤度算出部83と、並べ替え尤度算出部84と、尤度統合部85とを備える。
【0052】
対応関係仮定部(対応関係仮定手段)81は、日本語固有表現グループ記憶部58に記憶された日本語の固有表現グループのいくつか(固有表現グループ群)と、英語固有表現グループ記憶部60に記憶された英語の固有表現グループのいくつか(固有表現グループ群)との間で、以下の条件を満足するようなグループ間の対応関係(組み合わせ)を仮定して、その対応関係を要素に持つ集合(以下、対応集合と呼ぶ)のすべてを抽出して、日本語訳出尤度算出部82、英語新出尤度算出部83および並べ替え尤度算出部84に出力する。
【0053】
このときの条件は、以下の3つの条件である。
第1に、日本語および英語の各固有表現グループは、高々1個の対応先(相手言語の固有表現グループ)と対応が仮定される(対応先を持たない、または1個持つ)。すなわち、対応集合の要素は、日本語および英語の各固有表現グループがそれぞれ1個ずつからなるペアであるか、または、対応集合自体が空集合(いずれの固有表現グループも対応先を持たない場合)である。
第2に、日本語および英語の各固有表現グループは、対応先を持つ場合、その分類種別が対応先の分類種別と同一であること。すなわち、ペアを形成する固有表現グループは、それぞれ同一の分類種別である。
第3に、日本語および英語の各固有表現グループは、分類種別が同一である複数の対応先を対応候補として仮定できる場合、それぞれのペアを異なる対応集合として列挙する。
【0054】
ここで、図3および図4を参照して、対応集合の具体例を説明する。図3は、想定している日本語の文書と英語の文書の具体例を説明するための説明図であり、図4は、対応集合の具体例を説明するための説明図である。図3の(a)に示すように、日本語(J)の固有表現グループ群300に、分類種別XのグループJ(X1)、分類種別YのグループJ(Y1)、J(Y2)が含まれている。この例では、分類種別Xは組織名、分類種別Yは地名を表すものとする。また、図3の(b)に示すように、英語(E)の固有表現グループ群302に、分類種別XのグループE(X1)、分類種別YのグループE(Y1)、E(Y2)およびE(Y3)が含まれている。この例において、確定対応候補情報が付与されていないとすると、同一の分類種別同士のペアを組む場合、前記した3つの条件によれば、対応集合は、図4の表404に示すように、26通り存在することになる。なお、表404において、「null」は、いずれの固有表現グループも対応先を持たない場合を示している。
仮に、確定対応設定部56がグループJ(Y1)とグループE(Y1)との両方に確定対応候補情報を付与していたとすると、対応関係仮定部81は、表404の中で、J(Y1)がE(Y1)以外とペアを形成する、もしくはE(Y1)がJ(Y1)以外とペアを形成する14通りを排除した残りの12通りについて、対応集合を仮定することとなる。
【0055】
再び図2を参照して評価値算出部80の説明を続ける。
日本語訳出尤度算出部(第1言語訳出尤度算出手段)82は、対応関係仮定部81で仮定された対応集合の各々に対し、類似傾向記憶部70を参照して、日本語訳出尤度を算出するものである。この日本語訳出尤度とは、日本語固有表現グループ群と英語固有表現グループ群との間に、ある対応集合を考えた場合、日本語固有表現グループ群に含まれる固有表現グループの各々が対応先である英語固有表現グループを持つか否かがどれだけ尤もらしいかを表す量である。ここで、尤もらしさの規範としては、類似傾向記憶部70に予め格納してある日本語訳出確率を用いる。
【0056】
この日本語訳出尤度算出部82は、対応関係仮定部81から日本語固有表現グループ群、英語固有表現グループ群、そして対応集合が与えられると、日本語固有表現グループ群に含まれる日本語固有表現グループの各々に対して、対応する英語固有表現グループを持っているかどうかを判定する。そして、日本語訳出尤度算出部82は、日本語固有表現グループが、対応する英語固有表現グループを持っている場合、類似傾向記憶部70に格納されている日本語訳出確率を選択し、持っていない場合、(1−日本語訳出確率)を選択した上で、これらの選択結果をすべての日本語固有表現グループに亘って乗じたものを日本語訳出尤度とする。
【0057】
すなわち、日本語訳出尤度算出部82は、例えば、式(3)を用いて日本語訳出尤度T1を算出する。ただし、αは日本語訳出確率、aは日本語の文書から抽出された固有表現グループの数、dは日本語から英語へ訳出された固有表現グループの数をそれぞれ表す。
【0058】
1=αd×(1−α)(a-d) …式(3)
【0059】
英語新出尤度算出部(第2言語新出尤度算出手段)83は、対応関係仮定部81で仮定された対応集合の各々に対し、類似傾向記憶部70を参照して、英語新出尤度を算出するものである。この英語新出尤度とは、日本語固有表現グループ群と英語固有表現グループ群との間に、ある対応集合を考えた場合、英語固有表現グループ群に含まれる固有表現グループの各々が対応先である日本語固有表現グループを持たないものである割合が、どれだけ尤もらしいかを表す量である。ここで、尤もらしさの規範としては、類似傾向記憶部70に予め格納してある英語新出確率を用いる。
【0060】
この英語新出尤度算出部83は、対応関係仮定部81から日本語固有表現グループ群、英語固有表現グループ群、そして対応集合が与えられると、英語固有表現グループ群に含まれる英語固有表現グループの各々に対して、対応する日本語固有表現グループを持っているかどうかを判定する。そして、英語新出尤度算出部83は、英語固有表現グループが、対応する日本語固有表現グループを持っていない場合、類似傾向記憶部70に格納されている英語新出確率を選択した上で、この選択結果をすべての英語固有表現グループに亘って乗じたものを英語新出尤度とする。すなわち、英語新出尤度算出部83は、例えば、式(4)を用いて英語新出尤度T2を算出する。ただし、βは英語新出確率、wは英語で新出した固有表現グループの数をそれぞれ表す。
【0061】
2=βw …式(4)
【0062】
並べ替え尤度算出部(並び替え尤度算出手段)84は、対応関係仮定部81で仮定された対応集合の各々に対し、類似傾向記憶部70を参照して、並べ替え尤度を算出するものである。この並べ替え尤度とは、日本語固有表現グループ群と英語固有表現グループ群との間に、ある対応集合を考えた場合、日本語固有表現グループ群に含まれる固有表現グループのうち、対応先である英語固有表現グループを持っているものについて、日本語固有表現グループが日本語の文書中に出現する順序と、英語固有表現グループが英語の文書中において出現する順序とを比較したときに、並べ替えられ方が、どれだけ尤もらしいかを表す量である。ここで、尤もらしさの規範としては、類似傾向記憶部70に予め格納してある順序保存確率を用いる。
【0063】
この並べ替え尤度算出部84は、対応関係仮定部81から日本語固有表現グループ群、英語固有表現グループ群、そして対応集合が与えられると、日本語固有表現グループ群に含まれる固有表現グループのうち、対応先のある英語固有表現グループを持つものから2個のグループを選択するすべての組み合わせの各々に対して、2個の日本語固有表現グループの出現順序と、対応先の2個の英語固有表現グループの出現順序とが同じであるか(順序が保存されているか)どうかを判定する。そして、並べ替え尤度算出部84は、順序が保存されている場合、順序保存確率を選択し、保存されていない場合、(1−順序保存確率)を選択した上で、この選択結果をすべての組み合わせに亘って乗じたものを並べ替え尤度とする。
【0064】
すなわち、並べ替え尤度算出部84は、例えば、式(5)を用いて並べ替え尤度T3を算出する。ただし、γは順序保存確率、gは日本語(第1言語)の文書から抽出された固有表現グループのうち英語(第2言語)の文書中の固有表現グループと対応関係があるものから2個選択する組み合わせの数、h:gのうち、日本語(第1言語)から英語(第2言語)へ固有表現グループ間の順序が保存されている数をそれぞれ表す。
【0065】
3=γh×(1−γ)(g-h) …式(5)
【0066】
尤度統合部(尤度統合手段)85は、日本語訳出尤度算出部82により算出された日本語訳出尤度と、英語新出尤度算出部83により算出された英語新出尤度と、並べ替え尤度算出部84により算出された並べ替え尤度とに基づいて生成される値を、日本語固有表現グループと英語固有表現グループとの間の対応の尤もらしさを示す対応尤度(評価値)として算出するものである。この尤度統合部85は、算出した対応尤度(評価値)を、対応関係仮定部81から出力される対応集合に付与して、対訳辞書作成部90に出力する。
【0067】
尤度統合部85は、例えば、前記した式(3)で示されるT1、式(4)で示されるT2、式(5)で示されるT3および補正項である式(6)で示されるHとを乗算して式(7)で示される対応尤度Tを算出する。
【0068】
H=1/(bw×w!) …式(6)
ただし、bは英語の文書から抽出された固有表現グループの数(前記したdとwとの和)、wは英語で新出した固有表現グループの数をそれぞれ示す。
【0069】
T=T1×T2×T3×H
=αd×(1−α)(a-d)×βw×γh×(1−γ)(g-h)/(bw×w!)…式(7)
【0070】
なお、対訳対抽出装置1は、一般的なコンピュータを、前記した各手段を機能させる対訳対抽出プログラムとして実現することもできる。この対訳対抽出プログラムは、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
【0071】
[対訳対抽出装置の動作]
次に、図5を参照(適宜図1および図2参照)して、第1の実施形態に係る対訳対抽出装置1の動作について説明する。図5は、本発明の第1の実施形態に係る対訳対抽出装置の動作を示すフローチャートである。
【0072】
まず、対訳対抽出装置1は、日本語文書処理部30の固有表現抽出部32によって、日本語文書記憶部10から日本語の文書を読み出して、固有表現である単語列を抽出し(ステップS1)、各々の固有表現を分類種別に分類する。ここで抽出、分類された固有表現は固有表現記憶部34に格納される。そして、対訳対抽出装置1は、日本語文書処理部30のグループ化処理部36によって、固有表現記憶部34に格納されている日本語の固有表現のうち、同一の対象を指し示すものをグループ化して(ステップS2)、日本語固有表現グループ記憶部50に格納する。
【0073】
対訳対抽出装置1は、英語文書処理部40の固有表現抽出部42によって、英語文書記憶部20から英語の文書を読み出して、固有表現である単語列を抽出し(ステップS3)、各々の固有表現を分類種別に分類する。ここで抽出、分類された固有表現は固有表現記憶部44に格納される。そして、対訳対抽出装置1は、英語文書処理部40のグループ化処理部46によって、固有表現記憶部44に格納されている英語の固有表現のうち、同一の対象を指し示すものをグループ化して(ステップS4)、英語固有表現グループ記憶部52に格納する。なお、ステップS1およびステップS2の動作と、ステップS3およびステップS4の動作は、順序を入れ替えてもよいし、並列に処理するようにしてもよい。
【0074】
日本語固有表現グループ記憶部50および英語固有表現グループ記憶部52に、固有表現グループが格納されると、対訳対抽出装置1は、確定対応設定部56によって、対応規則記憶部54を参照して、両記憶部50,52に格納された固有表現グループの各々の組み合わせの中で確定的に対応しているものがあるかどうかを判定する(ステップS5)。
【0075】
確定的に対応しているものがある場合(ステップS5:Yes)、確定対応設定部56は、その固有表現グループ(双方)に確定対応候補情報を付与して(ステップS13)、判定の済んだ両言語の固有表現グループを、それぞれ日本語固有表現グループ記憶部58および英語固有表現グループ記憶部60に格納する。
確定的に対応しているものがない場合(ステップS5:No)、確定対応設定部56は、判定の済んだ両言語の固有表現グループを、そのまま、それぞれ日本語固有表現グループ記憶部58および英語固有表現グループ記憶部60に格納する。
【0076】
日本語固有表現グループ記憶部58および英語固有表現グループ記憶部60に、固有表現グループが格納されると、対訳対抽出装置1は、評価値算出部80によって、以下の処理を行う。
評価値算出部80は、対応関係仮定部81によって、日本語固有表現グループ記憶部58に記憶された日本語の固有表現グループと、英語固有表現グループ記憶部60に記憶された英語の固有表現グループとの間で、グループ間の対応関係を仮定して、図4に示したように、対応集合のすべてを抽出し、それらを日本語訳出尤度算出部82、英語新出尤度算出部83および並べ替え尤度算出部84に出力する(ステップS6)。
【0077】
そして、評価値算出部80は、日本語訳出尤度算出部82によって、仮定された対応集合の各々に対して、前記した式(3)に基づいて、日本語訳出尤度T1を算出する(ステップS7)。そして、評価値算出部80は、英語新出尤度算出部83によって、仮定された対応集合の各々に対して、前記した式(4)に基づいて、英語新出尤度T2を算出する(ステップS8)。そして、評価値算出部80は、並べ替え尤度算出部84によって、仮定された対応集合の各々に対して、前記した式(5)に基づいて、並べ替え尤度T3を算出する(ステップS9)。なお、ステップS6乃至ステップS8の処理の順序は任意であり、並列に処理してもよい。
【0078】
ステップS6〜S8が完了すると、評価値算出部80(図2参照)は、尤度統合部85によって、日本語訳出尤度と、英語新出尤度と、並べ替え尤度と、前記した式(6)に示す補正項Hとを積算することにより、対応尤度を算出する(ステップS10)。すなわち、尤度統合部85は、前記した式(7)に基づいて、対応尤度Tを算出する。
【0079】
続いて、対訳対抽出装置1は、対訳辞書作成部90によって、尤度統合部85から出力される対応尤度が最大である対応集合を決定すべき対応関係として選択し(ステップS11)、選択した対応集合から、日本語の固有表現と英語の固有表現との可能なすべての組み合わせを対訳対として抽出し、対訳辞書記憶部100に格納する(ステップS12)。
【0080】
次に、前記したステップS6〜ステップS8で算出される各尤度の具体例を図6および図7参照して、説明する。図6は、日本語訳出尤度と英語新出尤度の説明図であり、図7は、並び替え尤度の説明図である。
まず、日本語訳出尤度を説明する。図6の(a)に示すように、対応関係仮定部81から出力される日本語(J)の固有表現グループ群600に、固有表現グループ601,602,603が含まれ、英語(E)の固有表現グループ群610に、固有表現グループ611,612が含まれているとする。この固有表現グループ群600,610を対応集合として捉えると、固有表現グループ601と固有表現グループ611との間、および、固有表現グループ602と固有表現グループ612との間に対応関係が仮定されていることとなる。
【0081】
この場合、3個の日本語固有表現グループから2個の英語固有表現グループが訳出されたものとみなす。したがって、前記した式(3)において、a=3、d=2となる。また、類似傾向記憶部70(図1参照)に格納された日本語訳出確率αを例えば0.8とした場合、日本語訳出尤度は、T1=0.128となる。
【0082】
次に、英語新出尤度を説明する。図6の(b)に示すように、対応関係仮定部81から出力される日本語(J)の固有表現グループ群620に、固有表現グループ621,622が含まれ、英語(E)の固有表現グループ群640に、固有表現グループ641,642,643が含まれているとする。この固有表現グループ群620,640を対応集合として捉えると、固有表現グループ621と固有表現グループ641との間、および、固有表現グループ622と固有表現グループ642との間に対応関係が仮定されていることとなる。
【0083】
この場合、2個の日本語固有表現グループから3個の英語固有表現グループが訳出されたものとみなす。つまり、対応のない1個の英語固有表現グループが新たに訳出されことになる。したがって、前記した式(4)において、w=1となる。また、類似傾向記憶部70(図1参照)に格納された英語新出確率βを例えば0.1とした場合、英語新出尤度は、T2=0.1となる。
【0084】
次に、並び替え尤度を説明する。図7の(a)に示すように、対応関係仮定部81から出力される日本語(J)の固有表現グループ群700に、固有表現グループ701〜703が含まれ、英語(E)の固有表現グループ群710に、固有表現グループ711〜713が含まれているとする。この固有表現グループ群700,710を対応集合として捉えると、固有表現グループ701と固有表現グループ711との間、固有表現グループ702と固有表現グループ712との間、および、固有表現グループ703と固有表現グループ713との間に対応関係が仮定されていることとなる。
【0085】
この場合、3個の日本語固有表現グループから3個の英語固有表現グループが訳出されたものとみなす。また、固有表現グループ群700のどの2個の固有表現グループのペアをとってみても、その出現順序は、対応する固有表現グループが固有表現グループ群710の中で出現する順序と同じである。すなわち、すべてのペアについて、順序が保存されていることになる。なお、この場合のぺアの数は、3個から2個を選ぶ組み合わせ方なので、3個となる。したがって、前記した式(5)において、g=3、h=3となる。また、類似傾向記憶部70(図1参照)に格納された順序保存確率γを例えば0.6とした場合、並べ替え尤度は、T3=0.216となる。
【0086】
また、図7の(b)に示すように、日本語(J)の固有表現グループ群720に、固有表現グループ721〜723が含まれ、英語(E)の固有表現グループ群740に、固有表現グループ741〜743が含まれているとする。この固有表現グループ群720,740を対応集合として捉えると、固有表現グループ721と固有表現グループ741との間、固有表現グループ722と固有表現グループ743との間、および、固有表現グループ723と固有表現グループ742との間に対応関係が仮定されていることとなる。
【0087】
この場合、3個の日本語固有表現グループから3個の英語固有表現グループが訳出されたものとみなす。この場合のぺアの数も3個となっているが、固有表現グループ722と固有表現グループ723とのペアでは、訳出後に、その出現順序が逆転している。ちなみに、他の2つのペアでは、出現順序が保存されている。したがって、前記した式(4)において、g=3、h=2となる。また、類似傾向記憶部70(図1参照)に格納された順序保存確率γを例えば0.6とした場合、並べ替え尤度は、T3=0.144となる。
【0088】
第1の実施形態の対訳対抽出装置によれば、理想的な対訳関係ではない2言語の文書、あるいは構文構造的な対応単位を持たない2言語の文書から、抽出しようとしている具体的な固有表現が対訳文書対中に高頻度で現れやすいかどうかということに依存することなく、固有表現の対訳対を自動的に抽出することができる。また、この対訳対抽出装置によれば、多数の対訳文書対の中に高い頻度で現れる対訳対を抽出するといった方法ではなく、ただ1組の対訳文書対(2言語文書)から固有表現の対訳対を抽出することができる。さらに、ボリュームのある対訳文書対の中で、ただ一度しか現れないような単語の対訳対も抽出することができる。なお、この対訳対抽出装置を、対訳文書対を翻訳者に提示する形式の翻訳支援システムにおいて、2言語の対応する単語を提示する際に利用するようにしてもよい。
【0089】
(第2の実施形態)
[対訳対抽出装置の構成]
第2の実施形態の対訳対抽出装置は、評価値算出部の構成が異なる点を除いて、図1に示した対訳対抽出装置1と同一の構成である。
図8は、第2の実施形態の対訳対抽出装置の評価値算出部の構成を示すブロック図である。この評価値算出部180は、図8に示すように、翻訳尤度算出部189を備えると共に、尤度統合部190の機能が異なっている点を除いて、図2に示した評価値算出部80と同一の構成である。したがって、図2と同じ構成には同じ符号を付して、説明を省略する。
【0090】
この翻訳尤度算出部189に対応して、類似傾向記憶部70には、前記した日本語訳出確率、英語新出確率および順序保存確率のほかに、翻訳確率と日本語出現確率とを記憶している。翻訳確率は、ある英語固有表現が、対応する日本語固有表現から字義的に翻訳される(対訳関係である)確率であり、すべての可能な日本語固有表現と英語固有表現との組み合わせについて用意されている。この翻訳確率を算出するためには、予め、日本語文書処理部30(図1参照)および英語文書処理部40(図1参照)に入力する日本語の文書および英語の文書と同種の複数の対訳文書対に対して、人手で正解の固有表現、固有表現グループ、対応集合を付与したもの(タグつき対訳コーパス)を用意する。そして、このタグつき対訳コーパスから予め計算された翻訳確率が類似傾向記憶部70に格納される。
【0091】
このタグつき対訳コーパスから、すべての可能な日本語固有表現と英語固有表現との組み合わせについて翻訳確率を求める際、組み合わせの多くは、タグつき対訳コーパス中に一度も出現しないが、これによって、ある組み合わせの翻訳確率が0になることを防ぐために、頻度が0より大きな組み合わせに対する確率を割り引き、その割り引いた分の合計を頻度が0の組み合わせに分配する操作(discounting)を行う。なお、この操作(discounting)には公知の手法(例えばGood-Turing discounting)が利用される。
【0092】
日本語出現確率は、日本語の文書中に何か日本語固有表現が出現したときに、それが着目している日本語固有表現である確率である。この日本語出現確率を算出するために、翻訳確率と同様にしてタグつき対訳コーパスが利用され、タグつき対訳コーパスから予め計算された日本語出現確率が類似傾向記憶部70に格納される。
【0093】
翻訳尤度算出部189は、対応関係仮定部81で仮定された対応集合の各々に対し、類似傾向記憶部70を参照して、翻訳尤度を算出するものである。この翻訳尤度とは、日本語固有表現グループ群と英語固有表現グループ群との間に、ある対応集合を考えた場合、英語固有表現グループ群に含まれる固有表現グループの各々が対応先である日本語固有表現グループから字義的に翻訳された結果がどれだけ尤もらしいかを表す量である。ここで、尤もらしさの規範としては、類似傾向記憶部70に予め格納してある翻訳確率を用いる。
【0094】
この翻訳尤度算出部189は、対応関係仮定部81から日本語固有表現グループ群、英語固有表現グループ群、そして対応集合が与えられると、英語固有表現グループ群に含まれる英語固有表現グループの各々に対して、対応する日本語固有表現グループを持っているかどうかを判定する。そして、翻訳尤度算出部189は、英語固有表現グループが、対応する日本語固有表現グループを持っている場合、後記する算出方法によって計算された固有表現グループの翻訳確率を用い、持っていない場合、一様確率(1/N:Nは定数)を選択した上で、これらの選択結果をすべての英語固有表現グループに亘って乗じたものを翻訳尤度とする。
【0095】
ここで、固有表現グループの翻訳確率の具体的な算出方法の一例を示す。日本語の固有表現グループJから対応する英語の固有表現グループEへのグループ翻訳確率であるp(E|J)は、例えば、式(8)で表される。ただし、jは日本語の固有表現グループJに含まれる固有表現、mは日本語の固有表現グループJの固有表現の数、eは英語の固有表現グループEに含まれる固有表現、nは英語の固有表現グループEの固有表現の数、p(ek|ji)は、類似傾向記憶部70に格納されている日本語のi番目の固有表現から対応する英語のk番目の固有表現への翻訳確率、p(ji)は日本語のi番目の固有表現の出現確率(日本語出現確率)をそれぞれ表す。
【0096】
【数3】

【0097】
この翻訳尤度算出部189は、例えば、式(9)を用いて翻訳尤度T4を算出する。ただし、p(Ei|Ji)は日本語のi番目の固有表現グループJiから対応する英語のi番目の固有表現グループEiへの翻訳確率、bは英語の文書から抽出された固有表現グループの数をそれぞれ表す。
【0098】
【数4】

【0099】
尤度統合部(尤度統合手段)190は、日本語訳出尤度算出部82により算出された日本語訳出尤度と、英語新出尤度算出部83により算出された英語新出尤度と、翻訳尤度算出部189により算出された翻訳尤度と、並べ替え尤度算出部84により算出された並べ替え尤度とに基づいて生成される値を、日本語固有表現グループと英語固有表現グループとの間の対応の尤もらしさを示す対応尤度(評価値)として算出するものである。この尤度統合部190は、算出した対応尤度(評価値)を、対応関係仮定部81から出力される対応集合に付与して、対訳辞書作成部90に出力する。
【0100】
尤度統合部190は、例えば、前記した式(3)で示されるT1、式(4)で示されるT2、式(5)で示されるT3、式(9)で示されるT4および補正項である式(6)で示されるHとを乗算して式(10)で示される対応尤度Tを算出する。
【0101】
【数5】

【0102】
なお、第2の実施形態の対訳対抽出装置は、一般的なコンピュータを、前記した各手段を機能させる対訳対抽出プログラムとして実現することもできる。この対訳対抽出プログラムは、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
【0103】
[対訳対抽出装置の動作]
次に、第2の実施形態に係る対訳対抽出装置の動作について説明する。第2の実施形態に係る対訳対抽出装置の動作は、翻訳尤度を算出する処理が追加された点を除いて、図5に示したものと同様である。すなわち、ステップS8(図5参照)に続いて、評価値算出部180(図8参照)は、翻訳尤度算出部189によって、仮定された対応集合の各々に対して、前記した式(9)に基づいて、翻訳尤度T4を算出する。この処理に続いて、ステップS9(図5参照)以降の処理が実行される。その際、ステップS10(図5参照)において、評価値算出部180は、尤度統合部190によって、日本語訳出尤度と、英語新出尤度と、翻訳尤度と、並べ替え尤度と、前記した式(6)に示す補正項Hとを積算することにより、対応尤度を算出する。
【0104】
次に、翻訳尤度算出部189で算出される翻訳尤度の具体例を図9を参照して説明する。図9は、翻訳尤度の説明図である。図9の(a)に示すように、対応関係仮定部81から出力される日本語(J)の固有表現グループ群900に、固有表現グループJ(X1),J(X2)が含まれ、英語(E)の固有表現グループ群910に、固有表現グループE(X1),E(X2)が含まれているとする。この固有表現グループ群900,910を対応集合として捉えると、固有表現グループJ(X1)と固有表現グループE(X1)との間、および、固有表現グループJ(X2)と固有表現グループE(X2)との間に対応関係が仮定されていることとなる。
【0105】
また、固有表現グループJ(X1)は、内容が「山田太郎」である固有表現901を含んでおり、固有表現グループJ(X2)は、内容が「鈴木次郎」である固有表現902を含んでいる。同様に、固有表現グループE(X1)は、内容が「Yamada」である固有表現911を含んでおり、固有表現グループE(X2)は、内容が「Suzuki」である固有表現912を含んでいる。つまり、各固有表現グループは、ただ1つの固有表現から構成されている。
【0106】
この場合、2個の日本語固有表現グループから2個の英語固有表現グループが翻訳されている。したがって、前記した式(9)において、b=2となる。ここで、固有表現グループJ(X1)から固有表現グループE(X1)への翻訳確率を、p(E(X1)|J(X1))、固有表現グループJ(X2)から固有表現グループE(X2)への翻訳確率を、p(E(X2)|J(X2))と表記する。このとき、翻訳尤度T4は、式(11)で表される。
4=p(E(X1)|J(X1))×p(E(X2)|J(X2)) …式(11)
ここで、各固有表現グループはただ1つの固有表現から構成されているから、固有表現グループの翻訳確率は各グループの要素である固有表現の翻訳確率に等しい。例えばp(E(X1)|J(X1))は、「山田太郎」が「Yamada」に翻訳される翻訳確率p(Yamada|山田太郎)に等しい。
【0107】
具体的には、翻訳尤度算出部189は、p(Yamada|山田太郎)(例えば0.9)と、p(Suzuki|鈴木次郎)(例えば0.9)とを、類似傾向記憶部70から、読み出して両者を乗算することにより、固有表現グループ間の翻訳尤度(例えば0.81)を算出する。
【0108】
次に、日本語および英語の各固有表現グループが、2つの固有表現から構成されていると共に、新出した英語表現グループがある場合の翻訳尤度を説明する。
図9の(b)に示すように、日本語(J)の固有表現グループ群920に、固有表現グループJ(X3)が含まれ、英語(E)の固有表現グループ群940に、固有表現グループE(X3),E(X4)が含まれているとする。この固有表現グループ群920,940を対応集合として捉えると、固有表現グループJ(X3)と固有表現グループE(X3)との間に対応関係が仮定されていることとなる。
【0109】
また、固有表現グループJ(X3)は、内容が「山田太郎」である固有表現921と、内容が「山田」である固有表現922とを含んでいる。同様に、固有表現グループE(X3)は、内容が「Taro Yamada」である固有表現941と、内容が「Yamada」である固有表現942とを含んでおり、固有表現グループE(X4)は、内容が「Jiro Suzuki」である固有表現943と、内容が「Suzuki」である固有表現944とを含んでいる。
【0110】
この場合、1個の日本語固有表現グループから2個の英語固有表現グループが翻訳されている。したがって、前記した式(9)において、b=2となる。この式(9)において、i=1のときには、前記した表記に従えば、p(E(X3)|J(X3))となる。
この場合、固有表現グループの翻訳確率は、固有表現の翻訳確率を用いて式(12)のように求めることができる。ただし、p(*)は*の日本語出現確率である。
p(E(X3)|J(X3))
={p(Taro Yamada|山田太郎)×p(山田太郎)
+p(Taro Yamada|山田)×p(山田)
+p(Yamada|山田太郎)×p(山田太郎)
+p(Yamada|山田)×p(山田)}
÷{p(山田太郎)+p(山田)} …式(12)
【0111】
また、前記した式(9)において、i=2のときには、固有表現グループE(X4)が、対応する日本語固有表現グループを持っていない場合なので、翻訳尤度算出部189は、類似傾向記憶部70から、一様確率(1/N:Nは定数)を選択する。したがって、最終的な翻訳尤度T4は式(13)で示されることとなる。
4=p(E(X3)|J(X3))/N …式(13)
【0112】
第2の実施形態の対訳対抽出装置によれば、類似傾向記憶部70に翻訳確率および日本語出現確率の正解データを予め記憶しているので、並び替え尤度を求める前に、ある固有表現についての翻訳が尤もらしいかどうかを示す翻訳尤度を予め見積もることができる。したがって、文書の特徴を考慮した形で対訳対を抽出する精度を向上させることができる。
【0113】
以上、第1および第2の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲でさまざまに実施することができる。例えば、第1および第2の実施形態では、類似傾向記憶部70に格納してある日本語訳出確率はすべての種類の日本語固有表現グループに対して同じ値を持つものとして説明したが、これに限定されるものではなく、日本語固有表現グループをその性質に応じていくつかに分類し、その各々について別個に日本語訳出確率を求めておき、それぞれの日本語訳出確率に基づいて日本語訳出尤度を算出するようにしてもよい。この場合、日本語訳出尤度を精度よく求めることができ、対訳対抽出装置の性能を向上させることができる。なお、具体的なグループの分類の例としては、分類種別による分類や、グループに含まれる固有表現の個数による分類などを含む。
【0114】
また、本実施形態においては、類似傾向記憶部70に格納してある英語新出確率はすべての種類の英語固有表現グループに対して同じ値を持つものとして説明したが、これに限定されるものではなく、英語固有表現グループをその性質に応じていくつかに分類し、その各々について別個に英語新出確率を求めておき、それぞれの英語新出確率に基づいて英語新出尤度を算出するようにしてもよい。この場合、英語新出尤度を精度よく求めることができ、対訳対抽出装置の性能を向上させることができる。なお、具体的なグループの分類の例としては、分類種別による分類や、グループに含まれる固有表現の個数による分類などを含む。
【0115】
また、本実施形態においては、類似傾向記憶部70に格納してある順序保存確率はすべての種類の英語固有表現グループに対して同じ値を持つものとして説明したが、これに限定されるものではなく、固有表現グループの組み合わせをその性質に応じていくつかに分類し、その各々について別個に順序保存確率を求めておき、それぞれの順序保存確率に基づいて並べ替え尤度を算出するようにしてもよい。この場合、並べ替え尤度を精度よく求めることができ、対訳対抽出装置の性能を向上させることができる。なお、具体的なグループの分類の例としては、2個のグループが同一の分類種別に属するか否か、2個のグループがどれだけ離れて文書中に出現しているかによる分類などを含む。
なお、この分類の仕方によっては、式(6)で示される補正項Hを変更する必要があり得る。
【0116】
また、本実施形態においては、確定対応設定部56を備えるものとして説明したが、この確定対応設定部56を備えない構成としてもよい。この場合には、日本語固有表現グループ記憶部58および英語固有表現グループ記憶部60として、それぞれ日本語固有表現グループ記憶部50および英語固有表現グループ記憶部52をそのまま利用することができる。しかしながら、確定対応設定部56で確定対応候補情報を予め付与することによって、最終的に得られる対訳対がより正確なものとなる上、処理に要する時間も短縮されるので、本実施形態のように確定対応設定部56を備えることが望ましい。
【図面の簡単な説明】
【0117】
【図1】第1の実施形態の対訳対抽出装置の構成を示すブロック図である。
【図2】評価値算出部の詳細な構成を示すブロック図である。
【図3】日本語の文書と英語の文書の具体例を説明するための説明図であり、(a)は日本語の文書、(b)は英語の文書を示している。
【図4】対応集合の具体例を説明するための説明図である。
【図5】対訳対抽出装置の動作を示すフローチャートである。
【図6】評価値算出部の算出する尤度を説明するための説明図であり、(a)は日本語訳出尤度、(b)は英語新出尤度を示している。
【図7】並べ替え尤度算出部の算出する並べ替え尤度を説明するための説明図であり、(a)はすべての順序が保存されている場合、(b)は一部の順序が保存されていない場合を示している。
【図8】第2の実施形態における評価値算出部の詳細な構成を示すブロック図である。
【図9】第2の実施形態における評価値算出部の算出する翻訳尤度を説明するための説明図であり、(a)はグループ要素が1つの場合、(b)はグループ要素が2つの場合を示している。
【符号の説明】
【0118】
1 対訳対抽出装置
10 日本語文書記憶部
20 英語文書記憶部
30 日本語文書処理部
32 固有表現抽出部
34 固有表現記憶部
36 グループ化処理部(第1の分類手段)
40 英語文書処理部
42 固有表現抽出部
44 固有表現記憶部
46 グループ化処理部(第2の分類手段)
50 日本語固有表現グループ記憶部
52 英語固有表現グループ記憶部
54 対応規則記憶部(対応規則記憶手段)
56 確定対応設定部(確定対応設定手段)
58 日本語固有表現グループ記憶部
60 英語固有表現グループ記憶部
70 類似傾向記憶部(類似傾向記憶手段)
80 評価値算出部
81 対応関係仮定部(対応関係仮定手段)
82 日本語訳出尤度算出部(第1言語訳出尤度算出手段)
83 英語新出尤度算出部(第2言語新出尤度算出手段)
84 並べ替え尤度算出部(並び替え尤度算出手段)
85 尤度統合部(尤度統合手段)
90 対訳辞書作成部(対応関係選択手段)
100 対訳辞書記憶部
180 評価値算出部
189 翻訳尤度算出部(翻訳尤度算出手段)
190 尤度統合部(尤度統合手段)

【特許請求の範囲】
【請求項1】
第1言語の文書と、文書全体として前記第1言語の文書と共通の話題を伝達する意図で作成された第2言語の文書とからなる対訳文書対から、同一対象を指し示す固有表現の対訳対を抽出する対訳対抽出装置において、
前記対訳文書対と同種の複数の対訳文書対に基づいて予め算出された固有表現の出現の類似傾向を示す情報を記憶する類似傾向記憶手段と、
前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現との間に対応関係を仮定する対応関係仮定手段と、
この対応関係仮定手段により仮定された対応関係に対し、前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現との間の対応の良さの尤もらしさを、前記類似傾向記憶手段に記憶された類似傾向を示す情報に基づいて算出する複数の尤度算出手段と、
前記複数の尤度算出手段により算出された複数個の尤度の値に基づいて生成される値を、評価値として算出する尤度統合手段と、
この尤度統合手段で算出された評価値に基づいて、前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現との間の対応関係を選択することにより対訳対を抽出する対応関係選択手段と、
を備えることを特徴とする対訳対抽出装置。
【請求項2】
前記類似傾向記憶手段に記憶された類似傾向を示す情報は、
前記第1言語の文書から抽出された固有表現が前記第2言語の文書から抽出された固有表現と対応づけられている割合を示す訳出確率と、
前記第2言語の文書から抽出された固有表現が前記第1言語の文書から抽出された固有表現と対応づけられない割合を示す新出確率と、
前記第1言語の文書中の第1の固有表現および第2の固有表現の出現順序が、前記第2言語の文書中の前記第1の固有表現に対応する固有表現および前記第2の固有表現に対応する固有表現の出現順序と一致する割合を示す順序保存確率とを含み、
前記複数の尤度算出手段は、
前記対応関係仮定手段により仮定された対応関係に対する前記訳出確率が、前記類似傾向記憶手段に記憶された訳出確率に基づいてどれだけ尤もらしいかを表す第1言語訳出尤度を算出する第1言語訳出尤度算出手段と、
前記対応関係仮定手段により仮定された対応関係に対する前記新出確率が、前記類似傾向記憶手段に記憶された新出確率に基づいてどれだけ尤もらしいかを表す第2言語新出尤度を算出する第2言語新出尤度算出手段と、
前記対応関係仮定手段により仮定された対応関係に対する前記順序保存確率が、前記類似傾向記憶手段に記憶された順序保存確率に基づいてどれだけ尤もらしいかを表す並べ替え尤度を算出する並べ替え尤度算出手段と、
を含むことを特徴とする請求項1に記載の対訳対抽出装置。
【請求項3】
前記第1言語の文書から抽出された固有表現と前記第2言語の文書から抽出された固有表現との間の確定的な対応関係の候補を決定する規則を記憶する対応規則記憶手段と、
前記対応規則記憶手段に記憶された規則に基づいて、前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現との間で、前記規則に合致する固有表現対を検出して確定的な対応関係の候補を設定する確定対応設定手段と、をさらに備え、
前記対応関係仮定手段は、前記確定対応設定手段で設定された対応関係の候補を持つ固有表現に対して、候補である相手先以外との対応関係の仮定を排除して、前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現との間に対応関係を仮定することを特徴とする請求項2に記載の対訳対抽出装置。
【請求項4】
前記第1言語の文書から抽出された固有表現を、1つ以上の同一の対象を指す固有表現からなる固有表現グループに分類する第1の分類手段と、
前記第2言語の文書から抽出された固有表現を、1つ以上の同一の具体的対象を指す固有表現からなる固有表現グループに分類する第2の分類手段と、をさらに備え、
前記対応関係仮定手段は、前記第1の分類手段により分類された固有表現グループと、前記第2の分類手段により分類された固有表現グループとの間の対応関係を仮定することを特徴とする請求項2または請求項3に記載の対訳対抽出装置。
【請求項5】
前記訳出確率をα、前記新出確率をβ、前記順序保存確率をγ、前記第1言語の文書から抽出された固有表現グループの数をa、前記第2言語の文書から抽出された固有表現グループの数(=d+w)をb、前記第1言語から前記第2言語へ訳出された固有表現グループの数をd、前記第2言語で新出した固有表現グループの数をw、前記第1言語の文書から抽出された固有表現グループのうち前記第2言語の文書中の固有表現グループと対応関係があるものから2個選択する組み合わせの数をg、このgのうち、前記第1言語から前記第2言語へ固有表現グループ間の順序が保存されている数をhとしたときに、
前記尤度統合手段は、式(1)を用いて評価値Tを算出することを特徴とする請求項4に記載の対訳対抽出装置。
T=αd×(1−α)(a-d)×βw×γh×(1−γ)(g-h)/(bw×w!)…式(1)
【請求項6】
前記第1の分類手段により分類された固有表現グループに含まれる固有表現の各々が、対応先である前記第2の分類手段により分類された固有表現グループに含まれる固有表現の各々に対して対訳関係である割合を示す翻訳確率が、前記類似傾向を示す情報として、前記類似傾向記憶手段に記憶され、
前記対応関係仮定手段で仮定された対応関係における前記固有表現グループ全体としての翻訳確率が、前記類似傾向記憶手段に記憶された翻訳確率に基づいてどれだけ尤もらしいかを表す翻訳尤度を算出する翻訳尤度算出手段を備える、
ことを特徴とする請求項4に記載の対訳対抽出装置。
【請求項7】
前記訳出確率をα、前記新出確率をβ、前記順序保存確率をγ、前記第1言語のi番目の固有表現グループFiから対応する第2言語のi番目の固有表現グループSiへの翻訳確率をp(Si|Fi)、前記第1言語の文書から抽出された固有表現グループの数をa、前記第2言語の文書から抽出された固有表現グループの数(=d+w)をb、前記第1言語から前記第2言語へ訳出された固有表現グループの数をd、前記第2言語で新出した固有表現グループの数をw、前記第1言語の文書から抽出された固有表現グループのうち前記第2言語の文書中の固有表現グループと対応関係があるものから2個選択する組み合わせの数をg、このgのうち、前記第1言語から前記第2言語へ固有表現グループ間の順序が保存されている数をhとしたときに、
前記尤度統合手段は、式(2)を用いて所定の評価値Tを算出することを特徴とする請求項6に記載の対訳対抽出装置。
【数1】

【請求項8】
第1言語の文書と、文書全体として前記第1言語の文書と共通の話題を伝達する意図で作成された第2言語の文書とからなる対訳文書対から、同一対象を指し示す固有表現の対訳対を抽出するために、コンピュータを、
前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現との間に対応関係を仮定する対応関係仮定手段、
この対応関係仮定手段により仮定された対応関係に対し、前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現との間の対応の良さの尤もらしさを、前記対訳文書対と同種の複数の対訳文書対に基づいて予め算出された固有表現の出現の類似傾向に基づいて算出する複数の尤度算出手段、
前記複数の尤度算出手段により算出された複数個の尤度の値に基づいて生成される値を、所定の評価値として算出する尤度統合手段、
この尤度統合手段で算出された評価値に基づいて、前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現との間の対応関係を選択することにより対訳対を抽出する対応関係選択手段、
として機能させることを特徴とする対訳対抽出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2006−190107(P2006−190107A)
【公開日】平成18年7月20日(2006.7.20)
【国際特許分類】
【出願番号】特願2005−1773(P2005−1773)
【出願日】平成17年1月6日(2005.1.6)
【出願人】(000004352)日本放送協会 (2,206)
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】