説明

多言語単語分類装置及び多言語単語分類プログラム

【課題】単語の持つ統計的な特徴を用いることなく、単語の品詞が分類された電子辞書が用意できなくても、当該言語に含まれる単語を内容語と機能語とに分類することができる多言語単語分類装置及び多言語単語分類プログラムを提供する。
【解決手段】多言語単語分類装置1は、内容語と機能語とが分類されている第一言語を用い、この第一言語の文字と同一の文字から構成される又は同一の文字を含む言語において、内容語と機能語とが分類されていない第二言語について、当該第二言語の単語を、内容語と機能語とに分類するものであって、単語類似度計算手段3と、第一言語内容語記憶手段5と、単語判定手段7と、を備える構成とした。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、含まれている単語が内容語と機能語とに分類されていない言語について、当該単語を内容語と機能語とに分類する多言語単語分類装置及び多言語単語分類プログラムに関する。
【背景技術】
【0002】
従来、ある言語内に含まれる単語について、当該単語が内容語か機能語かを分類する手法の一つとして、単語の品詞の違いに基づく手法が非特許文献1に開示されている。なお、内容語とは、意味を持つ単語のことをいい、例えば、品詞が名詞や動詞の単語であり、機能語とは、内容語以外の単語のことをいい、例えば、品詞が助詞や助動詞の単語である。これら内容語と機能語とは排他的な関係になる。
【0003】
そして、従来の非特許文献1に示す手法は、この点に着目し、単語の品詞に基づいて、ある言語内に含まれる単語を内容語と機能語とに分類している。
一般的に、ある言語について、電子辞書が用意できるのであれば、当該電子辞書において、単語の品詞が分類されており、この分類された品詞に基づいて、当該言語内に含まれる単語を内容語と機能語とに分類することが容易に行えるので、従来の手法では、電子辞書が使用されることが多かった。なお、英語のように、電子辞書が容易に入手できるのであれば、英語の単語について、内容語と機能語とに分類することは容易である。
【0004】
また、従来の手法の中には、電子辞書が用意できない言語について、当該言語内に含まれる単語が内容語か機能語かを分類する手法があり、このような手法の一つとして、単語が持つ統計的な特徴を利用する手法が、非特許文献2に開示されている。
【0005】
この従来の非特許文献2に示す手法は、単語が持つ統計的な特徴として、ある単語が出現したときに、別の単語が出現する確率が高いという共起関係を利用したもので、この共起関係から言語内に含まれる単語が内容語か機能語かを分類している。
【0006】
なお、統計的な特徴の一つとして、一般に内容語の出現頻度と機能語の出現頻度とを比較した場合、機能語の出現頻度の方が高く、又、機能語の前後に様々な内容語が出現するという統計的特徴を利用することにより、言語内に含まれる単語が内容語か機能語かを分類することも可能である。
【非特許文献1】徳永健伸 「情報検索と言語処理」 東京大学出版会、pp.19−23
【非特許文献2】P.F.Brown et al.,Class−based n−gram models of natural language,Computational linguistics,pp.467−479,1992.
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の手法では、複数の言語について、これらの言語内に含まれるそれぞれの単語が、内容語か機能語かを分類するためには、それぞれの言語に対応した電子辞書を入手する必要があり、英語のような言語を除き、他の言語では、電子辞書を入手することが困難な場合あり、電子辞書を入手することができなければ、内容語と機能語とに分類することができないという問題がある。
【0008】
また、単語が持つ統計的な特徴を利用する場合、内容語の統計的な特徴と機能語の統計的な特徴との差があまり無い単語が含まれる言語では、有効でなく、同様に、当該言語に含まれる単語を内容語と機能語とに分類することができないという問題がある。
なお、この内容語の統計的な特徴と機能語の統計的な特徴との差があまり無い単語が含まれる言語の例として、スペイン語が挙げられる。例えば、スペイン語の“ministro”「大臣」は、内容語であるにも拘わらず、機能語の統計的な特徴と同じ特徴(例えば、出現頻度が高く前後に様々な単語が出現するという特徴)を持っており、単語が持つ統計的な特徴を利用しても、正確に内容語に分類することができない。
【0009】
そこで、本発明では、前記した問題を解決し、単語の持つ統計的な特徴を用いることなく、単語の品詞が分類された電子辞書が用意できなくても、当該言語に含まれる単語を内容語と機能語とに分類することができる多言語単語分類装置及び多言語単語分類プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
前記課題を解決するため、請求項1に記載の多言語単語分類装置は、内容語と機能語とが分類されている第一言語を用い、この第一言語の文字と同一の文字から構成される又は同一の文字を含む言語であり、内容語と機能語とが分類されていない第二言語について、当該第二言語の単語を、内容語と機能語とに分類する多言語分類装置であって、第一言語内容語記憶手段と、単語類似度計算手段と、単語判定手段と、を備える構成とした。
【0011】
かかる構成によれば、多言語単語分類装置は、単語類似度計算手段によって、第一言語内容語記憶手段に記憶されている第一言語の各内容語に含まれる文字と、入力された第二言語の単語に含まれる文字との一致する個数及び文字が出現する順序に基づいて、第一言語の複数の内容語に対し、第一言語の内容語と第二言語の単語との類似する度合いを示すそれぞれの単語類似度を計算し、単語類似度が最大となる最大単語類似度を出力する。そして、多言語単語分類装置は、単語判定手段によって、単語類似度計算手段で出力された最大単語類似度が予め設定した閾値以上の場合に、第二言語の単語を内容語と判定し、閾値未満の場合に第二言語の単語を機能語と判定する。
【0012】
請求項2に記載の多言語単語分類プログラムは、内容語と機能語とが分類されている第一言語を用い、この第一言語の文字と同一の文字から構成される又は同一の文字を含む言語であり、内容語と機能語とが分類されていない第二言語について、当該第二言語の単語を、内容語と機能語とに分類するために、前記第一言語に含まれる単語の中で少なくとも内容語が複数記憶されている第一言語内容語記憶手段を備えたコンピュータを、単語類似度計算手段、単語判定手段、として機能させる構成とした。
【0013】
かかる構成によれば、多言語単語分類プログラムは、単語類似度計算手段によって、第一言語内容語記憶手段に記憶されている第一言語の各内容語に含まれる文字と、入力された第二言語の単語に含まれる文字との一致する個数及び文字が出現する順序に基づいて、第一言語の複数の内容語に対し、第一言語の内容語と第二言語の単語との類似する度合いを示すそれぞれの単語類似度を計算し、単語類似度が最大となる最大単語類似度を出力し、単語判定手段によって、単語類似度計算手段で出力された最大単語類似度が予め設定した閾値以上の場合に、第二言語の単語を内容語と判定し、閾値未満の場合に第二言語の単語を機能語と判定する。
【発明の効果】
【0014】
請求項1、2に記載の発明によれば、単語の持つ統計的な特徴を用いることなく、単語の品詞が分類された電子辞書が用意できなくても、内容語と機能語とに分類された言語に含まれる内容語それぞれとの単語類似度を計算し、この単語類似度が最大となる最大単語類似度が閾値以上の場合に内容語と判定することで、内容語と機能語とに分類されていない言語に含まれる単語を内容語と機能語とに分類することができる。
【発明を実施するための最良の形態】
【0015】
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
(多言語単語分類装置の構成)
図1は、多言語単語分類装置のブロック図である。この図1に示すように、多言語単語分類装置1は、内容語と機能語とが分類されている第一言語を用い、入力された第二言語の単語それぞれを内容語と機能語とに分類するもので、単語類似度計算手段3と、第一言語内容語記憶手段5と、単語判定手段7とを備えている。
【0016】
内容語とは、単独で意味を持つ単語をいい、例えば、日本語で言うと、品詞が名詞や動詞の単語である。機能語とは、単独で意味を持たない単語をいい、例えば、日本語で言うと、品詞が助詞や助動詞の単語である。
【0017】
この多言語単語分類装置1で取り扱っている第一言語と第二言語とは、同一の文字から構成されるもの同士又は同一の文字を含んで構成される同士という関係にある。例えば、英語、スペイン語、ポルトガル語、ドイツ語等の西ヨーロッパ圏内の言語は、アルファベット(ローマ字の他、ラテン文字、ヘブライ文字、アラビア文字等)から構成されており、ロシア語等の東ヨーロッパ圏内の言語は、ロシア文字(キリル文字)から構成されている。このように、同一の文字から構成されている言語同士において、一方の言語の単語が内容語と機能語とに、複数の電子データ(いわゆる電子辞書)の形態で分類されていれば、多言語単語分類装置1を用いることで、他方の言語の単語を、内容語と機能語とに分類することができる。
【0018】
なお、この実施形態では、第一言語に英語を、第二言語にスペイン語を採用している。また、これに限定されず、第一言語は、内容語と機能語とが分類された電子辞書が用意できる言語であればよく、第二言語は、この第一言語と同一の文字から構成される言語又は同一の文字を含んで構成される言語であればよい。
【0019】
そして、この多言語単語分類装置1には、第二言語の任意の単語が1個ずつ入力され、後記する処理により、この単語が内容語か機能語であるかが判定されて出力されることとなる。なお、この実施形態では、多言語単語分類装置1に、第二言語が記憶されたデータベース(図示せず)が接続されており、このデータベースから第二言語の単語が入力されると共に、内容語か機能語かが判定された単語(判定結果、詳細は後記)も当該データベースに出力される。
【0020】
単語類似度計算手段3は、第一言語内容語記憶手段5に記憶されている第一言語の各内容語に含まれる文字と、入力された第二言語の単語に含まれる文字との一致する個数及び文字が出現する順序に基づいて、第一言語の内容語と第二言語の単語との類似する度合いを示す単語類似度を計算し、この計算した単語類似度の中で最大となる最大単語類似度を出力するものである。
【0021】
単語類似度は、第一言語の内容語に含まれる文字と、第二言語の単語に含まれる文字との2つの単語間において、文字が一致する個数が多ければ多いほど高い値を取ると共に、この一致した文字の出現する順序が一致すればするほど高い値を取るものである。なお、第一言語の内容語に含まれる文字の数と、第二言語の単語に含まれる文字の数とが近ければ近いほど、この単語類似度は、高い値を取るものである。なお、この実施形態では、単語類似度が0から1の実数を取るように計算される。
【0022】
そして、この実施形態では、単語類似度計算手段3で計算される単語類似度は、第一言語の内容語と第二言語の単語とが完全に一致する場合、が“1”となるように計算され、第一言語の内容語と第二言語の単語とが全く類似しない場合、“0”となるように計算される。
【0023】
この単語類似度の計算は、この実施の形態では、文献「加藤ほか『類似した二言語間の放送ニュース記事の自動対応付け』第9回言語処理学会年次大会発表論文集、pp.322−325、2003」に開示されている方法を用いている。
【0024】
例えば、英語の“abao”(この単語は実在していませんが例として示します)とスペイン語の“adrak”(この単語は実在していませんが例として示します)とは一致する文字“a”の個数が2個であり、一致した文字の出現する順序が一致するものが1個(冒頭の“a”のみ)であり、英語の“abao”の文字数が4個に対し、スペイン語の“adrak”の文字数が5個である。そして、このような場合、例えば、単語類似度は、sim(abao,adrak)=(2×2)/(4+5)=0.44となる。
【0025】
ここで、単語類似度の計算方法として、編集距離を用いた場合について説明する。
編集距離とは、文字の挿入、削除、置換によって、ある文字列を別の文字列に変換する際に、挿入、削除、置換をそれぞれ1回と数えた場合の最小の回数である。そして、先に述べた“abao”という文字列を“adrak”という文字列に変換しようとした場合、まず、“abao”の“b”を“d”に置換し、“adao”とする。続いて、この“adao”に“r”を挿入し、“adrao”とする。そして、この“adrao”の“o”を“k”に置換して、“adrak”とする。この場合、置換、挿入、置換の3回で“abao”という文字列を“adrak”という文字列に変換できるので、編集距離は3となる。
【0026】
そして、この場合の単語類似度は、それぞれの文字の長さ(文字列に含まれる文字の個数)で正規化することにより、simeditdistance=1−3/(4+5)=0.67となる。
【0027】
第一言語内容語記憶手段5は、第一言語の少なくとも内容語を複数記憶したものであり、一般的なハードディスク等の記憶媒体によって構成されている。この第一言語内容記憶手段5は、一般的な第一言語(ここでは英語)の電子辞書を採用したものであり、前置詞や冠詞等の機能語が記憶されていても差し支えない。
【0028】
ただし、この多言語単語分類装置1において、この第一言語記憶手段5から単語類似度計算手段3に出力される単語は、単語類似度計算手段3が第一言語の内容語と、第二言語の単語との単語類似度を計算することと設定しているので、第一言語の内容語に限定することとしている。なお、単語類似度計算手段3において、第一言語の機能語と、第二言語の単語との単語類似度を計算することと設定した場合、第一言語記憶手段5から単語類似度計算手段3に第一言語の機能語が出力されこととなる。
【0029】
単語判定手段7は、単語類似度計算手段3で出力された最大単語類似度が予め設定した閾値以上の場合に、入力された第二言語の単語を内容語と判定し、閾値未満の場合に、入力された第二言語の単語を機能語と判定するものである。この実施形態では、単語判定手段7は、判定した結果に従って、入力された単語が内容語であることを示す識別子又は入力された単語が機能語であることを示す識別子(これらを判定結果とする)を、第二言語の単語が記憶されているデータベース(図示せず)に出力する。
【0030】
なお、この実施形態では、閾値は0.6と設定している。この閾値は、任意の値(0〜1)設定すること可能である。そして、この閾値の値を言語に応じて、適宜変更することで、判定結果の精度を向上させることができる。
【0031】
なお、閾値の値は、第一言語の内容語と第二言語の単語とが完全に一致する場合、単語類似度計算手段3にて単語類似度が“1”となるように計算され、第一言語の内容語と第二言語の単語とが全く類似しない場合、単語類似度計算手段3にて単語類似度が“0”となるように計算されるので、この値を鑑みて設定したものである。
ちなみに、閾値の値は、第二言語において内容語か機能語かが判明しているデータに対して、評価実験を行った後に実験的に求めたものである。
【0032】
なお、この単語判定手段7は、単語類似度計算手段3で出力された最大単語類似度が予め設定した閾値以上の場合に、入力された第二言語の単語を内容語と判定しているが、この単語類似度計算手段3において、第一言語の機能語に含まれる文字と第二言語の単語に含まれる文字とについて最大単語類似度が出力された場合、判定結果が逆転し、最大単語類似度が予め設定した閾値以上の場合に、入力された第二言語の単語を機能語と判定することとなる。
【0033】
ここで、単語類似度計算手段3による単語類似度の計算例と、単語判定手段7による判定結果の例とについて説明する。前記したように、この実施形態では、第一言語が英語であり、第二言語がスペイン語であり、英語の内容語として、“president”、“minister”、“visit”が第一言語内容語記憶手段5に記憶されているとする。
【0034】
そして、この多言語単語分類装置1に、スペイン語の単語として“ministro”が入力されると、まず、多言語単語分類装置1は、単語類似度計算手段3によって、次のように単語類似度を計算する。
単語類似度sim(“ministro”,“president”)=0.24
・・・(1)
単語類似度sim(“ministro”,“minister”)=0.82
・・・(2)
単語類似度sim(“ministro”,“visit”)=0.46
・・・(3)
【0035】
(1)において、英語の“president”は、pが1個、rが1個、eが2個、sが1個、dが1個、nが1個、tが1個の文字数が9個の文字列として構成されており、スペイン語の“ministro”は、mが1個、iが2個、nが1個、sが1個、tが1個、rが1個、oが1個の文字数が8個の文字列として構成されており、これらの文字列を比較すると、文字数が異なり、sとtとについて、含まれている文字が一致しているものの、出現する順序が異なるので、単語類似度は、0.24と比較的低くなっている。
【0036】
(2)において、英語の“minister”は、mが1個、iが2個、nが1個、sが1個、eが1個、rが1個の文字数が8個の文字列として構成されており、スペイン語の“ministro”は、mが1個、iが2個、sが1個、tが1個、rが1個、oが1個の文字数が8個の文字列として構成されており、これらの文字列を比較すると、文字数が一致すると共に、mとiとnとsとtとについて、含まれている文字が一致しており、しかも、これらのすべての文字について出現する順序も同じであるので、単語類似度は、0.82と比較的高くなっている。
【0037】
(3)において、英語の“visit”は、vが1個、iが2個、sが1個、tが1個の文字数が5個の文字列として構成されており、スペイン語の“ministro”は、mが1個、iが2個、sが1個、tが1個、rが1個、oが1個の文字数が8個の文字列として構成されており、これらの文字列を比較すると、文字数が異なり、iとtとについて、含まれている文字が一致しており、iについては出現する順序も同じであるので、単語類似度は、0.46という(1)と(2)と間の値となっている。
【0038】
続いて、多言語単語分類装置1は、単語類似度計算手段3によって、単語類似度が最大となる最大単語類似度0.82((2)の0.82>(3)の0.46>(1)の0.24)を単語判定手段7に出力する。
【0039】
そして、多言語単語分類装置1は、単語判定手段7によって、設定されている閾値0.6と、最大単語類似度0.82とを比較し、最大単語類似度が閾値以上であるので、スペイン語の“ministro”を内容語と判定する。
【0040】
この多言語単語分類装置1によれば、単語類似度計算手段3によって、内容語と機能語とに分類された第一言語に含まれる内容語それぞれと第二言語の単語とについて類似度を計算し、単語判定手段7によって、この類似度が最大となる最大単語類似度が閾値以上の場合に内容語と判定することで、内容語と機能語とに分類されていない言語に含まれる単語を内容語と機能語とに分類することができる。
【0041】
(多言語単語分類装置の動作)
次に、図2に示すフローチャートを参照して、多言語単語分類装置1の動作を説明する(適宜、図1参照)。
まず、多言語単語分類装置1は、単語類似度計算手段3によって、入力された第二言語の単語に含まれる文字と、第一言語内容語記憶手段5に記憶されているすべての第一言語の内容語に含まれる文字との単語類似度をそれぞれ計算し、最大単語類似度を単語判定手段7に出力する(ステップS1)。
【0042】
続いて、多言語単語分類装置1は、単語判定手段7によって、単語類似度計算手段3から出力された最大単語類似度が閾値以上か否かを判定する(ステップS2)。そして、多言語単語分類装置1は、単語判定手段7によって、最大単語類似度が閾値以上であると判定した場合(ステップS2、Yes)に、内容語と判定し(ステップS3)、最大単語類似度が閾値以上であると判定しなかった場合(ステップS3、No)に機能語と判定し(ステップS4)、動作を終了する。
【0043】
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、多言語単語分類装置として説明したが、各手段における処理を実行する機能プログラムを組み合わせた多言語単語分類プログラムとして構成することも可能である。
【図面の簡単な説明】
【0044】
【図1】本発明の実施形態に係る多言語単語分類装置のブロック図である。
【図2】図1に示した多言語単語分類装置の動作を示すフローチャートである。
【符号の説明】
【0045】
1 多言語単語分類装置
3 単語類似度計算手段
5 第一言語内容語記憶手段
7 単語判定手段

【特許請求の範囲】
【請求項1】
内容語と機能語とが分類されている第一言語を用い、この第一言語の文字と同一の文字から構成される又は同一の文字を含む言語であり、内容語と機能語とが分類されていない第二言語について、当該第二言語の単語を、内容語と機能語とに分類する多言語分類装置であって、
前記第一言語に含まれる単語の中で少なくとも内容語が複数記憶されている第一言語内容語記憶手段と、
前記第一言語内容語記憶手段に記憶されている第一言語の各内容語に含まれる文字と、入力された前記第二言語の単語に含まれる文字との一致する個数及び文字が出現する順序に基づいて、前記第一言語の複数の内容語に対し、前記第一言語の内容語と前記第二言語の単語との類似する度合いを示すそれぞれの単語類似度を計算し、前記単語類似度が最大となる最大単語類似度を出力する単語類似度計算手段と、
この単語類似度計算手段で出力された最大単語類似度が予め設定した閾値以上の場合に、前記第二言語の単語を内容語と判定し、前記閾値未満の場合に前記第二言語の単語を機能語と判定する単語判定手段と、
を備えることを特徴とする多言語単語分類装置。
【請求項2】
内容語と機能語とが分類されている第一言語を用い、この第一言語の文字と同一の文字から構成される又は同一の文字を含む言語であり、内容語と機能語とが分類されていない第二言語について、当該第二言語の単語を、内容語と機能語とに分類するために、前記第一言語に含まれる単語の中で少なくとも内容語が複数記憶されている第一言語内容語記憶手段を備えたコンピュータを、
前記第一言語内容語記憶手段に記憶されている第一言語の各内容語に含まれる文字と、入力された前記第二言語の単語に含まれる文字との一致する個数及び文字が出現する順序に基づいて、前記第一言語の複数の内容語に対し、前記第一言語の内容語と前記第二言語の単語との類似する度合いを示すそれぞれの単語類似度を計算し、前記単語類似度が最大となる最大単語類似度を出力する単語類似度計算手段と、
この単語類似度計算手段で出力された最大単語類似度が予め設定した閾値以上の場合に、前記第二言語の単語を内容語と判定し、前記閾値未満の場合に前記第二言語の単語を機能語と判定する単語判定手段、
として機能させることを特徴とする多言語単語分類プログラム。

【図1】
image rotate

【図2】
image rotate


【公開番号】特開2008−304961(P2008−304961A)
【公開日】平成20年12月18日(2008.12.18)
【国際特許分類】
【出願番号】特願2007−148728(P2007−148728)
【出願日】平成19年6月5日(2007.6.5)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】