説明

多言語単語分類装置及び多言語単語分類プログラム

【課題】単語の持つ統計的な特徴を用いることなく、単語の品詞が分類された電子辞書が用意できなくても、当該言語に含まれる単語を内容語と機能語とに分類することができる多言語単語分類装置及び多言語単語分類プログラムを提供する。
【解決手段】多言語単語分類装置1は、複数の単語を含む単語リストが備えられる複数の言語と、内容語と機能語とが分類されていない対象言語とが、同一の文字列から構成される又は同一の文字を予め設定した個数以上含む場合に、前記単語リストを用い、前記対象言語の単語を、内容語と機能語とに分類するものであって、単言語内単語類似度計算手段3と、単語リスト群記憶手段5と、多言語間単語類似度計算手段7と、単語判定手段9と、を備えた。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、含まれている単語が内容語と機能語とに分類されていない言語について、当該単語を内容語と機能語とに分類する多言語単語分類装置及び多言語単語分類プログラムに関する。
【背景技術】
【0002】
従来、ある言語内に含まれる単語について、当該単語が内容語か機能語かを分類する手法の一つとして、単語の品詞の違いに基づく手法が非特許文献1に開示されている。なお、内容語とは、意味を持つ単語のことをいい、例えば、品詞が名詞や動詞の単語であり、機能語とは、内容語以外の単語のことをいい、例えば、品詞が助詞や助動詞の単語である。これら内容語と機能語とは排他的な関係になる。
【0003】
そして、従来の非特許文献1に示す手法は、この点に着目し、単語の品詞に基づいて、ある言語内に含まれる単語を内容語と機能語とに分類している。
一般的に、ある言語について、電子辞書が用意できるのであれば、当該電子辞書において、単語の品詞が分類されており、この分類された品詞に基づいて、当該言語内に含まれる単語を内容語と機能語とに分類することが容易に行えるので、従来の手法では、電子辞書が使用されることが多かった。なお、英語のように、電子辞書が容易に入手できるのであれば、英語の単語について、内容語と機能語とに分類することは容易である。
【0004】
また、従来の手法の中には、電子辞書が用意できない言語について、当該言語内に含まれる単語が内容語か機能語かを分類する手法があり、このような手法の一つとして、単語が持つ統計的な特徴を利用する手法が、非特許文献2に開示されている。
【0005】
この従来の非特許文献2に示す手法は、単語が持つ統計的な特徴として、ある単語が出現したときに、別の単語が出現する確率が高いという共起関係を利用したもので、この共起関係から言語内に含まれる単語が内容語か機能語かを分類している。
【0006】
なお、統計的な特徴の一つとして、一般に内容語の出現頻度と機能語の出現頻度とを比較した場合、機能語の出現頻度の方が高く、又、機能語の前後に様々な内容語が出現するという統計的特徴を利用することにより、言語内に含まれる単語が内容語か機能語かを分類することも可能である。
【非特許文献1】徳永健伸 「情報検索と言語処理」 東京大学出版会、pp.19−23
【非特許文献2】P.F.Brown et al.,Class−based n−gram models of natural language,Computational linguistics,pp.467−479,1992.
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の手法では、複数の言語について、これらの言語内に含まれるそれぞれの単語が、内容語か機能語かを分類するためには、それぞれの言語に対応した電子辞書を入手する必要があり、英語のような言語を除き、他の言語では、電子辞書を入手することが困難な場合あり、電子辞書を入手することができなければ、内容語と機能語とに分類することができないという問題がある。
【0008】
また、単語が持つ統計的な特徴を利用する場合、内容語の統計的な特徴と機能語の統計的な特徴との差があまり無い単語が含まれる言語では、有効でなく、同様に、当該言語に含まれる単語を内容語と機能語とに分類することができないという問題がある。
なお、この内容語の統計的な特徴と機能語の統計的な特徴との差があまり無い単語が含まれる言語の例として、スペイン語が挙げられる。例えば、スペイン語の“ministro”「大臣」は、内容語であるにも拘わらず、機能語の統計的な特徴と同じ特徴(例えば、出現頻度が高く前後に様々な単語が出現するという特徴)を持っており、単語が持つ統計的な特徴を利用しても、正確に内容語に分類することができない。
【0009】
さらに、単語が持つ統計的な特徴として、内容語と機能語との出現頻度の差を利用しようとする場合、一般的には機能語の出現頻度が内容後の出現頻度を上回るものの、ある言語においては、内容語であるにも拘わらず、機能語の出現頻度と同程度になる単語が存在し、正確に内容語を分類することができない。
【0010】
そこで、本発明では、前記した問題を解決し、単語の持つ統計的な特徴を用いることなく、単語の品詞が分類された電子辞書が用意できなくても、当該言語に含まれる単語を内容語と機能語とに分類することができる多言語単語分類装置及び多言語単語分類プログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
前記課題を解決するため、請求項1に記載の多言語単語分類装置は、複数の単語を含む単語リストが備えられる複数の言語と、内容語と機能語とが分類されていない対象言語とが、同一の文字列から構成される又は同一の文字を予め設定した個数以上含む場合に、前記単語リストを用い、前記対象言語の単語を、内容語と機能語とに分類する多言語単語分類装置であって、単語リスト群記憶手段と、単言語内単語類似度計算手段と、多言語間単語類似度計算手段と、単語判定手段と、を備える構成とした。
【0012】
かかる構成によれば、多言語単語分類装置は、単言語内単語類似度計算手段によって、単語リスト群記憶手段に記憶されている単語リスト群の各単語リストに含まれる単語を構成する文字と、入力された対象言語の単語を構成する文字との一致する個数及び文字が出現する順序に基づいて、単語リストに含まれる複数の単語に対し、単語リストに含まれる単語と対象言語の単語とが類似する度合いを示す単言語内単語類似度を計算し、この単言語内単語類似度が最大となる最大単言語内単語類似度を、言語ごとに出力する。続いて、多言語単語分類装置は、多言語間単語類似度計算手段によって、単言語内単語類似度計算手段で出力された複数の最大単言語内単語類似度について、予め設定した第一閾値未満の最大単言語内単語類似度を除外して、平均値を取る。そして、多言語単語分類装置は、単語判定手段によって、多言語間単語類似度計算手段で計算された平均値が予め設定した第二閾値以上の場合に、対象言語の単語を内容語と判定し、第二閾値未満の場合に前記対象言語の単語を機能語と判定する。
【0013】
請求項2に記載の多言語単語分類プログラムは、複数の単語を含む単語リストが備えられる複数の言語と、内容語と機能語とが分類されていない対象言語とが、同一の文字列から構成される又は同一の文字を予め設定した個数以上含む場合に、前記単語リストを用い、前記対象言語の単語を、内容語と機能語とに分類するために、複数の前記単語リストからなる単語リスト群を記憶した単語リスト群記憶手段を備えたコンピュータを、単言語内単語類似度計算手段、多言語間単語類似度計算手段、単語判定手段、として機能させる構成とした。
【0014】
かかる構成によれば、多言語単語分類プログラムは、単言語内単語類似度計算手段によって、単語リスト群記憶手段に記憶されている単語リスト群の各単語リストに含まれる単語を構成する文字と、入力された対象言語の単語を構成する文字との一致する個数及び文字が出現する順序に基づいて、単語リストに含まれる複数の単語に対し、単語リストに含まれる単語と対象言語の単語とが類似する度合いを示す単言語内単語類似度を計算し、この単言語内単語類似度が最大となる最大単言語内単語類似度を、言語ごとに出力し、多言語間単語類似度計算手段によって、単言語内単語類似度計算手段で出力された複数の最大単言語内単語類似度について、予め設定した第一閾値未満の最大単言語内単語類似度を除外して、平均値を取る。そして、多言語単語分類プログラムは、単語判定手段によって、多言語間単語類似度計算手段で計算された平均値が予め設定した第二閾値以上の場合に、対象言語の単語を内容語と判定し、第二閾値未満の場合に対象言語の単語を機能語と判定する。
【発明の効果】
【0015】
請求項1、2に記載の発明によれば、複数の言語の単語リストに含まれる単語を構成する文字と、対象言語の単語を構成する文字との単言語内単語類似度を、複数の言語について計算し、最大となった最大単言語内単語類似度の平均値をとり、この平均値が閾値以上の場合に内容語と判定することで、単語の持つ統計的な特徴を用いることなく、複数の言語について、単語の品詞が分類された電子辞書が用意できなくても、対象言語に含まれる単語を内容語と機能語とに分類することができる。
【発明を実施するための最良の形態】
【0016】
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
(多言語単語分類装置の構成)
図1は、多言語単語分類装置のブロック図である。この図1に示すように、多言語単語分類装置1は、複数の言語について複数の単語を含む単語リストを用いて、入力された対象言語の単語が、内容語か機能語かを判定し、この判定した判定結果を出力するもので、単言語内単語類似度計算手段3と、単語リスト群記憶手段5と、多言語間単語類似度計算手段7と、単語判定手段9と、を備えている。つまり、この多言語単語分類装置1は、判定結果を出力することで、対象言語の単語を内容語と機能語とに分類していると言える。
【0017】
複数の言語は、対象言語以外の任意数の言語である。なお、任意数とは、対象言語の個数が1であるので、N−1個(Nは自然数)となる。そして、N−1個の言語は、当該装置1において処理される順に、第一言語、第二言語、・・・、第N−1言語と扱われる。
【0018】
単語リストは、複数の単語を単にリストアップしたもの(複数の単語を収めたもの)で、含まれる複数の単語が品詞に分類されておらず、内容語と機能語とに分類されていない。
【0019】
そして、複数の言語と対象言語とは、同一の文字から構成される又は同一の文字を含んで構成される関係にあり、例えば、アルファベット(ラテン文字、ヘブライ文字、アラビア文字等)から構成される言語として、英語、ドイツ語、フランス語、スペイン語、ポルトガル語、ロシア語等が挙げられ、漢字を含んで構成される言語として、中国語、日本語が挙げられる。
【0020】
内容語とは、単独で意味を持つ単語をいい、例えば、日本語で言うと、品詞が名詞や動詞の単語である。機能語とは、単独で意味を持たない単語をいい、例えば、日本語で言うと、品詞が助詞や助動詞の単語である。
【0021】
この実施形態では、複数の言語に、英語、ポルトガル語、フランス語、ロシア語の4つの言語を採用しており、対象言語にスペイン語を採用している。また、これに限定されず、複数の言語は、同一の文字列から構成される言語又は同一の文字を予め設定した個数以上含む言語であり、単語リストが得られるものであれば、どの様な言語であってもよく、対象言語は、これら複数の言語と同一の文字から構成される言語又は同一の文字を含んで構成される言語であればよい。
【0022】
そして、この多言語単語分類装置1は、内容語が、複数の言語間において共通し、似通った単語として存在しており、機能語が、各言語において共通しておらず、独特な単語として存在しているとの前提の元に構築されたものである。例えば、名詞(特に固有名称)等の内容語は、複数の言語間において、表記の違いがあるだけで、読みが同じになる似通った単語として存在しており、助詞、助動詞、前置詞、冠詞等の機能語は、各言語の文法に従った独特の単語として存在している。
【0023】
単言語内単語類似度計算手段3は、単語リスト群記憶手段5に記憶されている単語リスト群の各単語リストに含まれる単語を構成する文字と、入力された対象言語の単語を構成する文字との一致する個数及び文字が出現する順序に基づいて、単語リストに含まれる単語と対象言語の単語とが類似する度合いを示す単言語内単語類似度を計算し、この単言語内単語類似度が最大となる最大単言語内単語類似度を、言語ごとに出力するものである。
【0024】
つまり、単言語内単語類似度計算手段3は、単語リスト群記憶手段5に記憶されている単語リスト群の単語リストが無くなるまで、ある一つの言語と対象言語とについて単語類似度を計算し、最大単語類似度を出力し、次に、別の一つの言語と対象言語とについて単語類似度を計算し、最大単語類似度を出力していき、それぞれの言語における最大単語類似度を繰り返し出力するものである。
【0025】
単言語内単語類似度は、単語リストに含まれる単語を構成する文字と、対象言語の単語を構成する文字との2つの単語間において、文字が一致する個数が多ければ多いほど高い値を取ると共に、この一致した文字の出現する順序が一致すればするほど高い値を取るものである。なお、単語リストに含まれる単語を構成する文字の数と、対象言語の単語を構成する文字の数とが近ければ近いほど、この単言語内単語類似度は、高い値を取ることとなる。
【0026】
この単語内単語類似度の計算は、この実施の形態では、文献「加藤ほか『類似した二言語間の放送ニュース記事の自動対応付け』第9回言語処理学会年次大会発表論文集、pp.322−325、2003」に開示されている方法を用いている。
【0027】
単語リスト群記憶手段5は、複数の単語リストからなる単語リスト群を記憶したもので、一般的なハードディスク等の記憶媒体によって構成されている。この実施形態では、単語リスト群に、英語の単語リスト、ポルトガル語の単語リスト、フランス語の単語リスト、ロシア語の単語リストが含まれている。そして、これらの単語リストには、各言語の複数の単語が収められており、ここでは、各言語のニュース記事等から得られたものを採用している。
【0028】
多言語間単語類似度計算手段7は、単言語内単語類似度計算手段3で出力された複数の最大単言語内単語類似度について、予め設定した第一閾値未満の最大単言語内単語類似度を除外して、平均値を取るものである。なお、この実施形態では、第一閾値を、0.5と設定している。そして、この閾値の値を言語に応じて、適宜変更することで、判定結果の精度を向上させることができる。ちなみに、閾値の値は、複数の言語のいずれかの言語において内容語か機能語かが判明しているデータに対して、評価実験を行った後に実験的に求めたものである。
【0029】
単語判定手段9は、多言語間単語類似度計算手段7で計算された平均値が予め設定した第二閾値以上の場合に、対象言語の単語を内容語と判定し、第二閾値未満の場合に対象言語の単語を機能語と判定するものである。なお、この実施形態では、第二閾値を0.6と設定している。
【0030】
ここで、単言語内単語類似度計算手段3による単言語内単語類似度の計算例と、多言語間単語類似度計算手段7による最大単言語内単語類似度の平均値の計算例と、単語判定手段9による判定結果の例とについて説明する。前記したように、この実施形態では、複数の言語が英語(第一言語)、ポルトガル語(第二言語)、フランス語(第三言語)、ロシア語(第四言語)であり、対象言語がスペイン語である。
【0031】
そして、英語の単語リストに、“president”、“minister”、“visit”が収められているとし、ポルトガル語の単語リストに、“ministro”が収められているとし、フランス語の単語リストに、“ministre”が収められているとし、ロシア語の単語リストに、“Токио”が収められているとする。なお、実際には、ここで、列記した単語以外の複数の単語が各単語リストに含まれている。
【0032】
そして、この多言語単語分類装置1に、スペイン語の単語として“ministro”が入力されると、まず、多言語単語分類装置1は、単言語内単語類似度計算手段3によって、英語の単語リストに収められている単語について、次のように単言語内単語類似度を計算する。
〈英語(第一言語)の単言語内単語類似度〉
単言語内単語類似度SimMono(“ministro”,“president”)=0.24
・・・(1)
単言語内単語類似度SimMono(“ministro”,“minister”)=0.82
・・・(2)
単言語内単語類似度SimMono(“ministro”,“visit”)=0.46
・・・(3)
【0033】
(1)において、英語の“president”は、pが1個、rが1個、eが2個、sが1個、dが1個、nが1個、tが1個の文字数が9個の文字列として構成されており、スペイン語の“ministro”は、mが1個、iが2個、nが1個、sが1個、tが1個、rが1個、oが1個の文字数が8個の文字列として構成されており、これらの文字列を比較すると、文字数が異なり、sとtとについて、含まれている文字が一致しているものの、出現する順序が異なるので、単言語内単語類似度は、0.24と比較的低くなっている。
【0034】
(2)において、英語の“minister”は、mが1個、iが2個、nが1個、sが1個、eが1個、rが1個の文字数が8個の文字列として構成されており、スペイン語の“ministro”は、mが1個、iが2個、sが1個、tが1個、rが1個、oが1個の文字数が8個の文字列として構成されており、これらの文字列を比較すると、文字数が一致すると共に、mとiとnとsとtとについて、含まれている文字が一致しており、しかも、これらのすべての文字について出現する順序も同じであるので、単言語内単語類似度は、0.82と比較的高くなっている。
【0035】
(3)において、英語の“visit”は、vが1個、iが2個、sが1個、tが1個の文字数が5個の文字列として構成されており、スペイン語の“ministro”は、mが1個、iが2個、sが1個、tが1個、rが1個、oが1個の文字数が8個の文字列として構成されており、これらの文字列を比較すると、文字数が異なり、iとtとについて、含まれている文字が一致しており、iについては出現する順序も同じであるので、単言語内単語類似度は、0.46という(1)と(2)と間の値となっている。
【0036】
これらの結果から、英語の最大単言語内単語類似度は、0.82((2)の0.82>(3)の0.46>(1)の0.24)となり、多言語単語分類装置1は、単言語内単語類似度計算手段3によって、この0.82を、多言語間単語類似度計算手段7に出力する。
【0037】
また、多言語単語分類装置1は、単言語内単語類似度計算手段3によって、ポルトガル語の単語リストに収められている単語“ministro”と、フランス語の単語リストに収められている単語“ministre”と、ロシア語の単語リストに収められている単語“Токио”とについて、次のように単言語内単語類似度を計算する。
【0038】
〈ポルトガル語(第二言語)の単言語内単語類似度〉
SimMono(“ministro”,“ministro”)=1
・・・(4)
〈フランス語(第三言語)の単言語内単語類似度〉
SimMono(“ministro”,“ministre”)=0.88
・・・(5)
〈ロシア語(第四言語)の単言語内単語類似度〉
SimMono(“ministro”,“Токио”)=0.15
・・・(6)
【0039】
(4)において、ポルトガル語の“ministro”は、mが1個、iが2個、nが1個、sが1個、tが1個、rが1個、oが1個の文字数が8個の文字列として構成されており、スペイン語の“ministro”は、mが1個、iが2個、nが1個、sが1個、tが1個、rが1個、oが1個の文字数が8個の文字列として構成されており、これらの文字列を比較すると、完全に一致しているので、単言語内単語類似度は、1.0と最も高くなっている。
【0040】
(5)において、フランス語の“ministre”は、mが1個、iが2個、nが1個、sが1個、tが1個、rが1個、eが1個の文字数が8個の文字列として構成されており、スペイン語の“ministro”は、mが1個、iが2個、nが1個、sが1個、tが1個、rが1個、oが1個の文字数が8個の文字列として構成されており、これらの文字列を比較すると、文字数が一致すると共に、mとiとnとsとtとrとについて、含まれている文字が一致しており、しかも、これらのすべての文字について出現する順序も同じであるので、単言語内単語類似度は、0.88と比較的高くなっている。
【0041】
(6)において、ロシア語の“Токио”は、Тが1個、оが2個、кが1個、иが1個の文字数が5個の文字列として構成されており、スペイン語の“ministro”は、mが1個、iが2個、nが1個、sが1個、tが1個、rが1個、oが1個の文字数が8個の文字列として構成されており、これらの文字列を比較すると、文字数が異なり、文字の対応関係が不明であり、出現する順序も不明であるので、単言語内単語類似度は、0.15と低くなっている。そして、これらの単言語内単語類似度が最大単言語内単語類似度として、多言語間単語類似度計算手段7に出力される(これらの言語における他の単語については省略する)。
【0042】
そうすると、多言語単語分類装置1は、多言語間単語類似度計算手段7によって、次のように最大単言語内単語類似度の平均値を取る。
まず、多言語単語分類装置1は、多言語間単語類似度計算手段7によって、単言語内単語類似度計算手段3から出力された単言語内単語類似度について、第一閾値未満である単言語内単語類似度を除外する。ここでは、第一閾値が0.5と設定されているので、(6)のロシア語の最大単言語内単語類似度0.15が除外される。
〈英語(第一言語)の単言語内単語類似度〉
SimMono(“ministro”,“minister”)=0.82
・・・(2)
〈ポルトガル語(第二言語)の単言語内単語類似度〉
SimMono(“ministro”,“ministro”)=1
・・・(4)
〈フランス語(第三言語)の単言語内単語類似度〉
SimMono(“ministro”,“ministre”)=0.88
・・・(5)
〈ロシア語(第四言語)の単言語内単語類似度〉
SimMono(“ministro”,“Токио”)=0.15
・・・(6)
【0043】
そして、多言語単語分類装置1は、多言語間単語類似度計算手段7によって、英語の最大単言語内単語類似度0.82と、ポルトガル語の最大単言語内単語類似度1.0と、フランス語の最大単言語内単語類似度0.88との平均値を取る。
平均値SimMulti(“ministro”)=(0.82+1.0+0.88)/3=0.9 ・・・(7)
【0044】
(7)に示したように、0.9となり、多言語単語分類装置1は、多言語間単語類似度計算手段7によって、この0.9を単語判定手段9に出力する。そして、多言語単語分類装置1は、単語判定手段9によって、平均値0.9と、設定されている第二閾値0.6とを比較し、平均値が第二閾値以上であるので、スペイン語の“ministro”を内容語と判定する。
【0045】
多言語単語分類装置1によれば、単語リスト群記憶手段5に記憶されている複数の言語の単語リストに含まれる単語を構成する文字と、対象言語の単語を構成する文字との単言語内単語類似度を、単言語内単語類似度計算手段3によって、複数の言語について計算し、多言語間単語類似度計算手段7によって、最大となった最大単言語内単語類似度の平均値をとり、この平均値が第二閾値以上の場合に内容語と判定することで、単語の持つ統計的な特徴を用いることなく、複数の言語について、単語の品詞が分類された電子辞書が用意できなくても、対象言語に含まれる単語を内容語と機能語とに分類することができる。
【0046】
(多言語単語分類装置の動作)
次に、図2に示すフローチャートを参照して、多言語単語分類装置1の動作を説明する(適宜、図1参照)
【0047】
まず、多言語単語分類装置1は、単言語内単語類似度計算手段3によって、入力された対象言語の単語を構成する文字と、単語リスト群記憶手段5に記憶されている第i言語(一から四)について、単言語内単語類似度をそれぞれ計算し、最大単言語内単語類似度を多言語間単語類似度計算手段7に出力する(ステップS1)。
【0048】
続いて、多言語単語分類装置1は、単言語内単語類似度計算手段3によって、第i言語がN−1に達したか否かを判定し(ステップS2)、達すまで繰り返し(ステップS2でNo)、達した場合(ステップS2でYes)に、多言語間単語類似度計算手段7によって、第一閾値未満の最大単言語内単語類似度を除外して、平均値(多言語間単語類似度)を計算する(ステップS3)。
【0049】
そして、多言語単語分類装置1は、単語判定手段9によって、多言語間単語類似度計算手段7から出力された平均値が第二閾値以上か否かを判定する(ステップS4)。そして、多言語単語分類装置1は、単語判定手段9によって、平均値が第二閾値以上であると判定した場合(ステップS4、Yes)に、内容語と判定し(ステップS5)、平均値が第二閾値以上であると判定しなかった場合(ステップS4、No)に機能語と判定し(ステップS6)、判定結果(内容語又は機能語)を出力して(ステップS7)、動作を終了する。
【0050】
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、多言語単語分類装置として説明したが、各手段における処理を実行する機能プログラムを組み合わせた多言語単語分類プログラムとして構成することも可能である。
【図面の簡単な説明】
【0051】
【図1】本発明の実施形態に係る多言語単語分類装置のブロック図である。
【図2】図1に示した多言語単語分類装置の動作を示すフローチャートである。
【符号の説明】
【0052】
1 多言語単語分類装置
3 単語類似度計算手段
5 単語リスト群記憶手段
7 多言語間単語類似度計算手段
9 単語判定手段

【特許請求の範囲】
【請求項1】
複数の単語を含む単語リストが備えられる複数の言語と、内容語と機能語とが分類されていない対象言語とが、同一の文字列から構成される又は同一の文字を予め設定した個数以上含む場合に、前記単語リストを用い、前記対象言語の単語を、内容語と機能語とに分類する多言語単語分類装置であって、
複数の前記単語リストからなる単語リスト群を記憶した単語リスト群記憶手段と、
この単語リスト群記憶手段に記憶されている単語リスト群の各単語リストに含まれる単語を構成する文字と、入力された前記対象言語の単語を構成する文字との一致する個数及び文字が出現する順序に基づいて、前記単語リストに含まれる複数の単語に対し、前記単語リストに含まれる単語と前記対象言語の単語とが類似する度合いを示す単言語内単語類似度を計算し、この単言語内単語類似度が最大となる最大単言語内単語類似度を、前記言語ごとに出力する単言語内単語類似度計算手段と、
この単言語内単語類似度計算手段で出力された複数の最大単言語内単語類似度について、予め設定した第一閾値未満の最大単言語内単語類似度を除外して、平均値を取る多言語間単語類似度計算手段と、
この多言語間単語類似度計算手段で計算された平均値が予め設定した第二閾値以上の場合に、前記対象言語の単語を内容語と判定し、前記第二閾値未満の場合に前記対象言語の単語を機能語と判定する単語判定手段と、
を備えることを特徴とする多言語単語分類装置。
【請求項2】
複数の単語を含む単語リストが備えられる複数の言語と、内容語と機能語とが分類されていない対象言語とが、同一の文字列から構成される又は同一の文字を予め設定した個数以上含む場合に、前記単語リストを用い、前記対象言語の単語を、内容語と機能語とに分類するために、複数の前記単語リストからなる単語リスト群を記憶した単語リスト群記憶手段を備えたコンピュータを、
前記単語リスト群記憶手段に記憶されている単語リスト群の各単語リストに含まれる単語を構成する文字と、入力された前記対象言語の単語を構成する文字との一致する個数及び文字が出現する順序に基づいて、前記単語リストに含まれる複数の単語に対し、前記単語リストに含まれる単語と前記対象言語の単語とが類似する度合いを示す単言語内単語類似度を計算し、この単言語内単語類似度が最大となる最大単言語内単語類似度を、前記言語ごとに出力する単言語内単語類似度計算手段、
この単言語内単語類似度計算手段で出力された複数の最大単言語内単語類似度について、予め設定した第一閾値未満の最大単言語内単語類似度を除外して、平均値を取る多言語間単語類似度計算手段、
この多言語間単語類似度計算手段で計算された平均値が予め設定した第二閾値以上の場合に、前記対象言語の単語を内容語と判定し、前記第二閾値未満の場合に前記対象言語の単語を機能語と判定する単語判定手段、
として機能させることを特徴とする多言語単語分類プログラム。

【図1】
image rotate

【図2】
image rotate


【公開番号】特開2008−299777(P2008−299777A)
【公開日】平成20年12月11日(2008.12.11)
【国際特許分類】
【出願番号】特願2007−147849(P2007−147849)
【出願日】平成19年6月4日(2007.6.4)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】