多言語単語分類装置及び多言語単語分類プログラム

【課題】単語の持つ統計的な特徴を用いることなく、単語の品詞が分類された電子辞書が用意できなくても、当該言語に含まれる単語を内容語と機能語とに分類することができる多言語単語分類装置及び多言語単語分類プログラムを提供する。
【解決手段】多言語単語分類装置１は、複数の単語を含む単語リストが備えられる複数の言語と、内容語と機能語とが分類されていない対象言語とが、同一の文字列から構成される又は同一の文字を予め設定した個数以上含む場合に、前記単語リストを用い、前記対象言語の単語を、内容語と機能語とに分類するものであって、単言語内単語類似度計算手段３と、単語リスト群記憶手段５と、多言語間単語類似度計算手段７と、単語判定手段９と、を備えた。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、含まれている単語が内容語と機能語とに分類されていない言語について、当該単語を内容語と機能語とに分類する多言語単語分類装置及び多言語単語分類プログラムに関する。
【背景技術】
【０００２】
従来、ある言語内に含まれる単語について、当該単語が内容語か機能語かを分類する手法の一つとして、単語の品詞の違いに基づく手法が非特許文献１に開示されている。なお、内容語とは、意味を持つ単語のことをいい、例えば、品詞が名詞や動詞の単語であり、機能語とは、内容語以外の単語のことをいい、例えば、品詞が助詞や助動詞の単語である。これら内容語と機能語とは排他的な関係になる。
【０００３】
そして、従来の非特許文献１に示す手法は、この点に着目し、単語の品詞に基づいて、ある言語内に含まれる単語を内容語と機能語とに分類している。
一般的に、ある言語について、電子辞書が用意できるのであれば、当該電子辞書において、単語の品詞が分類されており、この分類された品詞に基づいて、当該言語内に含まれる単語を内容語と機能語とに分類することが容易に行えるので、従来の手法では、電子辞書が使用されることが多かった。なお、英語のように、電子辞書が容易に入手できるのであれば、英語の単語について、内容語と機能語とに分類することは容易である。
【０００４】
また、従来の手法の中には、電子辞書が用意できない言語について、当該言語内に含まれる単語が内容語か機能語かを分類する手法があり、このような手法の一つとして、単語が持つ統計的な特徴を利用する手法が、非特許文献２に開示されている。
【０００５】
この従来の非特許文献２に示す手法は、単語が持つ統計的な特徴として、ある単語が出現したときに、別の単語が出現する確率が高いという共起関係を利用したもので、この共起関係から言語内に含まれる単語が内容語か機能語かを分類している。
【０００６】
なお、統計的な特徴の一つとして、一般に内容語の出現頻度と機能語の出現頻度とを比較した場合、機能語の出現頻度の方が高く、又、機能語の前後に様々な内容語が出現するという統計的特徴を利用することにより、言語内に含まれる単語が内容語か機能語かを分類することも可能である。
【非特許文献１】徳永健伸「情報検索と言語処理」東京大学出版会、ｐｐ．１９−２３
【非特許文献２】Ｐ．Ｆ．Ｂｒｏｗｎｅｔａｌ．，Ｃｌａｓｓ−ｂａｓｅｄｎ−ｇｒａｍｍｏｄｅｌｓｏｆｎａｔｕｒａｌｌａｎｇｕａｇｅ，Ｃｏｍｐｕｔａｔｉｏｎａｌｌｉｎｇｕｉｓｔｉｃｓ，ｐｐ．４６７−４７９，１９９２．
【発明の開示】
【発明が解決しようとする課題】
【０００７】
しかしながら、従来の手法では、複数の言語について、これらの言語内に含まれるそれぞれの単語が、内容語か機能語かを分類するためには、それぞれの言語に対応した電子辞書を入手する必要があり、英語のような言語を除き、他の言語では、電子辞書を入手することが困難な場合あり、電子辞書を入手することができなければ、内容語と機能語とに分類することができないという問題がある。
【０００８】
また、単語が持つ統計的な特徴を利用する場合、内容語の統計的な特徴と機能語の統計的な特徴との差があまり無い単語が含まれる言語では、有効でなく、同様に、当該言語に含まれる単語を内容語と機能語とに分類することができないという問題がある。
なお、この内容語の統計的な特徴と機能語の統計的な特徴との差があまり無い単語が含まれる言語の例として、スペイン語が挙げられる。例えば、スペイン語の“ｍｉｎｉｓｔｒｏ”「大臣」は、内容語であるにも拘わらず、機能語の統計的な特徴と同じ特徴（例えば、出現頻度が高く前後に様々な単語が出現するという特徴）を持っており、単語が持つ統計的な特徴を利用しても、正確に内容語に分類することができない。
【０００９】
さらに、単語が持つ統計的な特徴として、内容語と機能語との出現頻度の差を利用しようとする場合、一般的には機能語の出現頻度が内容後の出現頻度を上回るものの、ある言語においては、内容語であるにも拘わらず、機能語の出現頻度と同程度になる単語が存在し、正確に内容語を分類することができない。
【００１０】
そこで、本発明では、前記した問題を解決し、単語の持つ統計的な特徴を用いることなく、単語の品詞が分類された電子辞書が用意できなくても、当該言語に含まれる単語を内容語と機能語とに分類することができる多言語単語分類装置及び多言語単語分類プログラムを提供することを目的とする。
【課題を解決するための手段】
【００１１】
前記課題を解決するため、請求項１に記載の多言語単語分類装置は、複数の単語を含む単語リストが備えられる複数の言語と、内容語と機能語とが分類されていない対象言語とが、同一の文字列から構成される又は同一の文字を予め設定した個数以上含む場合に、前記単語リストを用い、前記対象言語の単語を、内容語と機能語とに分類する多言語単語分類装置であって、単語リスト群記憶手段と、単言語内単語類似度計算手段と、多言語間単語類似度計算手段と、単語判定手段と、を備える構成とした。
【００１２】
かかる構成によれば、多言語単語分類装置は、単言語内単語類似度計算手段によって、単語リスト群記憶手段に記憶されている単語リスト群の各単語リストに含まれる単語を構成する文字と、入力された対象言語の単語を構成する文字との一致する個数及び文字が出現する順序に基づいて、単語リストに含まれる複数の単語に対し、単語リストに含まれる単語と対象言語の単語とが類似する度合いを示す単言語内単語類似度を計算し、この単言語内単語類似度が最大となる最大単言語内単語類似度を、言語ごとに出力する。続いて、多言語単語分類装置は、多言語間単語類似度計算手段によって、単言語内単語類似度計算手段で出力された複数の最大単言語内単語類似度について、予め設定した第一閾値未満の最大単言語内単語類似度を除外して、平均値を取る。そして、多言語単語分類装置は、単語判定手段によって、多言語間単語類似度計算手段で計算された平均値が予め設定した第二閾値以上の場合に、対象言語の単語を内容語と判定し、第二閾値未満の場合に前記対象言語の単語を機能語と判定する。
【００１３】
請求項２に記載の多言語単語分類プログラムは、複数の単語を含む単語リストが備えられる複数の言語と、内容語と機能語とが分類されていない対象言語とが、同一の文字列から構成される又は同一の文字を予め設定した個数以上含む場合に、前記単語リストを用い、前記対象言語の単語を、内容語と機能語とに分類するために、複数の前記単語リストからなる単語リスト群を記憶した単語リスト群記憶手段を備えたコンピュータを、単言語内単語類似度計算手段、多言語間単語類似度計算手段、単語判定手段、として機能させる構成とした。
【００１４】
かかる構成によれば、多言語単語分類プログラムは、単言語内単語類似度計算手段によって、単語リスト群記憶手段に記憶されている単語リスト群の各単語リストに含まれる単語を構成する文字と、入力された対象言語の単語を構成する文字との一致する個数及び文字が出現する順序に基づいて、単語リストに含まれる複数の単語に対し、単語リストに含まれる単語と対象言語の単語とが類似する度合いを示す単言語内単語類似度を計算し、この単言語内単語類似度が最大となる最大単言語内単語類似度を、言語ごとに出力し、多言語間単語類似度計算手段によって、単言語内単語類似度計算手段で出力された複数の最大単言語内単語類似度について、予め設定した第一閾値未満の最大単言語内単語類似度を除外して、平均値を取る。そして、多言語単語分類プログラムは、単語判定手段によって、多言語間単語類似度計算手段で計算された平均値が予め設定した第二閾値以上の場合に、対象言語の単語を内容語と判定し、第二閾値未満の場合に対象言語の単語を機能語と判定する。
【発明の効果】
【００１５】
請求項１、２に記載の発明によれば、複数の言語の単語リストに含まれる単語を構成する文字と、対象言語の単語を構成する文字との単言語内単語類似度を、複数の言語について計算し、最大となった最大単言語内単語類似度の平均値をとり、この平均値が閾値以上の場合に内容語と判定することで、単語の持つ統計的な特徴を用いることなく、複数の言語について、単語の品詞が分類された電子辞書が用意できなくても、対象言語に含まれる単語を内容語と機能語とに分類することができる。
【発明を実施するための最良の形態】
【００１６】
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
（多言語単語分類装置の構成）
図１は、多言語単語分類装置のブロック図である。この図１に示すように、多言語単語分類装置１は、複数の言語について複数の単語を含む単語リストを用いて、入力された対象言語の単語が、内容語か機能語かを判定し、この判定した判定結果を出力するもので、単言語内単語類似度計算手段３と、単語リスト群記憶手段５と、多言語間単語類似度計算手段７と、単語判定手段９と、を備えている。つまり、この多言語単語分類装置１は、判定結果を出力することで、対象言語の単語を内容語と機能語とに分類していると言える。
【００１７】
複数の言語は、対象言語以外の任意数の言語である。なお、任意数とは、対象言語の個数が１であるので、Ｎ−１個（Ｎは自然数）となる。そして、Ｎ−１個の言語は、当該装置１において処理される順に、第一言語、第二言語、・・・、第Ｎ−１言語と扱われる。
【００１８】
単語リストは、複数の単語を単にリストアップしたもの（複数の単語を収めたもの）で、含まれる複数の単語が品詞に分類されておらず、内容語と機能語とに分類されていない。
【００１９】
そして、複数の言語と対象言語とは、同一の文字から構成される又は同一の文字を含んで構成される関係にあり、例えば、アルファベット（ラテン文字、ヘブライ文字、アラビア文字等）から構成される言語として、英語、ドイツ語、フランス語、スペイン語、ポルトガル語、ロシア語等が挙げられ、漢字を含んで構成される言語として、中国語、日本語が挙げられる。
【００２０】
内容語とは、単独で意味を持つ単語をいい、例えば、日本語で言うと、品詞が名詞や動詞の単語である。機能語とは、単独で意味を持たない単語をいい、例えば、日本語で言うと、品詞が助詞や助動詞の単語である。
【００２１】
この実施形態では、複数の言語に、英語、ポルトガル語、フランス語、ロシア語の４つの言語を採用しており、対象言語にスペイン語を採用している。また、これに限定されず、複数の言語は、同一の文字列から構成される言語又は同一の文字を予め設定した個数以上含む言語であり、単語リストが得られるものであれば、どの様な言語であってもよく、対象言語は、これら複数の言語と同一の文字から構成される言語又は同一の文字を含んで構成される言語であればよい。
【００２２】
そして、この多言語単語分類装置１は、内容語が、複数の言語間において共通し、似通った単語として存在しており、機能語が、各言語において共通しておらず、独特な単語として存在しているとの前提の元に構築されたものである。例えば、名詞（特に固有名称）等の内容語は、複数の言語間において、表記の違いがあるだけで、読みが同じになる似通った単語として存在しており、助詞、助動詞、前置詞、冠詞等の機能語は、各言語の文法に従った独特の単語として存在している。
【００２３】
単言語内単語類似度計算手段３は、単語リスト群記憶手段５に記憶されている単語リスト群の各単語リストに含まれる単語を構成する文字と、入力された対象言語の単語を構成する文字との一致する個数及び文字が出現する順序に基づいて、単語リストに含まれる単語と対象言語の単語とが類似する度合いを示す単言語内単語類似度を計算し、この単言語内単語類似度が最大となる最大単言語内単語類似度を、言語ごとに出力するものである。
【００２４】
つまり、単言語内単語類似度計算手段３は、単語リスト群記憶手段５に記憶されている単語リスト群の単語リストが無くなるまで、ある一つの言語と対象言語とについて単語類似度を計算し、最大単語類似度を出力し、次に、別の一つの言語と対象言語とについて単語類似度を計算し、最大単語類似度を出力していき、それぞれの言語における最大単語類似度を繰り返し出力するものである。
【００２５】
単言語内単語類似度は、単語リストに含まれる単語を構成する文字と、対象言語の単語を構成する文字との２つの単語間において、文字が一致する個数が多ければ多いほど高い値を取ると共に、この一致した文字の出現する順序が一致すればするほど高い値を取るものである。なお、単語リストに含まれる単語を構成する文字の数と、対象言語の単語を構成する文字の数とが近ければ近いほど、この単言語内単語類似度は、高い値を取ることとなる。
【００２６】
この単語内単語類似度の計算は、この実施の形態では、文献「加藤ほか『類似した二言語間の放送ニュース記事の自動対応付け』第９回言語処理学会年次大会発表論文集、ｐｐ．３２２−３２５、２００３」に開示されている方法を用いている。
【００２７】
単語リスト群記憶手段５は、複数の単語リストからなる単語リスト群を記憶したもので、一般的なハードディスク等の記憶媒体によって構成されている。この実施形態では、単語リスト群に、英語の単語リスト、ポルトガル語の単語リスト、フランス語の単語リスト、ロシア語の単語リストが含まれている。そして、これらの単語リストには、各言語の複数の単語が収められており、ここでは、各言語のニュース記事等から得られたものを採用している。
【００２８】
多言語間単語類似度計算手段７は、単言語内単語類似度計算手段３で出力された複数の最大単言語内単語類似度について、予め設定した第一閾値未満の最大単言語内単語類似度を除外して、平均値を取るものである。なお、この実施形態では、第一閾値を、０．５と設定している。そして、この閾値の値を言語に応じて、適宜変更することで、判定結果の精度を向上させることができる。ちなみに、閾値の値は、複数の言語のいずれかの言語において内容語か機能語かが判明しているデータに対して、評価実験を行った後に実験的に求めたものである。
【００２９】
単語判定手段９は、多言語間単語類似度計算手段７で計算された平均値が予め設定した第二閾値以上の場合に、対象言語の単語を内容語と判定し、第二閾値未満の場合に対象言語の単語を機能語と判定するものである。なお、この実施形態では、第二閾値を０．６と設定している。
【００３０】
ここで、単言語内単語類似度計算手段３による単言語内単語類似度の計算例と、多言語間単語類似度計算手段７による最大単言語内単語類似度の平均値の計算例と、単語判定手段９による判定結果の例とについて説明する。前記したように、この実施形態では、複数の言語が英語（第一言語）、ポルトガル語（第二言語）、フランス語（第三言語）、ロシア語（第四言語）であり、対象言語がスペイン語である。
【００３１】
そして、英語の単語リストに、“ｐｒｅｓｉｄｅｎｔ”、“ｍｉｎｉｓｔｅｒ”、“ｖｉｓｉｔ”が収められているとし、ポルトガル語の単語リストに、“ｍｉｎｉｓｔｒｏ”が収められているとし、フランス語の単語リストに、“ｍｉｎｉｓｔｒｅ”が収められているとし、ロシア語の単語リストに、“Токио”が収められているとする。なお、実際には、ここで、列記した単語以外の複数の単語が各単語リストに含まれている。
【００３２】
そして、この多言語単語分類装置１に、スペイン語の単語として“ｍｉｎｉｓｔｒｏ”が入力されると、まず、多言語単語分類装置１は、単言語内単語類似度計算手段３によって、英語の単語リストに収められている単語について、次のように単言語内単語類似度を計算する。
〈英語（第一言語）の単言語内単語類似度〉
単言語内単語類似度ＳｉｍＭｏｎｏ（“ｍｉｎｉｓｔｒｏ”，“ｐｒｅｓｉｄｅｎｔ”）＝０．２４
・・・（１）
単言語内単語類似度ＳｉｍＭｏｎｏ（“ｍｉｎｉｓｔｒｏ”，“ｍｉｎｉｓｔｅｒ”）＝０．８２
・・・（２）
単言語内単語類似度ＳｉｍＭｏｎｏ（“ｍｉｎｉｓｔｒｏ”，“ｖｉｓｉｔ”）＝０．４６
・・・（３）
【００３３】
（１）において、英語の“ｐｒｅｓｉｄｅｎｔ”は、ｐが１個、ｒが１個、ｅが２個、ｓが１個、ｄが１個、ｎが１個、ｔが１個の文字数が９個の文字列として構成されており、スペイン語の“ｍｉｎｉｓｔｒｏ”は、ｍが１個、ｉが２個、ｎが１個、ｓが１個、ｔが１個、ｒが１個、ｏが１個の文字数が８個の文字列として構成されており、これらの文字列を比較すると、文字数が異なり、ｓとｔとについて、含まれている文字が一致しているものの、出現する順序が異なるので、単言語内単語類似度は、０．２４と比較的低くなっている。
【００３４】
（２）において、英語の“ｍｉｎｉｓｔｅｒ”は、ｍが１個、ｉが２個、ｎが１個、ｓが１個、ｅが１個、ｒが１個の文字数が８個の文字列として構成されており、スペイン語の“ｍｉｎｉｓｔｒｏ”は、ｍが１個、ｉが２個、ｓが１個、ｔが１個、ｒが１個、ｏが１個の文字数が８個の文字列として構成されており、これらの文字列を比較すると、文字数が一致すると共に、ｍとｉとｎとｓとｔとについて、含まれている文字が一致しており、しかも、これらのすべての文字について出現する順序も同じであるので、単言語内単語類似度は、０．８２と比較的高くなっている。
【００３５】
（３）において、英語の“ｖｉｓｉｔ”は、ｖが１個、ｉが２個、ｓが１個、ｔが１個の文字数が５個の文字列として構成されており、スペイン語の“ｍｉｎｉｓｔｒｏ”は、ｍが１個、ｉが２個、ｓが１個、ｔが１個、ｒが１個、ｏが１個の文字数が８個の文字列として構成されており、これらの文字列を比較すると、文字数が異なり、ｉとｔとについて、含まれている文字が一致しており、ｉについては出現する順序も同じであるので、単言語内単語類似度は、０．４６という（１）と（２）と間の値となっている。
【００３６】
これらの結果から、英語の最大単言語内単語類似度は、０．８２（（２）の０．８２＞（３）の０．４６＞（１）の０．２４）となり、多言語単語分類装置１は、単言語内単語類似度計算手段３によって、この０．８２を、多言語間単語類似度計算手段７に出力する。
【００３７】
また、多言語単語分類装置１は、単言語内単語類似度計算手段３によって、ポルトガル語の単語リストに収められている単語“ｍｉｎｉｓｔｒｏ”と、フランス語の単語リストに収められている単語“ｍｉｎｉｓｔｒｅ”と、ロシア語の単語リストに収められている単語“Токио”とについて、次のように単言語内単語類似度を計算する。
【００３８】
〈ポルトガル語（第二言語）の単言語内単語類似度〉
ＳｉｍＭｏｎｏ（“ｍｉｎｉｓｔｒｏ”，“ｍｉｎｉｓｔｒｏ”）＝１
・・・（４）
〈フランス語（第三言語）の単言語内単語類似度〉
ＳｉｍＭｏｎｏ（“ｍｉｎｉｓｔｒｏ”，“ｍｉｎｉｓｔｒｅ”）＝０．８８
・・・（５）
〈ロシア語（第四言語）の単言語内単語類似度〉
ＳｉｍＭｏｎｏ（“ｍｉｎｉｓｔｒｏ”，“Токио”）＝０．１５
・・・（６）
【００３９】
（４）において、ポルトガル語の“ｍｉｎｉｓｔｒｏ”は、ｍが１個、ｉが２個、ｎが１個、ｓが１個、ｔが１個、ｒが１個、ｏが１個の文字数が８個の文字列として構成されており、スペイン語の“ｍｉｎｉｓｔｒｏ”は、ｍが１個、ｉが２個、ｎが１個、ｓが１個、ｔが１個、ｒが１個、ｏが１個の文字数が８個の文字列として構成されており、これらの文字列を比較すると、完全に一致しているので、単言語内単語類似度は、１．０と最も高くなっている。
【００４０】
（５）において、フランス語の“ｍｉｎｉｓｔｒｅ”は、ｍが１個、ｉが２個、ｎが１個、ｓが１個、ｔが１個、ｒが１個、ｅが１個の文字数が８個の文字列として構成されており、スペイン語の“ｍｉｎｉｓｔｒｏ”は、ｍが１個、ｉが２個、ｎが１個、ｓが１個、ｔが１個、ｒが１個、ｏが１個の文字数が８個の文字列として構成されており、これらの文字列を比較すると、文字数が一致すると共に、ｍとｉとｎとｓとｔとｒとについて、含まれている文字が一致しており、しかも、これらのすべての文字について出現する順序も同じであるので、単言語内単語類似度は、０．８８と比較的高くなっている。
【００４１】
（６）において、ロシア語の“Токио”は、Тが１個、оが２個、кが１個、иが１個の文字数が５個の文字列として構成されており、スペイン語の“ｍｉｎｉｓｔｒｏ”は、ｍが１個、ｉが２個、ｎが１個、ｓが１個、ｔが１個、ｒが１個、ｏが１個の文字数が８個の文字列として構成されており、これらの文字列を比較すると、文字数が異なり、文字の対応関係が不明であり、出現する順序も不明であるので、単言語内単語類似度は、０．１５と低くなっている。そして、これらの単言語内単語類似度が最大単言語内単語類似度として、多言語間単語類似度計算手段７に出力される（これらの言語における他の単語については省略する）。
【００４２】
そうすると、多言語単語分類装置１は、多言語間単語類似度計算手段７によって、次のように最大単言語内単語類似度の平均値を取る。
まず、多言語単語分類装置１は、多言語間単語類似度計算手段７によって、単言語内単語類似度計算手段３から出力された単言語内単語類似度について、第一閾値未満である単言語内単語類似度を除外する。ここでは、第一閾値が０．５と設定されているので、（６）のロシア語の最大単言語内単語類似度０．１５が除外される。
〈英語（第一言語）の単言語内単語類似度〉
ＳｉｍＭｏｎｏ（“ｍｉｎｉｓｔｒｏ”，“ｍｉｎｉｓｔｅｒ”）＝０．８２
・・・（２）
〈ポルトガル語（第二言語）の単言語内単語類似度〉
ＳｉｍＭｏｎｏ（“ｍｉｎｉｓｔｒｏ”，“ｍｉｎｉｓｔｒｏ”）＝１
・・・（４）
〈フランス語（第三言語）の単言語内単語類似度〉
ＳｉｍＭｏｎｏ（“ｍｉｎｉｓｔｒｏ”，“ｍｉｎｉｓｔｒｅ”）＝０．８８
・・・（５）
〈ロシア語（第四言語）の単言語内単語類似度〉
ＳｉｍＭｏｎｏ（“ｍｉｎｉｓｔｒｏ”，“Токио”）＝０．１５
・・・（６）
【００４３】
そして、多言語単語分類装置１は、多言語間単語類似度計算手段７によって、英語の最大単言語内単語類似度０．８２と、ポルトガル語の最大単言語内単語類似度１．０と、フランス語の最大単言語内単語類似度０．８８との平均値を取る。
平均値ＳｉｍＭｕｌｔｉ（“ｍｉｎｉｓｔｒｏ”）＝（０．８２＋１．０＋０．８８）／３＝０．９・・・（７）
【００４４】
（７）に示したように、０．９となり、多言語単語分類装置１は、多言語間単語類似度計算手段７によって、この０．９を単語判定手段９に出力する。そして、多言語単語分類装置１は、単語判定手段９によって、平均値０．９と、設定されている第二閾値０．６とを比較し、平均値が第二閾値以上であるので、スペイン語の“ｍｉｎｉｓｔｒｏ”を内容語と判定する。
【００４５】
多言語単語分類装置１によれば、単語リスト群記憶手段５に記憶されている複数の言語の単語リストに含まれる単語を構成する文字と、対象言語の単語を構成する文字との単言語内単語類似度を、単言語内単語類似度計算手段３によって、複数の言語について計算し、多言語間単語類似度計算手段７によって、最大となった最大単言語内単語類似度の平均値をとり、この平均値が第二閾値以上の場合に内容語と判定することで、単語の持つ統計的な特徴を用いることなく、複数の言語について、単語の品詞が分類された電子辞書が用意できなくても、対象言語に含まれる単語を内容語と機能語とに分類することができる。
【００４６】
（多言語単語分類装置の動作）
次に、図２に示すフローチャートを参照して、多言語単語分類装置１の動作を説明する（適宜、図１参照）
【００４７】
まず、多言語単語分類装置１は、単言語内単語類似度計算手段３によって、入力された対象言語の単語を構成する文字と、単語リスト群記憶手段５に記憶されている第ｉ言語（一から四）について、単言語内単語類似度をそれぞれ計算し、最大単言語内単語類似度を多言語間単語類似度計算手段７に出力する（ステップＳ１）。
【００４８】
続いて、多言語単語分類装置１は、単言語内単語類似度計算手段３によって、第ｉ言語がＮ−１に達したか否かを判定し（ステップＳ２）、達すまで繰り返し（ステップＳ２でＮｏ）、達した場合（ステップＳ２でＹｅｓ）に、多言語間単語類似度計算手段７によって、第一閾値未満の最大単言語内単語類似度を除外して、平均値（多言語間単語類似度）を計算する（ステップＳ３）。
【００４９】
そして、多言語単語分類装置１は、単語判定手段９によって、多言語間単語類似度計算手段７から出力された平均値が第二閾値以上か否かを判定する（ステップＳ４）。そして、多言語単語分類装置１は、単語判定手段９によって、平均値が第二閾値以上であると判定した場合（ステップＳ４、Ｙｅｓ）に、内容語と判定し（ステップＳ５）、平均値が第二閾値以上であると判定しなかった場合（ステップＳ４、Ｎｏ）に機能語と判定し（ステップＳ６）、判定結果（内容語又は機能語）を出力して（ステップＳ７）、動作を終了する。
【００５０】
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、多言語単語分類装置として説明したが、各手段における処理を実行する機能プログラムを組み合わせた多言語単語分類プログラムとして構成することも可能である。
【図面の簡単な説明】
【００５１】
【図１】本発明の実施形態に係る多言語単語分類装置のブロック図である。
【図２】図１に示した多言語単語分類装置の動作を示すフローチャートである。
【符号の説明】
【００５２】
１多言語単語分類装置
３単語類似度計算手段
５単語リスト群記憶手段
７多言語間単語類似度計算手段
９単語判定手段

【特許請求の範囲】
【請求項１】
複数の単語を含む単語リストが備えられる複数の言語と、内容語と機能語とが分類されていない対象言語とが、同一の文字列から構成される又は同一の文字を予め設定した個数以上含む場合に、前記単語リストを用い、前記対象言語の単語を、内容語と機能語とに分類する多言語単語分類装置であって、
複数の前記単語リストからなる単語リスト群を記憶した単語リスト群記憶手段と、
この単語リスト群記憶手段に記憶されている単語リスト群の各単語リストに含まれる単語を構成する文字と、入力された前記対象言語の単語を構成する文字との一致する個数及び文字が出現する順序に基づいて、前記単語リストに含まれる複数の単語に対し、前記単語リストに含まれる単語と前記対象言語の単語とが類似する度合いを示す単言語内単語類似度を計算し、この単言語内単語類似度が最大となる最大単言語内単語類似度を、前記言語ごとに出力する単言語内単語類似度計算手段と、
この単言語内単語類似度計算手段で出力された複数の最大単言語内単語類似度について、予め設定した第一閾値未満の最大単言語内単語類似度を除外して、平均値を取る多言語間単語類似度計算手段と、
この多言語間単語類似度計算手段で計算された平均値が予め設定した第二閾値以上の場合に、前記対象言語の単語を内容語と判定し、前記第二閾値未満の場合に前記対象言語の単語を機能語と判定する単語判定手段と、
を備えることを特徴とする多言語単語分類装置。
【請求項２】
複数の単語を含む単語リストが備えられる複数の言語と、内容語と機能語とが分類されていない対象言語とが、同一の文字列から構成される又は同一の文字を予め設定した個数以上含む場合に、前記単語リストを用い、前記対象言語の単語を、内容語と機能語とに分類するために、複数の前記単語リストからなる単語リスト群を記憶した単語リスト群記憶手段を備えたコンピュータを、
前記単語リスト群記憶手段に記憶されている単語リスト群の各単語リストに含まれる単語を構成する文字と、入力された前記対象言語の単語を構成する文字との一致する個数及び文字が出現する順序に基づいて、前記単語リストに含まれる複数の単語に対し、前記単語リストに含まれる単語と前記対象言語の単語とが類似する度合いを示す単言語内単語類似度を計算し、この単言語内単語類似度が最大となる最大単言語内単語類似度を、前記言語ごとに出力する単言語内単語類似度計算手段、
この単言語内単語類似度計算手段で出力された複数の最大単言語内単語類似度について、予め設定した第一閾値未満の最大単言語内単語類似度を除外して、平均値を取る多言語間単語類似度計算手段、
この多言語間単語類似度計算手段で計算された平均値が予め設定した第二閾値以上の場合に、前記対象言語の単語を内容語と判定し、前記第二閾値未満の場合に前記対象言語の単語を機能語と判定する単語判定手段、
として機能させることを特徴とする多言語単語分類プログラム。

【図１】