説明

特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム

【課題】特定のカテゴリに対応する適切な特徴語を効率的に抽出する。
【解決手段】複数の文書データに含まれる単語対が共起する文書データの数を示す第1の出現頻度と、指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第2の出現頻度とを算出し、第2の出現頻度から第1の出現頻度を除算した値を共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成し、生成した行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出し、単語毎のクラスタに対する帰属度を算出し、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書データに含まれる単語から、カテゴリ判定のための適切な特徴語を抽出する技術に関する。
【背景技術】
【0002】
近年では、様々な情報が電子化された文書データがコンピュータによって処理されており、このような文書データを、その内容に応じてカテゴリ毎に分類する技術が研究されている。例えば、予め定められた複数のカテゴリ毎に、そのカテゴリの文書データに特徴的に現れる語である特徴語を定めておき、カテゴリの判定対象となる文書データに含まれる語と定められた特徴語とを比較して、特徴語が含まれるか否かを判定することにより判定対象の文書データがそのカテゴリに属するか否かを判定する。このような技術を用いれば、例えば、様々なジャンルのニュース記事を、その内容に応じて「スポーツ」、「経済」などのカテゴリに分類したり、医療に関する記述が含まれる医療文書データを、「癌」、「糖尿病」などのカテゴリに分類したりすることができる。このような技術は、例えばテキストマイニングなどに利用することができる。ここで、特定のカテゴリに対応する特徴語は予め定めておく必要があるが、文書データに現れる語の表記は統一されたものであるとは限らない。また、カテゴリ判定のための適切な特徴語を選定することには専門知識が必要である上に、社会情勢などによっても変化する。このため、特定のカテゴリに対応する適切な特徴語を効率的に抽出する技術が望まれている。
【0003】
例えば、特許文献1には、予めカテゴリが対応付けられた複数の文書データについて、その文書データ内に現れる単語の出現頻度を算出し、算出した出現頻度に基づいて、そのカテゴリに対する各単語の重要度を算出する技術が記載されている。これによれば、カテゴリ毎に算出された重要度に基づいて、カテゴリに対応する単語を判定することができる。ここで単語の出現頻度に基づいて重要度を算出する際には、様々な統計尺度が用いられる。例えば、非特許文献1や非特許文献2に示されるように、カテゴリ間で出現頻度の偏りの大きな単語、例えば注目するカテゴリにおいては出現頻度が高いがその他のカテゴリにおいては出現頻度が低い単語の重要度を高くし、いずれのカテゴリにも同様に出現する単語の重要度を低くするような、相互情報量や情報利得といった統計尺度が用いられている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−241636号公報
【非特許文献】
【0005】
【非特許文献1】田中他、「コーパスによる難解語・重要語の抽出−医療用語を例に−」、社会言語科学会、2008年
【非特許文献2】SEBASTIANI F.、「Machine learning in automated text categorization」、ACM Computing Surveys、34、1−47、2002
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、単語の出現頻度の偏りに着目する判定方法では、単語の出願頻度が低くなるに従って結果の信頼性が低下する傾向がある。例えば、特定のカテゴリにおいて他のカテゴリよりも相対的に出現頻度が高い「アナフィキラシー」や「カドミウム」などの具体的な単語と、同様にそのカテゴリにおいて他のカテゴリよりも相対的に出現頻度が高い「適当」のような一般的な単語とは、同様に重要度が高くなる。このとき、「適当」のような一般的な単語よりも、「アナフィキラシー」や「カドミウム」のような具体的な単語の方が、そのカテゴリをより特徴的に表す単語であると考えられる。そこで、特定のカテゴリに対応する適切な特徴語をより効率的に抽出する技術が望まれる。
【0007】
本発明は、このような状況に鑑みてなされたもので、特定のカテゴリに対応する適切な特徴語をより効率的に抽出する特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラムを提供する。
【課題を解決するための手段】
【0008】
上述した課題を解決するために、複数の単語が含まれる複数の文書データと、文書データに含まれる単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の文書データ毎に、文書データに含まれる複数の単語が対応付けられて記憶される文書毎単語リスト記憶部と、複数の文書データに含まれる単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数のカテゴリのうち定められた指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、単語対の単語間の関連の強さを示す共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成する単語処理部と、単語処理部によって生成された行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するクラスタ抽出部と、固有ベクトルにおける最大要素と、ノードに対応する要素とに基づいて、単語毎のクラスタに対する帰属度を算出する帰属度算出部と、帰属度と、予め定められた閾値とを比較して、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出する特徴語抽出部と、を備えることを特徴とする。
【0009】
また、本発明は、単語処理部が、クラスタ抽出部によって抽出されたクラスタの数は抽出することが予め定められたクラスタ数未満であると判定すると、クラスタへの帰属度に基づいてネットワークデータを更新し、クラスタ抽出部は、更新されたネットワークデータに基づいてクラスタを抽出することを特徴とする。
【0010】
また、本発明は、帰属度算出部が、固有ベクトルのうち最大値をもつ固有ベクトルに対応する要素を規格定数として、固有ベクトルの要素と規格定数との比である帰属度を算出することを特徴とする。
【0011】
また、本発明は、複数の単語が含まれる複数の文書データと、文書データに含まれる単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の文書データ毎に、文書データに含まれる複数の単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置の特徴語抽出方法であって、複数の文書データに含まれる単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数のカテゴリのうち定められた指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、単語対の単語間の関連の強さを示す共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成するステップと、生成した行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、固有ベクトルにおける最大要素と、ノードに対応する要素とに基づいて、単語毎のクラスタに対する帰属度を算出するステップと、帰属度と、予め定められた閾値とを比較して、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出するステップと、を備えることを特徴とする。
【0012】
また、本発明は、複数の単語が含まれる複数の文書データと、文書データに含まれる単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の文書データ毎に、文書データに含まれる複数の単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置のコンピュータに、複数の文書データに含まれる単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数のカテゴリのうち定められた指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、単語対の単語間の関連の強さを示す共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成するステップと、生成した行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、固有ベクトルにおける最大要素と、ノードに対応する要素とに基づいて、単語毎のクラスタに対する帰属度を算出するステップと、帰属度と、予め定められた閾値とを比較して、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出するステップと、を実行させる特徴語抽出プログラムである。
【発明の効果】
【0013】
以上説明したように、本発明によれば、複数の文書データに含まれる単語対が共起する文書データの数を示す第1の出現頻度と、指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第2の出現頻度とを算出し、第2の出現頻度から第1の出現頻度を除算した値を共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成し、生成した行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出し、単語毎のクラスタに対する帰属度を算出し、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出するようにしたので、特定のカテゴリに対応する適切な特徴語を効率的に抽出する特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラムを提供することができる。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施形態による特徴語抽出装置の構成例を示すブロック図である。
【図2】本発明の一実施形態による文書データの例を示す図である。
【図3】本発明の一実施形態による文書毎単語リストのデータ例を示す図である。
【図4】本発明の一実施形態による文書データ記憶部に記憶される行列データのデータ例を示す図である。
【図5】本発明の一実施形態によるネットワークデータの概念を示す図である。
【図6】本発明の一実施形態によるクラスタの概念を示す図である。
【図7】本発明の一実施形態による帰属度記憶部に記憶される帰属度のデータ例を示す図である。
【図8】本発明の一実施形態によるカテゴリ別特徴語記憶部に記憶されるカテゴリ毎の特徴語のデータ例を示す図である。
【図9】本発明の一実施形態による特徴語抽出装置の動作例を示すフローチャートである。
【図10】本発明の一実施形態による特徴語抽出装置のクラスタ抽出処理を示すフローチャートである。
【図11】本発明の一実施形態による特徴語抽出装置の固有値展開処理を示すフローチャートである。
【図12】本発明の一実施形態による帰属度記憶部に記憶される帰属度のデータ例を示す図である。
【図13】本発明の一実施形態によるカテゴリ別特徴語記憶部に記憶されるカテゴリ毎の特徴語のデータ例を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態による特徴語抽出装置100の構成を示すブロック図である。特徴語抽出装置100は、記憶部110と、入力部120と、形態素解析部130と、単語処理部140と、クラスタ抽出部150と、帰属度算出部160と、特徴語抽出部170と、結果表示部180とを備えている。
【0016】
記憶部110には、特徴語抽出処理のために用いる情報が記憶される。記憶部110は、文書データ記憶部111と、文書毎単語リスト記憶部112と、カテゴリ別ネットワークデータ記憶部113と、帰属度記憶部114と、カテゴリ別特徴語記憶部115とを備えている。
文書データ記憶部111には、複数の単語が含まれる複数の文書データと、その文書データに含まれる単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される。図2は、文書データ記憶部111に記憶される文書データの例を示す図である。文書データには、文書IDと、文書カテゴリと、文書内容との情報が含まれる。文書IDは、文書データを識別する識別情報である。文書カテゴリは、対応する文書内容に応じたカテゴリを示す情報である。カテゴリとは、文書データに含まれる語の内容に応じた分類を示し、例えば、新聞記事における「スポーツ」や「経済」などのジャンルである。あるいは、例えば医療文書における「栄養障害」や「内分泌・代謝疾患」、「消化器疾患」等の疾患分野である。文書内容には、複数の単語や文が含まれる。
【0017】
文書毎単語リスト記憶部112には、複数の文書データ毎に、その文書データに含まれる複数の単語が対応付けられて記憶される。図3は、文書毎単語リスト記憶部112に記憶される文書毎単語リストのデータ例を示す図である。このように、文書毎単語リスト記憶部112には、文書データ記憶部111に記憶された文書データを示す文書ID毎に、その文書データの文書内容が形態素解析されて抽出された単語が対応付けられて記憶される。
【0018】
カテゴリ別ネットワークデータ記憶部113には、カテゴリ毎に、文書データに含まれる単語間の関連の強さを示す共起度を要素としたN×Nの行列データが記憶される。図4は、カテゴリ別ネットワークデータ記憶部113に記憶される行列データの例を示す図である。ここでは、例えばA、B、C、・・・は文書データに含まれる単語を示し、行列の要素は単語間の関連の強さを0から1までの値で示す共起度である。0は、そのカテゴリ内で一度も出現していないことを示す。このような行列データは、図5に示すようなネットワークデータを構成する。ここで、ネットワークデータにおける各ノード(丸印)は各語A〜Jに相当し、単語間の共起度はエッジに相当する。この例では、語Aは、語B、C、D、Fと共起があり、語Bは、語A、C、Eと共起があり、語Cは、語A、Bと共起があり、・・・、語Gは、語I、Jと共起があることを示している。
【0019】
帰属度記憶部114には、各クラスタに対する各単語の帰属度を示す情報が記憶される。例えば、図5に示したネットワークデータは、単語を示すノード間の共起度に応じて、図6に示すようなクラスタ1とクラスタ2とに分割することができる。帰属度記憶部114には、このように分類されたクラスタ毎に、クラスタへの単語の帰属度が対応付けられて記憶される。図7は、帰属度記憶部114に記憶される帰属度のデータ例を示す図である。帰属度は、クラスタ内における各ノードに対応する要素の相対的な関係を示す値である。
【0020】
カテゴリ別特徴語記憶部115には、複数のカテゴリ毎に、各クラスタへの帰属度に応じて抽出された特徴語が対応付けられて記憶される。図8は、カテゴリ別特徴語記憶部115に記憶されるカテゴリ別特徴語のデータ例を示す図である。カテゴリ別特徴語は、特徴語抽出部170によって帰属度記憶部114から抽出されて記憶される。
【0021】
図1に戻り、入力部120は、キーボードやマウスなどの入力デバイスであり、ユーザからの情報入力を受付ける。入力部120には、例えば、カテゴリから抽出するクラスタ数C、帰属度の閾値τ、特徴語を抽出する指定カテゴリなどの情報が入力される。指定カテゴリは、文書データ記憶部111に記憶されている文書データに基づいて特徴語を抽出する対象となるカテゴリを示す情報である。
【0022】
形態素解析部130は、入力部120に指定カテゴリが入力されると、文書データ記憶部111に記憶される文書データを全て読み出す。形態素解析部130は、読み出した文書データに含まれる文書内容を対象に形態素解析を行い、文書内容を形態素に分割してその品詞を判別する。形態素解析部130は、分割した形態素のうち助詞等の予め定められた品詞の形態素を処理対象から除外する。ここでは、予め定められた品詞の形態素を処理対象から除外した形態素のそれぞれを単語という。形態素解析部130は、文書IDと、その文書IDが示す文書データから抽出した単語とを対応付けた文書毎単語リストを、文書毎単語リスト記憶部112に記憶させる。
【0023】
単語処理部140は、複数の文書データのうち、定められた単語のペアである単語対が共起する文書データの数を示す第1の出現頻度(文書データ数)と、指定カテゴリに対応する複数の文書データのうち、定められた単語のペアである単語対が共起する文書データの数を示す第2の出現頻度(文書データ数)とを算出する。また、単語処理部140は、算出した第2の出現頻度から第1の出現頻度を除算した値を、単語対の単語間の関連の強さを示す共起度として算出する。すなわち、共起度は以下式(1)により定義される。
【0024】
共起度=第2の出現頻度(所定のカテゴリにおける文書データにおいて共起する単語対の出現頻度)/第1の出現頻度(全文書データにおいて共起する単語対の出現頻度)
・・・(1)
【0025】
また、単語処理部140は、各語をノードとし、共起度をエッジとしたネットワークデータを、N×Nの対称行列である行列データとして生成し、カテゴリ別ネットワークデータ記憶部113に記憶させる。ここで、行列データは、例えばi、jを単語のID、単語iをノードとしたとき、単語iと単語jとの関係を要素eijとする隣接行列Eを構成する。
【0026】
クラスタ抽出部150は、単語処理部140によって生成されカテゴリ別ネットワークデータ記憶部113に記憶された行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出する。ここで、クラスタ抽出部150は、定められた複数のクラスタを抽出するようにしても良い。クラスタ抽出部150は、カテゴリ別ネットワークデータ記憶部113に記憶された行列データにおいて、クラスタの抽出対象となる語数をnとし、ノードiのクラスタへの帰属度をxとしたとき、クラスタの凝集度を次式(2)で評価する。凝集度とは、最大固有値で定義される。
【0027】
【数1】

【0028】
ここで、xの右肩のTはxの転置を表す。E=eij(eii=0とする)は、重み付き隣接行列であり、この凝集度が最大となるx=[x、・・・、x]を求める。ただし、|x|=1である。ここに、凝集度が最も高いクラスタは、次式(3)に示す、行列データ(隣接行列E)の固有値問題を解くこと、すなわち固有値展開を行うことによって得られる最大固有値の固有ベクトルにより決定される。固有値展開は、例えばヤコビ法を用いて行うことができる。
【0029】
【数2】

【0030】
固有ベクトルxの要素は、隣接行列Eが非負対称行列であることから非負値で与えられる。また、固有ベクトルxは、最大固有値に対する一列の行列(ベクトル)からなる。クラスタ抽出部150は、このように算出した固有ベクトルxに対応する複数の単語(ノード)群を、同一のクラスタに帰属する単語であると判定する。このように、クラスタ抽出部150はクラスタを抽出して単語の集合を得る。
【0031】
帰属度算出部160は、固有ベクトルにおける最大要素と、ノードに対応する要素とに基づいて、単語対毎のクラスタに対する帰属度を算出する。ここで、帰属度算出部160は、クラスタ抽出部150が算出した固有ベクトルxの要素のうち、最大値を持つiの要素xi*を規格化定数とし、次式(4)により、最大値を1として帰属度mを算出する。
【0032】
【数3】

【0033】
ここで、帰属度算出部160は、所定の数のクラスタが得られるまで帰属度算出処理を繰り返し、そのカテゴリにおける、複数のクラスタに対する各要素の帰属度を算出する。このように、固有ベクトル[x、・・・、x]を最大の要素xi*で規格化することにより、そのベクトルにおける、各ノードに対応する要素の相対的な関係を帰属度として算出する。
【0034】
特徴語抽出部170は、カテゴリに対する単語の帰属度と、予め定められた閾値とを比較して、閾値を超える帰属度をもつ複数のノードを、指定カテゴリの特徴を表す特徴語として抽出する。ここで、予め定められた閾値τは入力部120に入力され、自身の記憶領域に記憶されている。
結果表示部180は、特徴語抽出部170によって抽出された特徴語が表示されるディスプレイである。結果表示部180には、抽出された特徴語のカテゴリに対する帰属度が高い順序に並び替えて表示されるようにしても良い。
【0035】
次に、本実施形態による特徴語抽出装置100の動作例を説明する。図9は、特徴語抽出装置100による特徴語抽出処理を示すフローチャートである。
まず、入力部120に指定カテゴリが入力されると、形態素解析部130は、文書データ記憶部111に記憶された複数の文書データを読み出し(ステップS100)、読み出した文書データ毎に含まれる文の形態素解析を行う。形態素解析部130は、文書データを識別する文書IDに、形態素解析により分割した単語を対応付けた文書毎単語リストを文書毎単語リスト記憶部112に記憶させる(ステップS200)。
【0036】
そして、単語処理部140は、文書毎単語リスト記憶部112に記憶された文書毎単語リストに基づいて、単語の共起関係を算出し、ネットワークデータである行列データを生成し、カテゴリ別ネットワークデータ記憶部113に記憶させる(ステップS300)。次に、クラスタ抽出部150がクラスタ抽出処理を行う(ステップS400)。図10は、クラスタ抽出部150によるクラスタ抽出処理を示すフローチャートである。入力部120は、ユーザからパラメータ(クラスタ数C、閾値τ)の入力を受付ける(ステップS410)。クラスタ抽出部150は、カテゴリ別ネットワークデータ記憶部113からネットワークデータを読み出し、固有値展開処理を行う(ステップS420)。
【0037】
図11は、固有値展開の代表的アルゴリズムであるヤコビ法を示すフローチャートである。ヤコビ法では、まず、データ(処理対象行列)をE(n×n)=eijとし、収束判定パラメータepsを0に近い値(0.001等)を設定し、さらに、固有ベクトル格納用のX(n×n)=xijを用意する(ステップS421)。次に、Aの非対角要素(i≠j)中で最大の値を持つ要素aIJ及びその要素の位置情報I,Jをサーチする(ステップS422)。
【0038】
次に、収束したか否か(eIJ<eps)を判定し(ステップS423)、収束していない場合には(ステップS423:NO)、θを計算し(ステップS424)、aIj及びaJj(j=1,2,…,n)を更新し(ステップS425)、eiI及びeiJ(i=1,2,…,n)を更新し(ステップS426)、さらに、xiI及びxiJ(i=1,2,…,n)を更新し(ステップS427)、ステップS422に戻り、収束するまで繰り返す。そして、収束すると(ステップS423:YES)、Vを固有ベクトル、Aの対角部分を固有値として出力し(ステップS428)、固有値展開処理を終了する。
【0039】
このような固有値展開処理により、クラスタ抽出部150は、n個の固有値と、n×nの固有ベクトルを算出する。このように算出したn個の固有値のうち最大固有値である凝集度に対応する固有ベクトルxを以降の処理に用いる。固有ベクトルxは、最大固有値に対する一列の行列(ベクトル)からなる。これにより、複数の単語(ノード)群からなるクラスタが構成される。凝集度は、クラスタ抽出部150の記憶領域に記憶される。
【0040】
図10に戻り、帰属度算出部160は、固有ベクトルxを、xの要素の最大値xによって除算することで各単語のクラスタへの帰属度を算出し、例えば図12に示すように帰属度記憶部114に記憶させる(ステップS430)。ここで、複数のクラスタを抽出する場合には、一回目のクラスタ抽出処理により当初のネットワークデータにおいて最も代表的なクラスタを抽出しており、2番目以降のクラスタは1(t−1)回目のクラスタへの影響を除外したネットワークデータにより抽出する。このため、クラスタ抽出部150は、第2目以降のクラスタを抽出する際、入力データを再度変換し、カテゴリ別ネットワークデータ記憶部113に記憶されたネットワークデータを更新する(ステップS440)。ここで、クラスタ抽出部150は、ネットワークデータの要素eijを、帰属度mを用いた以下式(5)により更新する。これにより、第t番目までに得られた帰属度を除去したネットワークデータが得られる。
【0041】
【数4】

【0042】
ここで、tは、繰り返し回数に対応する。次に、抽出したいクラスタ数Cが示す数のクラスタを抽出したか否かを判定し(ステップS450)、抽出したクラスタがクラスタ数Cに達していない場合には(ステップS450:NO)、ステップS420に戻り、上述した処理を繰り返す。そして、クラスタ数Cに達すると(ステップS450:YES)、処理を終了する。このように、クラスタの算出時には、行列から第t番目までに得られる帰属度を除去することにより、既に抽出したクラスタの影響を除外して第t+1番目のクラスタを得ることで、逐次的にクラスタを抽出することができる。
【0043】
図9に戻り、特徴語抽出部170は、各クラスタにおいて閾値τを超える帰属度をもつ語を特徴語として抽出し、例えば図13に示すようにカテゴリ別特徴語記憶部115に記憶させる(ステップS500)。特徴語抽出部170は、抽出した特徴語を結果表示部180に表示させる(ステップS600)。
【0044】
なお、本実施形態では、カテゴリから抽出するクラスタ数Cは、ユーザから入力されるとしたが、所定の数の特徴語を抽出するまでクラスタを抽出するようにしても良いし、凝集度の変化に応じてクラスタ数を定めるようにしても良い。例えば、t番目とt+1番目の凝集度を比較した際に、ほとんど変化がないような場合にクラスタの抽出を止めるようにしても良い。
【0045】
また、本実施形態では、予めカテゴリが付与された文書データについてカテゴリの抽出を行ったが、特徴語を抽出すべき文書データの一群が示されれば、同様に特徴語を抽出することが可能である。例えば、ニュース記事などの文書データに対し、全体に対する一定の時期を区切って、その区間の特徴語を抽出しても良い。このようにすれば、例えば、内容が未知であるテキスト群から特徴語を抽出することにより、内容を理解しやすい語を付与することも可能になる。
【0046】
このように、本実施形態によれば、指定カテゴリにおいて共起する単語を多く持つ単語を抽出することができるため、多様な文脈に応じた代表的な単語(例えば、代謝において糖尿病やホルモン、インスリンなど)を取得することが可能となる。これにより、例えば作業に割り当てられるコストの制約のために一部の単語しか確認できない状況においても、特徴語としてより適切な単語をより多く辞書に登録することが可能となる。このような辞書をネットワーク上の文書の収集に用いた場合、従来の技術により構築された辞書と比べて適切な単語がより多く辞書に登録されることから、より多くの適切な文書を収集可能となる。
【0047】
なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより特徴語の抽出を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0048】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【符号の説明】
【0049】
100 特徴語抽出装置
110 記憶部
111 文書データ記憶部
112 文書毎単語リスト記憶部
113 カテゴリ別ネットワークデータ記憶部
114 帰属度記憶部
115 カテゴリ別特徴語記憶部
120 入力部
130 形態素解析部
140 単語処理部
150 クラスタ抽出部
160 帰属度算出部
170 特徴語抽出部
180 結果表示部

【特許請求の範囲】
【請求項1】
複数の単語が含まれる複数の文書データと、当該文書データに含まれる前記単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、
複数の前記文書データ毎に、当該文書データに含まれる複数の前記単語が対応付けられて記憶される文書毎単語リスト記憶部と、
前記複数の文書データに含まれる前記単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数の前記カテゴリのうち定められた指定カテゴリが対応付けられた複数の前記文書データのうち、前記単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、前記単語対の単語間の関連の強さを示す共起度として算出し、前記単語をノードとし、前記共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成する単語処理部と、
前記単語処理部によって生成された前記行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するクラスタ抽出部と、
前記固有ベクトルにおける最大要素と、前記ノードに対応する要素とに基づいて、前記単語毎の前記クラスタに対する帰属度を算出する帰属度算出部と、
前記帰属度と、予め定められた閾値とを比較して、当該閾値を超える帰属度をもつ複数の前記ノードを前記指定カテゴリの特徴を表す特徴語として抽出する特徴語抽出部と、
を備えることを特徴とする特徴語抽出装置。
【請求項2】
前記単語処理部は、前記クラスタ抽出部によって抽出された前記クラスタの数が、抽出することが予め定められたクラスタ数未満であると判定すると、前記クラスタへの帰属度に基づいて前記ネットワークデータを更新し、
前記クラスタ抽出部は、更新された前記ネットワークデータに基づいて前記クラスタを抽出する
ことを特徴とする請求項1に記載の特徴語抽出装置。
【請求項3】
前記帰属度算出部は、前記固有ベクトルのうち最大値をもつ固有ベクトルに対応する要素を規格定数として、前記固有ベクトルの要素と前記規格定数との比である前記帰属度を算出する
ことを特徴とする請求項1または請求項2に記載の特徴語抽出装置。
【請求項4】
複数の単語が含まれる複数の文書データと、当該文書データに含まれる前記単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の前記文書データ毎に、当該文書データに含まれる複数の前記単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置の特徴語抽出方法であって、
前記複数の文書データに含まれる前記単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数の前記カテゴリのうち定められた指定カテゴリが対応付けられた複数の前記文書データのうち、前記単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、前記単語対の単語間の関連の強さを示す共起度として算出し、前記単語をノードとし、前記共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成するステップと、
生成した前記行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、
前記固有ベクトルにおける最大要素と、前記ノードに対応する要素とに基づいて、前記単語毎の前記クラスタに対する帰属度を算出するステップと、
前記帰属度と、予め定められた閾値とを比較して、当該閾値を超える帰属度をもつ複数の前記ノードを前記指定カテゴリの特徴を表す特徴語として抽出するステップと、
を備えることを特徴とする特徴語抽出方法。
【請求項5】
複数の単語が含まれる複数の文書データと、当該文書データに含まれる前記単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の前記文書データ毎に、当該文書データに含まれる複数の前記単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置のコンピュータに、
前記複数の文書データに含まれる前記単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数の前記カテゴリのうち定められた指定カテゴリが対応付けられた複数の前記文書データのうち、前記単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、前記単語対の単語間の関連の強さを示す共起度として算出し、前記単語をノードとし、前記共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成するステップと、
生成した前記行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、
前記固有ベクトルにおける最大要素と、前記ノードに対応する要素とに基づいて、前記単語毎の前記クラスタに対する帰属度を算出するステップと、
前記帰属度と、予め定められた閾値とを比較して、当該閾値を超える帰属度をもつ複数の前記ノードを前記指定カテゴリの特徴を表す特徴語として抽出するステップと、
を実行させる特徴語抽出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2011−164791(P2011−164791A)
【公開日】平成23年8月25日(2011.8.25)
【国際特許分類】
【出願番号】特願2010−24718(P2010−24718)
【出願日】平成22年2月5日(2010.2.5)
【出願人】(000102728)株式会社エヌ・ティ・ティ・データ (438)
【Fターム(参考)】