説明

情報評価装置、情報評価方法、及び情報評価プログラム

【課題】カテゴリにおける単語の重要度について、信頼性の高い評価値を算出すること。
【解決手段】単語処理部103は、選択カテゴリに属する文書で共起する単語の組について、選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する。交互作用算出部104は、選択カテゴリ共起頻度情報と、単語の組について全文書での出現頻度を示す全文書単語組出現頻度情報と、に基づいて、選択カテゴリに属する文書に現れる単語について、選択カテゴリでの重要度を示す評価値を算出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報評価装置、情報評価方法、及び情報評価プログラムに関する。
【背景技術】
【0002】
近年、情報処理装置を用いたテキストマイニング技術が利用されている。このような技術では、ネットワーク上の大量文書を自動収集するために、カテゴリ(例えば、新聞記事における「スポーツ」、「経済」や、医療文書における「栄養障害」、「内分泌・代謝疾患」等の疾患分野)毎にそのカテゴリを特徴付ける単語(特徴単語という)の集合を、辞書として予め用意する必要がある。
ここで、カテゴリ毎の特徴単語の集合を用意するとき、人の事前知識によってある程度の単語候補を準備することができる。しかし、文書に記述される単語の表記方法が標準化されていることは稀であり、文書には多種多様の単語が用いられるため、人の知識だけでは、テキストマイニングに十分な単語を用意することができないという問題があった。
このような問題に対して、事前に文書を収集し、収集した文書に含まれる単語からカテゴリ毎に特徴単語を抽出しておくことが考えられる。この場合、抽出の対象となる文書やそれに記述された単語が膨大となることが多く、抽出作業に工数がかかってしまうという問題があった。そこで、特徴単語の抽出作業を効率的に支援する技術が望まれている。
【0003】
この支援技術として、特許文献1には、文書データに含まれる単語の出現頻度を計算し、計算結果をもとに、計算した単語の出現頻度に応じて、共通のカテゴリに属する文書データにおける各単語の重要度を示す評価値を、ある基準に基づいて計算し、重要度を示す評価値が大きい単語を特徴単語として抽出する技術について記載されている。
このような技術において、評価値の計算に用いる基準には、統計的尺度を基にした単語の重要度の評価結果が用いられることが知られている。例えば、非特許文献1、2には、注目カテゴリとその他のカテゴリとの間で出現頻度の偏りが大きな単語は評価値を大きな値とし、反対に、いずれのカテゴリでも同程度の出現頻度である単語は評価値を小さな値とする、といった相互情報量や情報利得等の等統計量を用いることが記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−241636号公報
【非特許文献】
【0005】
【非特許文献1】田中他、「コーパスによる難解語・重要語の抽出−医療用語を例に−」、社会言語科学会、2008年、社会言語科学会第21回大会
【非特許文献2】SEBASTIANI、「Machine learning in automated text categorization」、ACM Computing Surveys、34、1−47、2002
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記の従来技術のような1個の単語の偏りを基準とした技術では、単語の出現頻度が低くなるに従って、重要度を示す評価値に対する信頼性が低下するという欠点があった。
例えば、「カドミウム」や「アナフィラキシー」といった、ある疾病のカテゴリに関連する具体的な単語の出現頻度と、「適当」といった一般的な単語の出現頻度と、があるカテゴリにおいて同程度に低いとき(例えば、数個)、一般的な単語の方がそのカテゴリへの偏りが大きいと判定され、その評価値が具体的な単語についての評価値より大きくなる場合がある。一方、カテゴリを特徴付ける単語は、通常、具体的なものであるから、この評価値に対する信頼性は損なわれているといえる。
このように、従来技術では、カテゴリにおける単語の重要度について、信頼性の高い評価値を算出することができない、という欠点があった。
【0007】
本発明は上記の点に鑑みてなされたものであり、カテゴリにおける単語の重要度について、信頼性の高い評価値を算出することができる情報評価装置、情報評価方法、及び情報評価プログラムを提供する。
【課題を解決するための手段】
【0008】
本発明は上記の課題を解決するためになされたものであり、本発明は、複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価する情報評価装置において、選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する単語処理部と、前記選択カテゴリ共起頻度情報と、前記単語の組について全文書での出現頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する評価値算出部と、を備えることを特徴とする情報評価装置である。
【0009】
また、本発明は、上記の情報評価装置において、前記単語処理部は、単語の組の単語各々についての全文書での出現頻度に基づいて、全文書単語組出現頻度情報を算出することを特徴とする。
【0010】
また、本発明は、上記の情報評価装置において、前記単語の組は、2個の単語からなる単語対であることを特徴とする。
【0011】
また、本発明は、複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価する情報評価装置における情報評価方法おいて、単語処理部が、選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する過程と、評価値算出部が、前記選択カテゴリ共起頻度情報と、前記単語の組について全文書での出現頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する過程と、を有することを特徴とする情報評価方法である。
【0012】
また、本発明は、複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価するコンピュータを、選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する単語処理手段、前記選択カテゴリ共起頻度情報と、前記単語の組について全文書での出現頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する評価値算出手段、として機能させることを特徴とする情報評価プログラムである。
【発明の効果】
【0013】
本発明によれば、情報評価装置は、カテゴリにおける単語の重要度について、信頼性の高い評価値を算出することができる。
【図面の簡単な説明】
【0014】
【図1】本発明の実施形態に係る単語抽出装置の構成を示す概略ブロック図である。
【図2】本実施形態に係る文書別単語リストの一例を示す概略図である。
【図3】本実施形態に係る形態素解析部及び単語処理部が行う動作の一例を示す概略図である。
【図4】本実施形態に係る全文書単語リストの一例を示す概略図である。
【図5】本実施形態に係る文書カテゴリリストの一例を示す概略図である。
【図6】本実施形態に係る単語処理部が行う動作の一例を示す概略図である。
【図7】本実施形態に係るカテゴリ別単語対リストの一例を示す概略図である。
【図8】本実施形態に係るカテゴリ別単語リストの一例を示す概略図である。
【図9】本実施形態に係る交互作用算出部及び結果表示部が行う動作の一例を示す概略図である。
【図10】本実施形態に係る単語評価値リストの一例を示す概略図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
<単語抽出装置1の構成について>
図1は、本発明の実施形態に係る単語抽出装置1の構成を示す概略ブロック図である。
単語抽出装置1(情報評価装置)は、入力処理部101、形態素解析部102、単語処理部103、交互作用算出部104、結果表示部105、文書記憶部111、文書カテゴリリスト記憶部112、文書別単語リスト記憶部113、全文書単語リスト記憶部114、カテゴリ別単語対リスト記憶部115、カテゴリ別単語リスト記憶部116、及び、単語評価値リスト記憶部117を含んで構成される。
【0016】
入力処理部101は、指定カテゴリ情報を入力される。ここで、カテゴリとは、文書を記載された内容で分類する情報であり、例えば、新聞記事における「スポーツ」や「経済」、又は、医療文書における「栄養障害」や「内分泌・代謝疾患」、「消化器疾患」等の疾患分野である。また、指定カテゴリ情報とは、単語抽出装置1の利用者が複数のカテゴリ情報の中から選択したカテゴリ(選択カテゴリ;指定カテゴリcという)を示す情報である。入力処理部101は、入力された指定カテゴリ情報を形態素解析部102に出力する。
【0017】
文書記憶部111は、複数の文書データを予め記憶する。ここで、文書データ各々には、識別情報(文書IDという)が付与されている。また、文書データ各々は、記載欄や節(例えば、診断書の「病院」、「症状」、「診断」、及び「治療法」)の記載を1つの文書データとして抽出したものである。ただし、本発明はこれに限らず、書籍や、診断書、申請書、論文、又は明細書の記載を、1つの文書データとしてもよいし、HTMLファイルやテキストファイルとして保存される1ファイル等を1つの文書データとしてもよい。また、この文書データは、利用者が入力処理部101から入力したものでもよいし、単語抽出装置1が通信ネットワークを介して他の装置からダウンロードしたものでもよい。
【0018】
文書カテゴリリスト記憶部112は、文書IDとカテゴリ情報とを対応付けた文書カテゴリリストを予め記憶する。なお、単語抽出装置1は、文書データを文書記憶部111に記憶するときに、その文書データの文書IDと、その文書IDの文書データの文書が属するカテゴリ情報とからなる情報(文書カテゴリ情報)を文書カテゴリリストに追加して記憶する。単語抽出装置1は、この文書カテゴリ情報を利用者の入力に基づいて生成してもよいし、文書データ内の予め定められたフォーマット(例えばHTMLやXMLのタグ)で記載された変数の内容を抽出して生成してもよい。
【0019】
形態素解析部102は、入力処理部101から指定カテゴリ情報が入力されると、文書記憶部111が記憶する文書データを全て読み出す。形態素解析部102は、読み出した文書データ各々の文書に対して形態素解析を行うことにより、文書を形態素に分割してその品詞を判別する。形態素解析部102は、分割した形態素のうち助詞等の予め定められた品詞の形態素を削除する(削除後の形態素を単語という)。形態素解析部102は、文書IDとその文書IDの文書から抽出した単語とからなる情報(文書別単語情報)を、文書別単語リスト記憶部113の文書別単語リスト(図2)に記憶する。
また、形態素解析部102は、形態素解析を行った文書の数(全文書数Nという)を算出する。形態素解析部102は、入力された指定カテゴリ情報及び全文書数Nを、単語処理部103に出力する。
【0020】
単語処理部103は、文書別単語リスト記憶部113が記憶する文書別単語リストに基づいて、全文書に現れる単語毎に、全文書のうちその単語が現れる文書の数(全文書での出現文書数という。文書の数は単語の出現頻度を示す)を算出し、全文書単語リスト記憶部114の全文書単語リスト(図4)に記憶する。
また、単語処理部103は、形態素解析部102から入力された指定カテゴリ情報、及び文書別単語リスト記憶部113が記憶する文書別単語リストに基づいて、単語のペア(単語対)毎に、指定カテゴリcに属する文書のうちその単語対が共起する文書の数(指定カテゴリcでの共起文書数という。選択カテゴリ共起頻度情報)を算出し、カテゴリ別単語対リスト記憶部115のカテゴリ別単語対リスト(図7)に記憶する。ここで、単語対が共起するとは、1つの文書データの文書に単語対の単語の両方が現れることをいう。
【0021】
また、単語処理部103は、全文書単語リスト記憶部114が記憶する全文書単語リスト、及び、入力された指定カテゴリ情報に基づいて、指定カテゴリcに属する文書に現れる単語毎に全文書での出現文書数を抽出し、カテゴリ別単語リスト記憶部116のカテゴリ別単語リスト(図8)に記憶する。
また、単語処理部103は、文書カテゴリリスト記憶部112が記憶する文書カテゴリリストに基づいて、形態素解析部102から入力された指定カテゴリ情報が示す指定カテゴリcの文書の数(指定カテゴリ文書数Nという)を算出する。単語処理部103は、入力された指定カテゴリ情報、全文書数N、及び、算出した指定カテゴリ文書数Nを、交互作用算出部104に出力する。
【0022】
交互作用算出部104(評価値算出部)は、単語処理部103から入力された指定カテゴリ情報、全文書数N、指定カテゴリ文書数N、カテゴリ別単語対リスト記憶部115が記憶するカテゴリ別単語対リスト、及びカテゴリ別単語リスト記憶部116が記憶するカテゴリ別単語リストに基づいて、指定カテゴリcに属する文書に現れる単語について評価値を算出する(評価値算出処理という)。この評価値は、単語が指定カテゴリcを特徴付ける度合い、つまり、指定カテゴリcにおける単語の重要度を示す。なお、評価値算出処理の詳細については、後述する。
交互作用算出部104は、指定カテゴリcに属する文書に現れる単語と算出した評価値とを、単語評価値リストとして単語評価値リスト記憶部117に記憶する。また、交互作用算出部104は、入力された指定カテゴリ情報を、結果表示部105に出力する。
【0023】
結果表示部105は、単語評価値リスト記憶部117が記憶する単語評価値リストに基づいて、交互作用算出部104から入力された指定カテゴリ情報が示す指定カテゴリcに属する文書に現れる単語を、評価値が高い順序に並び替えて表示する。
【0024】
<評価値算出処理について>
以下、交互作用算出部104が行う評価値算出処理の詳細について説明をする。
ます、交互作用算出部104は、次式(1)を用いて交互作用値DI(w1,w2,c)を算出する。ここで、単語w1、w2は、指定カテゴリcの文書データのうち、文書IDが同一の文書データの文書に現れる単語のペア(単語対)である。
【0025】
【数1】

【0026】
ここで、Nw1,w2,cは、単語対w1、w2の指定カテゴリcでの共起文書数である。また、P(x)は、全文書に対して単語xが現れる文書が存在する確率である。つまり、P(x)は、単語xの全文書での出現文書数をNとし、全文書数Nを用いて、P(x)=N/Nで表わされる。
【0027】
次に、交互作用算出部104は、次式(2)で表わすように式(1)を合算することで、指定カテゴリcに属する文書に現れる単語wについて評価値DWPI(w,c)を算出する。
【0028】
【数2】

【0029】
ただし、Wpair(w,c)は、指定カテゴリcにおいて単語wと共起する単語の集合を表わす。
すなわち、交互作用算出部104は、指定カテゴリcに属する文書で共起する単語対(w1、w2)について指定カテゴリcに属する文書で共起する頻度を示すNw1,w2,cと、単語の組(w1、w2)について全文書での出現頻度を示すNw1w2(全文書単語組出現頻度情報)と、に基づいて、指定カテゴリcに属する文書に現れる単語wについて指定カテゴリcでの重要度を示す評価値DWPI(w,c)を算出する。
【0030】
ここで、この式(2)の第1項は、単語wが多くの種類のwpと共起される場合に、評価値DWPI(w,c)の値が高くなることを示す。この第1項は、単語wの重要度が高い場合、単語wに関する事項は、多くの種類の単語wpを用いて詳述されるため、単語wが多くのwpと共起されるという考えに基づくものである。
また、式(2)の第2項は、単語wが指定カテゴリc以外のカテゴリに属する文書にも頻繁に現れる場合に、評価値DWPI(w,c)の値が低くなることを示す。この第2項は、単語wが「適当」のような一般的な単語である場合、重要度が低い単語であるという考えに基づくものである。また、逆に、単語wが「カドミウム」のような具体的な単語である場合、重要度の高い単語であるという考えに基づくものである。
このように、式(2)では、多くの種類のwpと共起される単語wに高い評価値を割り当てつつ、単語wが一般的な単語である場合には低い評価値を、単語wが具体的な単語である場合にはそのまま高い評価値を割り当てることができる。
なお、評価値算出処理に用いる各変数N、Nwp、Nw1,w2,cの算出処理については、単語抽出装置1の動作と併せて後述する。
【0031】
<単語抽出装置1の動作について>
以下、単語抽出装置1が記憶する情報、及び単語抽出装置1が行う動作について説明をする。
図2は、本実施形態に係る文書別単語リストの一例を示す概略図である。図示するように文書別単語リストは、文書ID及び単語の各項目の列を有している。文書別単語リストには、単語毎に文書別単語情報が格納される。
例えば、図2の1行目の文書別単語情報は、文書IDが「00001」の文書データの文書に、単語「糖尿」が現れていることを示す。また、例えば、図2は、文書IDが「00002」の文書データの文書に、単語「落屑」、「ろう」、「適当」が現れていることを示す。
【0032】
図3は、本実施形態に係る形態素解析部102及び単語処理部103が行う動作の一例を示す概略図である。
(ステップS101)形態素解析部102は、文書記憶部111が記憶する文書データを全て読み出す。その後、ステップS102へ進む。
(ステップS102)形態素解析部102は、ステップS101で読み出した文書データの1つに対して形態素解析を行うことによって、文書データ内の文書を単語に分割する。形態素解析部102は、分割した単語を、重複を排除するためにマージ(合併)して抽出する。形態素解析部102は、文書データの文書IDと抽出した単語とからなる情報(文書別単語情報)を、文書別単語リスト記憶部113の文書別単語リストに追加して記憶する。その後、ステップS103へ進む。
(ステップS103)形態素解析部102は、ステップS101で読み出した文書データ全てにステップS102の処理を行ったか否かを判定する。文書データ全てにステップS102の処理を行ったと判定した場合(YES)、ステップS104へ進む。一方、文書データ全てにステップS102の処理を行っていないと判定した場合(NO)、ステップS102へ戻る。
【0033】
(ステップS104)形態素解析部102は、全文書数Nを算出する。その後、ステップS105へ進む。
(ステップS105)単語処理部103は、文書別単語リスト記憶部113が記憶する文書別単語リストを読み出し、単語毎に文書IDを計数することで全文書での出現文書数を算出する。単語処理部103は、単語とその単語の全文書での出現文書数とからなる情報(全文書単語出現文書数情報)を、全文書単語リスト記憶部114の全文書単語リスト(図4)に追加して記憶する。その後、ステップS106へ進む。
(ステップS106)単語処理部103は、ステップS105で読み出した文書別単語リストの単語全てについて、ステップS105の処理を行ったか否かを判定する。文書別単語リストの単語全てにステップS105の処理を行ったと判定した場合(YES)、動作を終了する。一方、文書別単語リストの単語全てにステップS105の処理を行っていないと判定した場合(NO)、ステップS105へ戻る。
【0034】
図4は、本実施形態に係る全文書単語リストの一例を示す概略図である。図示するように全文書単語リストは、単語及び出現文書数の各項目の列を有している。ここで、出現文書数は、全文書での出現文書数を示す。全文書単語リストには、単語毎に全文書単語出現文書数情報が格納される。
例えば、図3の1行目の全文書単語出現文書数情報は、単語「適当」について、全文書データでの出現文書数が「54」個であることを示す。また、この図の6行目の全文書単語出現文書数情報は、単語「アナフィラキシー」について、全文書データ内での出現文書数が「37」個であることを示す。このように、「適当」といった一般的に用いられる単語は、「アナフィラキシー」といった具体的な単語と比較して、全文書データでの出現文書数が多い傾向にある。
【0035】
図5は、本実施形態に係る文書カテゴリリストの一例を示す概略図である。図示するように文書カテゴリリストは、文書ID及びカテゴリの各項目の列を有している。文書カテゴリリストには、文書ID毎に文書カテゴリ情報が格納される。
例えば、図5の1行目の文書カテゴリ情報は、文書IDが「00001」の文書データが、カテゴリ「栄養障害」に分類されていることを示す。
【0036】
図6は、本実施形態に係る単語処理部103が行う動作の一例を示す概略図である。
(ステップS201)単語処理部103は、形態素解析部102から指定カテゴリ情報を入力される。その後、ステップS202へ進む。
(ステップS202)単語処理部103は、文書カテゴリリスト記憶部112が記憶する文書カテゴリリストから、カテゴリがステップS201で入力された指定カテゴリ情報が示すカテゴリと一致する文書カテゴリリストの文書IDを読み出す。単語処理部103は、文書IDが読み出した文書IDと一致する文書別単語情報を、文書別単語リスト記憶部113が記憶する文書別単語リストから選択する。その後、ステップS203へ進む。
(ステップS203)単語処理部103は、ステップS202で選択した指定カテゴリcの文書別単語情報から文書IDが同じ文書別単語情報を選択し、選択した文書別単語情報の単語について、全ての2つの組合せ(単語対)のリストを生成する(図7の単語1、単語2を参照)。その後、ステップS204へ進む。
【0037】
(ステップS204)単語処理部103は、ステップS202で選択した指定カテゴリcの文書別単語情報を読み出し、ステップS203で生成したリストの1つの単語対の単語の両方と対応付けられている文書IDを計数することで指定カテゴリcでの共起文書数を算出する。単語処理部103は、単語対の単語と算出した指定カテゴリcでの共起文書数とからなる情報を、カテゴリ別単語対リスト記憶部115のカテゴリ別単語対リスト(図7)に追加して記憶する。その後、ステップS205へ進む。
(ステップS205)単語処理部103は、ステップS203で生成したリストの単語対全てにステップS204の処理を行ったか否かを判定する。リストの単語対全てにステップS204の処理を行ったと判定した場合(YES)、ステップS206へ進む。一方、リストの単語対全てにステップS204の処理を行っていないと判定した場合(NO)、ステップS204へ戻る。
【0038】
(ステップS206)単語処理部103は、ステップS202で抽出した指定カテゴリcの文書別単語情報の単語をマージして、指定カテゴリcの単語リストを生成する。その後、ステップS207へ進む。
(ステップS207)単語処理部103は、全文書単語リスト記憶部114が記憶する全文書単語リストを参照する。単語処理部103は、ステップS206で生成した単語リストの単語について、その単語と単語の項目の値が一致する全文書単語出現文書数情報を、参照した全文書単語リストから抽出する。単語処理部103は、抽出した全文書単語出現文書数情報を、カテゴリ別単語リスト記憶部116のカテゴリ別単語リスト(図8)に追加して記憶する。その後、ステップS208へ進む。
【0039】
(ステップS208)単語処理部103は、ステップS206で生成したリストの単語全てにステップS207の処理を行ったか否かを判定する。リストの単語全てにステップS207の処理を行ったと判定した場合(YES)、ステップS209へ進む。一方、リストの単語全てにステップS207の処理を行っていないと判定した場合(NO)、ステップS207へ戻る。
(ステップS209)単語処理部103は、文書カテゴリリスト記憶部112が記憶する文書カテゴリリストから、カテゴリがステップS201で入力された指定カテゴリ情報と一致する文書カテゴリリストの数、つまり、指定カテゴリ文書数Nを算出する。その後、動作を終了する。
【0040】
図7は、本実施形態に係るカテゴリ別単語対リストの一例を示す概略図である。図示するようにカテゴリ別単語対リストは、単語1、単語2、及び共起文書数の各項目の列を有している。ここで、単語1及び単語2は、指定カテゴリcで同じ文書IDの文書データ内の単語の組合せ、つまり共起する単語対である。また、出現文書数は、単語1及び単語2の単語対について、指定カテゴリcでの共起文書数を示す。
例えば、図7の1行目の情報は、単語1「適当」と単語2「混濁」とが指定カテゴリcで共起されることを示す。また、この情報は、「適当」及び「混濁」の単語対について、指定カテゴリcでの共起文書数が「1」であることを示す。
【0041】
図8は、本実施形態に係るカテゴリ別単語リストの一例を示す概略図である。図示するようにカテゴリ別単語リストは、単語及び出現文書数の各項目の列を有している。ここで、単語は指定カテゴリcの文書データ内の単語であり、出現文書数は全文書での出現文書数を示す。カテゴリ別単語リストには、カテゴリが指定カテゴリcである全文書単語出現文書数情報が記憶される。
例えば、図8の1行目の情報は、単語「適当」について、全文書データでの出現文書数が「54」個であることを示す。また、この図は、指定カテゴリcが図5の「栄養障害」である場合の図であり、指定カテゴリ「栄養障害」には、「適当」、「光線」、「糖尿」、「混濁」、「アナフィラキシー」、「弾性」、「落屑」、「エナメル」、「カドミウム」、「シリコン」、「ろう」が含まれていることを示す。
なお、図示はしていないが、単語の出現文書数が低い場合、図8に示した各単語の指定カテゴリcでの出現文書数は、例えば、一般的な単語である「適当」が2個、その他の具体的な単語である「アナフィラキシー」等が1個といったように、低い値となる場合がある。この場合、図8の例では、指定カテゴリcでの出現文書数と全文書の出現文書数との比は、「適当」が2:54(=1:27)、「アナフィラキシー」が1:37となる。つまり、「適当」が現れる文書は1/27の確率で指定カテゴリcに属する文書であり、「アナフィラキシー」が現れる文書は1/37の確率で指定カテゴリcに属する文書であるから、「適当」の方が指定カテゴリcに偏っている。すなわち、従来技術のような1個の単語の偏りを基準とした技術では、一般的な単語についての評価値の方が、具体的な単語についての評価値より大きくなる場合がある。
【0042】
図9は、本実施形態に係る交互作用算出部104及び結果表示部105が行う動作の一例を示す概略図である。
(ステップS301)交互作用算出部104は、単語処理部103から指定カテゴリ情報、全文書数N及び指定カテゴリ文書数Nを入力される。その後、ステップS302へ進む。
(ステップS302)交互作用算出部104は、カテゴリ別単語リスト記憶部116が記憶するカテゴリ別単語リスト、及び、カテゴリ別単語対リスト記憶部115が記憶するカテゴリ別単語対リストを読み出す。その後、ステップS303へ進む。
【0043】
(ステップS303)交互作用算出部104は、ステップS302で読み出したカテゴリ別単語対リストの単語対(単語1の値をw1、単語2の値をw2とする)について、式(1)を用いて交互作用値DI(w1,w2,c)を算出する。
具体的には、交互作用算出部104は、単語w1、w2のカテゴリ別単語対情報の共起文書数の値を式(1)のNw1,w2,cに代入する。また、交互作用算出部104は、ステップS302で読み出したカテゴリ別単語リストから、単語w1、w2の全文書での出現文書数の値を読み出し、式(1)のNw1及びNw2に代入する。また、交互作用算出部104は、ステップS301で入力された全文書数N及び指定カテゴリ文書数Nを式(1)に代入する。その後、ステップS304に進む。
【0044】
(ステップS304)交互作用算出部104は、ステップS302で読み出したカテゴリ別単語対リストの単語対全てにステップS303の処理を行ったか否かを判定する。カテゴリ別単語対リストの単語対全てにステップS303の処理を行ったと判定した場合(YES)、ステップS305へ進む。一方、カテゴリ別単語対リストの単語対全てにステップS303の処理を行っていないと判定した場合(NO)、ステップS303へ戻る。
【0045】
(ステップS305)交互作用算出部104は、ステップS302で読み出したカテゴリ別単語リストの1つの単語(単語wとする)について、式(2)を用いて評価値DWPI(w,c)を算出する。
具体的には、交互作用算出部104は、ステップS302で読み出したカテゴリ別単語対リストの単語1又は単語2が、単語wと一致するカテゴリ別単語対情報を選択する。交互作用算出部104は、選択したカテゴリ別単語対情報の単語1又は単語2のうち、単語wではないものを単語wpとし、その集合をWpair(w,c)とする。
交互作用算出部104は、Wpair(w,c)の全てのwpについて、ステップS303で算出した交互作用値DI(w,wp,c)を合算する。交互作用算出部104は、単語wと、合算後の値(評価値DWPI(w,c))とを、単語評価値リスト記憶部117の単語評価値リストに追加して記憶する。その後、ステップS306に進む。
【0046】
(ステップS306)交互作用算出部104は、ステップS302で読み出したカテゴリ別単語リストの単語全てにステップS305の処理を行ったか否かを判定する。カテゴリ別単語リストの単語全てにステップS305の処理を行ったと判定した場合(YES)、ステップS307へ進む。一方、カテゴリ別単語リストの単語全てにステップS305の処理を行っていないと判定した場合(NO)、ステップS305へ戻る。
(ステップS307)結果表示部105は、単語評価値リスト記憶部117が記憶する単語評価値リストを読み出し、単語wを評価値が高い順序に並び替えて出力する。
【0047】
図10は、本実施形態に係る単語評価値リストの一例を示す概略図である。図示するように単語評価値リストは、単語及び評価値の各項目の列を有している。ここで、単語は指定カテゴリcの文書データの文書に現れる単語である。また、評価値は、式(2)を用いて算出した評価値DWPI(w,c)である。単語評価値リストには、単語毎に単語評価値情報が格納される。
例えば、図10の2行目の単語評価値リストは、単語「アナフィラキシー」の評価値が「120.41983241537」であることを示す。また、図10の11行目の単語評価値リストは、単語「適当」の評価値が「28.519831293676」であることを示す。
つまり、図10は、指定カテゴリcにおいて多くの単語と共起され、かつ、具体的な単語である「糖尿」、「アナフィラキシー」、「落屑」の評価値が高いことを示す。一方、図10は、一般的な単語である「適当」の評価値が低いことを示す。
【0048】
このように、本実施形態によれば、単語抽出装置1では、単語処理部103が指定カテゴリcに属する文書で共起する単語対w1、w2について、指定カテゴリcに属する文書で共起する頻度を示すNw1,w2,cを算出し、交互作用算出部104がNw1,w2,cと単語対について全文書での出現頻度を示すNw1w2と、に基づいて、指定カテゴリcに属する文書に現れる単語について、指定カテゴリcでの重要度を示す評価値を算出する評価値DWPI(w,c)を算出する。
本実施形態では、単語対について文書で共起する頻度を示すNw1,w2,cに基づいて評価値を算出するので、単語抽出装置1は、指定カテゴリcで多くの種類の単語を用いて詳述される単語を、指定カテゴリcでの重要度の高い単語として評価値を算出することができる。さらに、単語抽出装置1は、単語対について全文書での出現頻度を示すNw1w2に基づいて評価値を算出する。これにより、単語抽出装置1は、全文書での出現頻度が低い具体的な単語を指定カテゴリcでの重要度の高い単語として、全文書での出現頻度が高い一般的な単語を指定カテゴリcでの重要度が低い単語として、評価値を算出することができる。
このように、本実施形態では、多くの種類の単語を用いて詳述される具体的な単語wを、指定カテゴリcでの重要度が高い単語として評価することができ、信頼性の高い評価値を算出することができる。
【0049】
特に、本実施形態では、文書内で共起する単語対の出現頻度に基づいて評価値を算出するので、単語抽出装置1は、単語の出現文書数が低い場合でも、指定カテゴリcで多くの種類の単語を用いて詳述される具体的な単語を重要度の高い単語として評価値を算出することができる。また、文書では、重要な単語を最初に1回だけ記載され、その後、この単語について多くの種類の単語を用いて詳述されることがあり、この場合、重要な単語の出現頻度は低くなってしまう。しかし、本実施形態によれば、文書内で共起する単語対に基づいて評価値を算出するので、このような場合でも、多くの種類の単語を用いて詳述される具体的な単語を重要度の高い単語として評価値を算出することができる。
以上のように、本実施形態に係る単語抽出装置1は、単語の出現文書数が低い場合でも、1個の単語についての出現頻度の偏りに基づいて評価をする場合と比較して、信頼性の高い評価値を算出することができる。
【0050】
なお、上記実施形態において、交互作用算出部104は、交互作用値DI(w1、w2、c)を式(1)に代えて、次式(3)を用いて算出してもよい。
【数3】

【0051】
また、上記実施形態において、交互作用算出部104が、2個の単語の組である単語対を用いて評価値を算出する場合について説明をした。しかし、本発明はこれに限らず、交互作用算出部104は、3個以上の単語の組を用いて評価値を算出してもよい。例えば、M個の単語の組(w1、w2、・・・、wM)を用いる場合、交互作用算出部104は、次式(4)を用いて交互作用値DI(w1,w2,・・・,wM,c)を算出する。
【0052】
【数4】

【0053】
ここで、Nw1,w2,・・・、wM,cは、指定カテゴリcの文書データのうち、文書に単語w1、w2、・・・、wMのすべてが現れる(単語w1、w2、・・・、wMが共起する)文書データの数である。交互作用算出部104は、算出した交互作用値を、指定カテゴリcにおいて単語wと共起する単語の組(M−1個)の組合せの集合について合算する。
ただし、本実施形態のように、単語の組が2個の単語からなる単語対である場合、3個以上の単語の組とする場合と比較して、単語処理部103が算出するNw1,w2,・・・、wM,cの個数、及び、交互作用算出部104が合算する交互作用値DI(w1,w2,・・・,wM,c)の組合せの数、を少なくすることができ、演算処理を少なくすることができる。
【0054】
また、上記実施形態において、交互作用算出部104が、単語の組の全文書での出現文書数(例えば、式(1)、式(4)の第2項)として、単語の組の単語各々についての全文書での出現文書数を乗じた期待値を用いる場合について説明をした。しかし、本発明はこれに限らず、交互作用算出部104は、全文書のうち単語の組の単語が共起する文書数を算出して、算出した文書数を交互作用値DIの第2項に代えて用いてもよい。
ただし、本実施形態のように、単語の組の単語各々についての全文書での出現文書数を乗じた期待値を交互作用値DIの第2項に用いる方が好適である。例えば、複数の単語が単語の組として文書に現れること自体に偏りがあることがある。本実施形態によれば、交互作用値DIの第2項に、単語の組の単語各々についての全文書での出現文書数を乗じた期待値を用いるので、全文書のうち単語の組の単語が共起する文書数を用いる場合と比較して、偶然、組として出現するものを差し引くことができる。
【0055】
また、上記実施形態において、結果表示部105が指定カテゴリcの単語を、評価値が高い順序に並び替えて表示しているが、本発明はこれに限らず、結果表示部105は、単語と評価値を記憶装置に出力してもよい。また、結果表示部105は、評価値が予め定めた閾値より大きい単語のみを出力してもよい。これにより、具体的な単語のみを抽出することができる。また、逆に、結果表示部105は、評価値が予め定めた閾値以下の単語のみを出力してもよい。これにより、一般的な単語のみを抽出することができる。これらの場合、例えば、評価値の閾値を0としてもよい。
【0056】
なお、上述した実施形態における単語抽出装置1の一部、例えば、入力処理部101、形態素解析部102、単語処理部103、交互作用算出部104、及び結果表示部105をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、単語抽出装置1に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0057】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0058】
1・・・単語抽出装置(情報評価装置)、101・・・入力処理部、102・・・形態素解析部、103・・・単語処理部、104・・・交互作用算出部(評価値算出部)、105・・・結果表示部(出力部)、111・・・文書記憶部、112・・・文書カテゴリリスト記憶部、113・・・文書別単語リスト記憶部、114・・・全文書単語リスト記憶部、115・・・カテゴリ別単語対リスト記憶部、116・・・カテゴリ別単語リスト記憶部、117・・・単語評価値リスト記憶部

【特許請求の範囲】
【請求項1】
複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価する情報評価装置において、
選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する単語処理部と、
前記選択カテゴリ共起頻度情報と、前記単語の組について全文書での出現頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する評価値算出部と、
を備えることを特徴とする情報評価装置。
【請求項2】
前記単語処理部は、単語の組の単語各々についての全文書での出現頻度に基づいて、全文書単語組出現頻度情報を算出することを特徴とする請求項1に記載の情報評価装置。
【請求項3】
前記単語の組は、2個の単語からなる単語対であることを特徴とする請求項1又は2に記載の情報評価装置。
【請求項4】
複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価する情報評価装置における情報評価方法おいて、
単語処理部が、選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する過程と、
評価値算出部が、前記選択カテゴリ共起頻度情報と、前記単語の組について全文書での出現頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する過程と、
を有することを特徴とする情報評価方法。
【請求項5】
複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価するコンピュータを、
選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する単語処理手段、
前記選択カテゴリ共起頻度情報と、前記単語の組について全文書での出現頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する評価値算出手段、
として機能させることを特徴とする情報評価プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2011−128760(P2011−128760A)
【公開日】平成23年6月30日(2011.6.30)
【国際特許分類】
【出願番号】特願2009−284998(P2009−284998)
【出願日】平成21年12月16日(2009.12.16)
【出願人】(000102728)株式会社エヌ・ティ・ティ・データ (438)
【Fターム(参考)】