説明

文書分類装置、方法およびプログラム

【課題】文書の分類結果を分かり易く提示することができる文書分類装置、方法およびプログラムを提供することである。
【解決手段】実施形態の文書分類装置は、文書集合に含まれる文書から特徴語を抽出し、抽出した特徴語を、木構造を有するシソーラスの部分木を構成する複数のクラスタであって、一のクラスタに属する特徴語が出現する文書数と他のクラスタに属する特徴語が出現する文書数との差が予め定めた基準値以下となる複数のクラスタにクラスタリングする。そして、文書集合に含まれる文書を、該文書に出現する特徴語が属するクラスタに分類し、各クラスタのそれぞれに、各クラスタに属する特徴語を代表する語句である分類ラベルを付与する。そして、文書の分類結果を、分類されたクラスタに付与された分類ラベルと対応付けて提示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、文書分類装置、方法およびプログラムに関する。
【背景技術】
【0002】
文書を分析する技術のひとつとして、文書中の意図表現に基づいて事物の評判を分析する評判分析が知られている。評判分析は、単純な事物の良し悪しだけではなく、事物を評価する観点ごとに良し悪しを判定する。このため、従来の評判分析では、意図表現の辞書に加えて、意図表現の対象となる観点の辞書が必要となる。前者の意図表現の辞書は、特定の分野に依存しないため汎用性があり、様々な分野での利用が可能である。一方、後者の観点の辞書は、特定の分野に強く依存するため汎用性に乏しく、分野ごとに作成しなくてはならない。
【0003】
一方、文書集合を分類する方法として文書クラスタリングが知られている。文書クラスタリングでは、文書集合を個々の文書の内容に応じて分類できるため、意図表現の対象となる観点を基準とした分類を行えるようにすれば、観点の辞書を用いない評判分析が可能になる。
【0004】
また、文書クラスタリングにシソーラスを用いる技術も知られている。例えば、シソーラス上のある階層を選択し、同一階層上の登録語を用いて文書クラスタを分類、統合する技術がある。これによれば、文書クラスタの分類の粒度を統一することができ、また、分類された文書クラスタに対して、分類に用いたシソーラスの登録語を分類ラベルとして付与することもできる。
【0005】
しかし、シソーラスの同一階層上の登録語を用いて文書クラスタを分類、統合する技術では、シソーラス中の登録語は広く分布するため、文書クラスタの数は多くなる。また、分類ラベルはシソーラス中の下位概念に属する狭義語になる。このため、文書の分類結果を分かり易く提示することが困難になる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2009−251825号公報
【非特許文献】
【0007】
【非特許文献1】Hearst, M. A.: Clustering versus faceted categories for information exploration, Communications of the ACM, Volume 49 Issue 4, April 2006.
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明が解決しようとする課題は、文書の分類結果を分かり易く提示することができる文書分類装置、方法およびプログラムを提供することである。
【課題を解決するための手段】
【0009】
実施形態の文書分類装置は、特徴語抽出手段と、特徴語クラスタリング手段と、文書分類手段と、分類ラベル付与手段と、提示手段と、を備える。特徴語抽出手段は、文書集合に含まれる文書から特徴語を抽出する。特徴語クラスタリング手段は、抽出した前記特徴語を、木構造を有するシソーラスの部分木を構成する複数のクラスタであって、一のクラスタに属する前記特徴語が出現する前記文書の数と、他のクラスタに属する前記特徴語が出現する前記文書の数との差が、予め定めた基準値以下となる複数のクラスタにクラスタリングする。文書分類手段は、前記文書集合に含まれる前記文書を、該文書に出現する前記特徴語が属するクラスタに分類する。分類ラベル付与手段は、前記複数のクラスタのそれぞれに、各クラスタに属する前記特徴語を代表する語句である分類ラベルを付与する。提示手段は、前記文書の分類結果を、分類されたクラスタに付与された前記分類ラベルと対応付けて提示する。
【図面の簡単な説明】
【0010】
【図1】図1は、第1実施形態の文書分類装置を示すブロック図である。
【図2】図2は、文書記憶部に格納された文書集合の一例を示す図である。
【図3−1】図3−1は、意図辞書記憶部に格納された意図表現の一例を示す図である。
【図3−2】図3−2は、意図辞書記憶部に格納された意図表現の一例を示す図である。
【図4】図4は、シソーラス記憶部に格納されたシソーラスの一例を示す図である。
【図5−1】図5−1は、分類対象の各文書から抽出した特徴語の一例を示す図である。
【図5−2】図5−2は、分類対象の各文書から抽出した特徴語の一例を示す図である。
【図6】図6は、特徴語をクラスタリングした結果の一例を示す図である。
【図7−1】図7−1は、分類対象の各文書を分類した結果の一例を示す図である。
【図7−2】図7−2は、分類対象の各文書を分類した結果の一例を示す図である。
【図8−1】図8−1は、文書クラスタに付与された分類ラベルの一例を示す図である。
【図8−2】図8−2は、文書クラスタに付与された分類ラベルの一例を示す図である。
【図9−1】図9−1は、提示手段による情報の提示例を示す図である。
【図9−2】図9−2は、提示手段による情報の提示例を示す図である。
【図9−3】図9−3は、提示手段による情報の提示例を示す図である。
【図10】図10は、特徴語抽出手段による処理の流れを示すフローチャートである。
【図11】図11は、特徴語クラスタリング手段による処理の流れを示すフローチャートである。
【図12】図12は、文書分類手段による処理の流れを示すフローチャートである。
【図13】図13は、分類ラベル付与手段による処理の流れを示すフローチャートである。
【図14】図14は、第2実施形態の文書分類装置を示すブロック図である。
【図15】図15は、指定文書記憶部に格納された指定文書の一例を示す図である。
【図16】図16は、分類対象の各文書と指定文書から抽出した特徴語の一例を示す図である。
【図17】図17は、文書クラスタに付与された分類ラベルの一例を示す図である。
【図18−1】図18−1は、提示手段による情報の提示例を示す図である。
【図18−2】図18−2は、提示手段による情報の提示例を示す図である。
【図19】図19は、第3実施形態の文書分類装置を示すブロック図である。
【図20】図20は、観点辞書記憶部に格納された観点の辞書の一例を示す図である。
【図21】図21は、分類対象の各文書から抽出した特徴語の一例を示す図である。
【図22】図22は、文書クラスタに付与された分類ラベルの一例を示す図である。
【図23−1】図23−1は、提示手段による情報の提示例を示す図である。
【図23−2】図23−2は、提示手段による情報の提示例を示す図である。
【図23−3】図23−3は、提示手段による情報の提示例を示す図である。
【図24】図24は、第4実施形態の文書分類装置を示すブロック図である。
【図25】図25は、文書記憶部に格納された文書集合の一例を示す図である。
【図26】図26は、データ処理装置のハードウェア構成例を示す説明図である。
【発明を実施するための形態】
【0011】
以下、実施形態の文書分類装置、方法およびプログラムを、図面を参照して説明する。なお、以下で示す実施形態は、評判分析に利用する文書分類装置への適用例であるが、適用可能な文書分類装置はこの例に限定されるものではなく、様々な形態の文書分類装置への適用が可能である。
【0012】
<第1実施形態>
図1は、第1実施形態の文書分類装置を示すブロック図である。第1実施形態の文書分類装置は、図1に示すように、記憶装置1と、データ処理装置2と、入出力装置3と、を備える。記憶装置1、データ処理装置2、および入出力装置3は、有線または無線により相互に情報の授受が可能に接続されている。なお、記憶装置1、データ処理装置2、および入出力装置3は、単一の情報処理装置により実現されていてもよい。
【0013】
記憶装置1は、文書記憶部101と、意図辞書記憶部102と、シソーラス記憶部103とを、備える。
【0014】
文書記憶部101は、分類の対象となる文書集合を格納する。
【0015】
図2は、文書記憶部101に格納された文書集合の一例を示す図である。文書集合に含まれる文書は、ある特定の形態に限定されるものではなく、例えば自然言語で記述された文書である。例えば、Webページ文書、業務上作成された文書、特許公報などの文書を含む文書集合が、文書記憶部101に格納される。文書記憶部101は、文書そのものだけでなく、文書IDを組にして格納してもよい。図2では、文書IDがD1の文書から文書IDがD10の文書までを含む文書集合が文書記憶部101に格納された例を示している。
【0016】
文書記憶部101には、例えば、ハードディスクやフラッシュメモリなどを用いることができる。
【0017】
意図辞書記憶部102は、一般的に使用される意図表現を格納する。ここで、意図表現とは、事象に対する評価や賛否、成否など、人が思いや意図を持って表現する言葉である。
【0018】
図3−1および図3−2は、意図辞書記憶部102に格納された意図表現の一例を示す図である。意図辞書記憶部102は、意図表現そのものだけでなく、意図表現の種類を組にして格納してもよい。図3−1では、意図辞書記憶部102に、「良い」、「いい」、「広い」、「悪い」、「残念」、「高い」の意図表現が格納された例を示している。図3−2では、「評価」が「好評」である意図表現の種類に対して、「良い」、「いい」、「広い」の意図表現が格納され、「評価」が「不評」である意図表現の種類に対して、「悪い」、「残念」、「高い」の意図表現が格納された例を示している。
【0019】
意図辞書記憶部102には、例えば、ハードディスクやフラッシュメモリなどを用いることができる。
【0020】
シソーラス記憶部103は、1つまたは複数のシソーラスを格納する。シソーラスとは、語句の上位/下位関係、部分/全体関係、同義関係、類義関係などによって語句を分類し、体系づけた辞書である。シソーラス記憶部103が格納するシソーラスは、登録語をノードとし、上位ノードと下位ノードをリンクで結んだ木構造を有する。
【0021】
図4は、シソーラス記憶部103に格納されたシソーラスの一例を示す図である。図4では、(a)と(b)の2つのシソーラスがシソーラス記憶部103に格納された例を示している。シソーラス記憶部103が格納するシソーラスとしては、既存のものを用いることができる。例えば、EDR概念体系辞書、JST科学技術用語シソーラス、WordNetなどを用いることができる。また、シソーラス記憶部103は、シソーラスの登録語や登録語間の関係だけではなく、登録語間の共起頻度や、共起の尺度を表す共起度を組にして格納してもよい。例えば、共起度には、自己相互情報量(Pointwise Mutual Information)を用いることができる。
【0022】
シソーラス記憶部103には、例えば、ハードディスクやフラッシュメモリなどを用いることができる。
【0023】
データ処理装置2は、特徴語抽出手段201と、特徴語クラスタリング手段202と、文書分類手段203と、分類ラベル付与手段204と、を備える。
【0024】
特徴語抽出手段201は、文書記憶部101に格納された文書集合に含まれる分類対象の各文書から特徴語を抽出する。具体的には、特徴語抽出手段201は、まず、意図辞書記憶部102に格納された意図表現を用いて、文書集合に含まれる分類対象の各文書から、意図表現の対象となる語句を抽出する。次に、特徴語抽出手段201は、抽出された意図表現の対象となる語句の中から、予め定めた基準に従って選択された語句を特徴語として抽出する。
【0025】
ここで、意図表現の対象となる語句の抽出には、例えば、形態素解析や意味情報抽出、複合語抽出、係り受け解析などの手法を用いることができる。例えば、複合語抽出の具体的な手法としては、C−valueを用いることができる。また、形態素解析や意味情報抽出、複合語抽出、係り受け解析の結果から、ある特定の種類を選択するようにしてもよい。
【0026】
また、意図表現の対象となる語句の中から特徴語を抽出する方法としては、例えば、出現頻度に基づいて計算される重みが所定値以上となる語句を特徴語として抽出するといった方法を用いることができる。ここでの所定値は、絞り込む特徴語の数などに応じて任意に選択できる。出現頻度に基づく重みとしては、例えば、tf−idfを用いることができる。また、文書記憶部101が保持する文書集合に含まれる文書数に応じて、文書数が多い場合はtf−idfを用い、文書数が少ない場合はtf(Term Frequency:語句の出現頻度)を用いるといった切り替えを行うようにしてもよい。
【0027】
図5−1および図5−2は、図2に示した文書集合に含まれる分類対象の各文書から抽出した特徴語の一例を示す図である。なお、ここでは図2に示したすべての文書が分類対象であるものとする。図5−1は、図3−1に示した意図表現を用いて抽出した特徴語の例であり、図5−2は、図3−2に示した意図表現を用いて抽出した特徴語の例である。
【0028】
特徴語抽出手段201が抽出した特徴語は、例えば、図5−1および図5−2に示すように、抽出元の文書を表す文書IDと関連付けて保持される。また、特徴語抽出手段201が抽出した特徴語は、図5−2に示すように、抽出元の文書を表す文書IDに加え、さらに抽出に用いた意図表現やその種類と関連付けて保持するようにしてもよい。図5−2の例では、意図表現の種類の二階層(好評、不評)を用いて特徴語がさらに分類されている。
【0029】
特徴語クラスタリング手段202は、特徴語抽出手段201が抽出した特徴語を、シソーラス記憶部103に格納されたシソーラスを用いてクラスタリングする。具体的には、特徴語クラスタリング手段202は、特徴語抽出手段201が抽出した特徴語を、各クラスタがシソーラスの部分木を構成するような複数の特徴語クラスタにクラスタリングする。ここで生成される複数の特徴語クラスタは、一の特徴語クラスタに属する特徴語が出現する文書数と、他の特徴語クラスタに属する特徴語が出現する文書数との差が、予め定めた基準値以下となるようにする。つまり、複数の特徴語クラスタ間で、各特徴語クラスタに属する特徴語が出現する文書数が同数に近くなるようにする。ここで、各特徴語クラスタに属する特徴語が出現する文書数の差として許容される基準値は、例えば、文書集合に含まれる文書の総数に対する割合に基づいて定めることができる。
【0030】
特徴語クラスタリング手段202によるクラスタリングの手法としては、例えば、シソーラス上の距離に基づく階層型クラスタリングの手法を用いることができる。具体的には、意味的に近い特徴語が1つの特徴語クラスタに属するようにシソーラスの部分木を下位の語句から上位の語句へと成長させていき、1つの特徴語クラスタに属する特徴語が出現する文書数が、例えば、文書集合に含まれる文書の総数に対する割合から定めた所定値に達したら、部分木の成長をとめるといった手法を用いることができる。このとき、1つの特徴語クラスタを構成する特徴語間のシソーラス上の距離は、決められた定数が許容される。また、1つの特徴語が複数のシソーラスに登録されている場合は、複数のシソーラスにまたがるように部分木を成長させていくようにしてもよい。
【0031】
図6は、特徴語クラスタリング手段202が特徴語をクラスタリングした結果の一例を示す図である。図6の例では、T1からT4までの4つの部分木を構成する特徴語クラスタがそれぞれ生成されている。部分木T1を構成する特徴語クラスタには、「予約」、「サービス」、「接客」、「スタッフ」、「従業員」の各特徴語が属している。部分木T2を構成する特徴語クラスタには、「値段」、「金額」、「料金」の各特徴語が属している。部分木T3を構成する特徴語クラスタには、「料理」、「和食」、「中華」、「洋食」、「バイキング」、「品数」の各特徴語が属している。部分木T4を構成する特徴語クラスタには、「喫煙」、「禁煙」の各特徴語が属している。なお、部分木T1は、(a)のシソーラス中の「スタッフ」と、(b)のシソーラス中の「スタッフ」とを同一とみなすことで、(a)と(b)の二つのシソーラスをまたがる部分木となっている。
【0032】
特徴語クラスタリング手段202は、上記のようにシソーラスの部分木を構成する特徴語クラスタに特徴語をクラスタリングするという手法を用いることで、特徴語抽出手段201が特徴語として抽出できなかった語句を、特徴語クラスタに属する特徴語として補うことができる。例えば、図6に示した部分木T3を構成する特徴語クラスタに属する特徴語のうち、「料理」、「中華」、「洋食」、「バイキング」は、図5−1および図5−2に示した特徴語抽出手段201による特徴語の抽出結果に含まれていない語句であるが、特徴語抽出手段201により特徴語として抽出された「和食」、「品数」が1つの特徴語クラスタに属するようにシソーラスの部分木を成長させることにより、このシソーラスの部分木を構成する特徴語クラスタに属する特徴語として、「料理」、「中華」、「洋食」、「バイキング」を補うことができる。
【0033】
また、特徴語クラスタリング手段202は、上記のようにシソーラスの部分木を構成する特徴語クラスタに特徴語をクラスタリングするという手法を用いることで、特徴語抽出手段201が特徴語として抽出した語句のうち、シソーラスの登録語として登録されていない語句を、特徴語クラスタに属する特徴語から除外することができる。例えば、図5−1および図5−2に示した特徴語抽出手段201による特徴語の抽出結果には、特徴語として「席」、「設定」、「駐車」、「希望」の語句が含まれているが、図6に示したシソーラスの登録語として登録されていないこれらの語句を、特徴語クラスタに属する特徴語から除外することができる。
【0034】
以上のように、特徴語クラスタリング手段202は、特徴語抽出手段201により抽出された特徴語の集合を単にクラスタリングするだけでなく、特徴語抽出手段201により抽出された特徴語とシソーラスの登録語との間のシソーラス上の距離に基づいて、特徴語の集合を補正しつつクラスタリングする機能を持つ。
【0035】
特徴語クラスタリング手段202が上記のように特徴語をクラスタリングする場合、一の特徴語クラスタに属する特徴語とシソーラス上の距離が大きい他の特徴語クラスタに属する特徴語については、シソーラスの部分木が成長せず、単独の部分木では上述した基準を満たす特徴語クラスタを構成できないことがある。このような場合、特徴語クラスタリング手段202は、単独では上述した基準を満たす1つの特徴語クラスタを構成できない部分木を複数集めて1つの特徴語クラスタとする。つまり、この特徴語クラスタは、意味的に離れた(シソーラス上で離散的な)特徴語を寄せ集めた特徴語クラスタとなる。図6に示した例では、破線で囲まれた部分木の集合が1つの特徴語クラスタとなり、例えば図5−1および図5−2に例示した特徴語のうち、「駅前」、「眺め」、「雰囲気」、「温度」の各特徴語が、この特徴語クラスタに属する特徴語となる。なお、この特徴語クラスタにおいても、特徴語抽出手段201が特徴語として抽出できなかった語句、「印象」、「エアコン」が、特徴語として補われている。
【0036】
文書分類手段203は、文書記憶部101に記憶された文書集合に含まれる分類対象の各文書を、特徴語クラスタリング手段202による特徴語クラスタリングの結果に基づいて分類し、文書クラスタを生成する。具体的には、文書分類手段203は、1つの特徴語クラスタに属する特徴語が出現する文書を1つの文書クラスタに分類し、特徴語クラスタリング手段202により生成された特徴語クラスタごとに、文書クラスタを生成する。なお、特徴語クラスタリング手段202により生成された特徴語クラスタに含まれる特徴語を1つも含まない文書については、未分類のクラスタに分類されるものとする。
【0037】
図7−1および図7−2は、図2に示した文書集合に含まれる分類対象の各文書を分類した結果の一例を示す図である。なお、ここでは図2に示したすべての文書が分類対象であるものとする。これら図7−1および図7−2は、図6に示した特徴語クラスタリング手段202による特徴語クラスタリングの結果に基づいて分類された文書の分類結果の例である。
【0038】
文書分類手段203による分類結果は、例えば、図7−1および図7−2に示すように、文書クラスタを表す文書クラスタIDごとに、各文書クラスタに属する文書の文書IDを関連付けた情報として保持される。また、各文書クラスタIDごとに、文書IDに加えてさらに各クラスタに属する特徴語を関連付けた情報として保持するようにしてもよい。図7−1および図7−2では、分類対象の各文書が、文書クラスタIDがC1の文書クラスタから文書クラスタIDがC5の文書クラスタまでの5つの文書クラスタに分類された例を示している。文書クラスタIDがC1の文書クラスタは、図6に示したシソーラスの部分木T1を構成する特徴語クラスタに対応する。また、文書クラスタIDがC2の文書クラスタは、図6に示したシソーラスの部分木T2を構成する特徴語クラスタに対応する。また、文書クラスタIDがC3の文書クラスタは、図6に示したシソーラスの部分木T3を構成する特徴語クラスタに対応する。また、文書クラスタIDがC4の文書クラスタは、図6に示したシソーラスの部分木T4を構成する特徴語クラスタに対応する。なお、文書クラスタIDがC5の文書クラスタは、図6に示した破線で囲まれたシソーラスの部分木を複数集めて生成した特徴語クラスタに対応する。図7−1および図7−2に示す例から分かるように、1つの文書が複数の文書クラスタに分類されることもある。
【0039】
分類ラベル付与手段204は、文書クラスタ(つまり、特徴語をクラスタリングしたクラスタ)のそれぞれに対して、各クラスタに属する特徴語を代表する語句である分類ラベルを付与する。分類ラベルは、例えば、各クラスタに属する特徴語の中から1つまたは複数選択される。分類ラベルの選択には、例えば、特徴語が出現する文書の範囲を基準として選択する方法や、特徴語のシソーラス中での位置を基準として選択する方法などを用いることができる。特徴語が出現する文書の範囲を基準にする場合は、例えば、特徴語の出現頻度が高いもの、あるいは特徴語が出現する文書の数が多いものを優先して、分類ラベルを選択する。また、特徴語のシソーラス中での位置を基準にする場合は、例えば、上位概念を優先する、あるいは同義語や異表記が多い語句を優先する、あるいは特徴語の分布の中心にあるものを優先して、分類ラベルを選択する。なお、特徴語に関連する意図表現の種類(好評、不評など)ごとに特徴語が分類されている場合には、意図表現の種類ごとに分類ラベルを選択するようにしてもよい。
【0040】
また、分類ラベル付与手段204は、シソーラスの部分木を複数集めて生成した特徴語クラスタに対応する文書クラスタに対しては、該クラスタがシソーラスの1つの部分木を構成しない複数の特徴語の集合であることを表す分類ラベル、つまり、この文書クラスタに属する文書は意味的に分類されたものではないことを表す分類ラベルを付与する。この場合の分類ラベルとしては、例えば、「その他」や「未分類」を用いることができる。また、「その他」や「未分類」とともに、代表的な特徴語を選択して分類ラベルとして付与してもよい。
【0041】
図8−1および図8−2は、分類ラベル付与手段204により付与された分類ラベルの一例を示す図である。図8−1は、図7−1に示した分類結果の各文書クラスタに対して付与された分類ラベルの例であり、図8−2は、図7−2に示した分類結果の各文書クラスタに対して付与された分類ラベルの例である。
【0042】
図8−1および図8−2の例では、文書クラスタIDがC1の文書クラスタに対して、「予約」、「サービス」が分類ラベルとして付与されている。また、文書クラスタIDがC2の文書クラスタに対して、「料金」、「値段」が分類ラベルとして付与されている。また、文書クラスタIDがC3の文書クラスタに対して、「バイキング」、「料理」が分類ラベルとして付与されている。また、文書クラスタIDがC4の文書クラスタに対して、「禁煙」が分類ラベルとして付与されている。また、文書クラスタIDがC5の文書クラスタに対して、「その他」、「立地」、「印象」、「空調」が分類ラベルとして付与されている。
【0043】
入出力装置3は、分類方法選択手段301と、提示手段302と、を備える。
【0044】
分類方法選択手段301は、文書記憶部101に格納された文書集合に含まれる文書のうち、分類対象の文書の選択を受け付ける。分類方法選択手段301は、ユーザによる分類対象の文書の選択を受け付けて、どの文書が選択されたかを明示的にデータ処理装置2に送信するための機能、例えば送信用のボタンなどを持つ。例えば、ユーザが任意のクエリを入力すると、文書記憶部101に格納された文書集合に含まれる文書のうち、入力されたクエリに対応する文書の集合を分類対象として選択し、選択した文書を明示する情報をデータ処理装置2に送信するといった方法を用いることができる。この分類方法選択手段301からの情報がデータ処理装置2に送信されると、データ処理装置2の特徴語抽出手段201が処理を開始する。なお、データ処理装置2の特徴語抽出手段201が処理を開始するタイミング(文書を分類するタイミング)は、分類方法選択手段301から情報が送信されたときに限らない。例えば、新たな文書が文書記憶部101に格納されたときに、データ処理装置2の特徴語抽出手段201が処理を開始するようにしてもよい。
【0045】
提示手段302は、文書分類手段203による文書の分類結果を、分類ラベル付与手段204により付与された分類ラベルと対応付けた情報として、ユーザに提示する。具体的には、提示手段302は、例えば、文書クラスタに分類された文書数を付したアイコンと、文書クラスタに付与された分類ラベルとの組合せを表示情報として生成し、この表示情報を入出力装置3のディスプレイ(図示せず)などに表示させる。また、提示手段302は、文書数を付したアイコンと分類ラベルとの組み合わせに、各クラスタに属する特徴語を対応付けた表示情報を生成し、この表示情報を入出力装置3のディスプレイなどに表示させるようにしてもよい。このとき、特徴語がその特徴語の抽出に用いた意図表現の種類ごとに分類されている場合には、文書数を付したアイコンと分類ラベルとの組み合わせに対応付けて表示する特徴語を、意図表現の種類ごとに区別できる形式で表示させるようにすることが望ましい。
【0046】
図9−1乃至図9−3は、提示手段302による情報の提示例を示す図である。図9−1乃至図9−3に示す例は、文書数を付したアイコンと分類ラベルとの組み合わせと、各クラスタに属する特徴語とを対応付けた表示情報を表示するようにした例である。これら図9−1乃至図9−3に示す例では、各クラスタに属する特徴語が、特徴語の抽出に用いた意図表現の種類ごとに区別できる形式で表示される。
【0047】
意図表現の種類ごとに区別できる形式の例としては、例えば、語句や語句の背景を色分けする、語句を異なる字体にする、意図表現の種類を表すアイコンを併記するといった例が挙げられる。例えば図9−1に示す例では、意図表現の種類が好評の特徴語は通常の字体で表示され、意図表現の種類が不評の特徴語はアンダーラインを付した斜体で表示されている。また、図9−2に示す例では、意図表現の種類が好評の特徴語に対しては笑い顔のアイコンが付され、意図表現の種類が不評の特徴語に対しては困り顔のアイコンが付されている。また、図9−3に示す例では、各クラスタに属する特徴語が意図表現の種類ごとに分離され、意図表現の種類が好評の特徴語に対しては笑い顔のアイコンが付され、意図表現の種類が不評の特徴語に対しては困り顔のアイコンが付されている。この図9−3のように、好評の評価と、不評の評価とを分けて提示することもできる。
【0048】
次に、第1実施形態の文書分類装置の動作について、図10乃至図13のフローチャートを参照しながら説明する。なお、以下では、初期状態として、文書記憶部101には図2に示した文書集合が格納され、意図辞書記憶部102には図3−2に示した意図表現が格納され、シソーラス記憶部103には図4に示したシソーラスが格納され、図2に示した文書集合に含まれるすべての文書が分類対象として選択されているものとして説明する。
【0049】
図10は、特徴語抽出手段201による処理の流れを示すフローチャートである。
【0050】
特徴語抽出手段201は、まず、文書記憶部101に格納された文書集合を取得する(ステップS101)。ここで取得される文書集合は、図2に示した文書集合であるものとする。
【0051】
次に、特徴語抽出手段201は、意図辞書記憶部102に格納された意図表現を取得する(ステップS102)。ここで取得される意図表現は、図3−2に示した意図表現であるものとする。
【0052】
次に、特徴語抽出手段201は、ステップS101で取得した文書集合に含まれる各文書から、意図辞書記憶部102に格納された意図表現に一致する意図表現を特定し、この意図表現の対象となる語句を抽出する(ステップS103)。
【0053】
次に、特徴語抽出手段201は、ステップS103で抽出した意図表現の対象となる語句の中から、予め定めた基準に従って選択された語句を特徴語として抽出し(ステップS104)、図10のフローチャートで示す一連の処理を終了する。
【0054】
図11は、特徴語クラスタリング手段202による処理の流れを示すフローチャートである。
【0055】
特徴語クラスタリング手段202は、まず、特徴語抽出手段201が抽出した特徴語を取得する(ステップS201)。ここで取得される特徴語は、図5−2に示した特徴語であるものとする。
【0056】
次に、特徴語クラスタリング手段202は、シソーラス記憶部103に格納されたシソーラスを取得する(ステップS202)。ここで取得されるシソーラスは、図4に示したシソーラスであるものとする。
【0057】
次に、特徴語クラスタリング手段202は、ステップS201で取得した特徴語のうち、ステップS202で取得したシソーラス中に存在する特徴語を抽出する(ステップS203)。
【0058】
次に、特徴語クラスタリング手段202は、ステップS203で抽出した特徴語間のシソーラス上の距離と、特徴語が出現する文書数を取得する(ステップS204)。特徴語間のシソーラス上の距離は、隣接する概念間の距離を単位距離で表す、概念間の距離を用いることができる。また、特徴語間のシソーラス上の距離として、シソーラス記憶部103に格納された概念間の共起頻度や、共起の尺度を表す共起度を用いてもよい。
【0059】
次に、特徴語クラスタリング手段202は、ステップS204で取得した特徴語間のシソーラス上の距離と、特徴語が出現する文書数とを用い、ステップS203で抽出した特徴語を、それぞれがシソーラスの部分木を構成する複数の特徴語クラスタにクラスタリングする(ステップS205)。このとき、特徴語クラスタリング手段202は、複数の特徴語クラスタ間で、各クラスタに属する特徴語が出現する文書数が同数に近くなるようにする。つまり、一の特徴語クラスタに属する特徴語が出現する文書数と、他の特徴語クラスタに属する特徴語が出現する文書数との差が、予め定めた基準値以下となるように、特徴語のクラスタリングを行う。ここで、特徴語が出現する文書数は、特徴語クラスタに属するすべての特徴語が出現する文書の総数を用いてもよいし、特徴語クラスタに属する特徴語の中から特定の特徴語が出現する文書数を用いるようにしてもよい。また、予め定めたある特定の数値を文書数として用いてもよい。この特徴語クラスタリング手段202による特徴語クラスタリングにより、特徴語抽出手段201が特徴語として抽出できなかった語句のうち、シソーラスの登録語として登録されている語句を特徴語クラスタに属する特徴語として補うことや、特徴語抽出手段201が特徴語として抽出した語句のうち、シソーラスの登録語として登録されていない語句を特徴語クラスタに属する特徴語から除外することができる。
【0060】
図12は、文書分類手段203による処理の流れを示すフローチャートである。
【0061】
文書分類手段203は、まず、特徴語クラスタリング手段202が生成した各特徴語クラスタに属する語句を特徴語として取得する(ステップS301)。
【0062】
次に、文書分類手段203は、文書記憶部101に格納された分類対象の文書集合の中から文書を1つ取得する(ステップS302)。
【0063】
次に、文書分類手段203は、ステップS302で取得した分類対象の文書中に、ステップS301で取得した特徴語が存在するか否かを判定する(ステップS303)。そして、文書分類手段203は、分類対象の文書中に特徴語が存在する場合は(ステップS303:Yes)、その特徴語が属する特徴語クラスタに、分類対象の文書を分類する(ステップS304)。一方、分類対象の文書中に特徴語が存在しない場合は(ステップS303:No)、文書分類手段203は、分類対象の文書を、未分類のクラスタに分類する(ステップS305)。
【0064】
次に、文書分類手段203は、分類対象の文書をすべて分類したか否かを判定する(ステップS306)。そして、文書分類手段203は、分類していない文書が残っていれば(ステップS306:No)、ステップS302に戻って以降の処理を繰り返し、分類対象のすべての文書の分類が終わったら(ステップS306:Yes)、図12のフローチャートで示す一連の処理を終了する。
【0065】
図13は、分類ラベル付与手段204による処理の流れを示すフローチャートである。
【0066】
分類ラベル付与手段204は、まず、文書分類手段203による文書の分類結果である文書クラスタを取得する(ステップS401)。
【0067】
次に、分類ラベル付与手段204は、ステップS401で取得した文書クラスタのそれぞれに対応するシソーラスの部分木を取得する(ステップS402)。
【0068】
次に、分類ラベル付与手段204は、各文書クラスタに対応するシソーラスの部分木の構造を用いて、各文書クラスタに属する特徴語を代表する語句を選択する(ステップS403)。なお、各文書クラスタに属する特徴語が意図表現の種類ごとに分類されている場合は、意図表現の種類ごとに特徴語を代表する語句を選択するようにしてもよい。
【0069】
次に、分類ラベル付与手段204は、ステップS403で選択した語句を分類ラベルとして各文書クラスタに付与し(ステップS404)、図13のフローチャートで示す一連の処理を終了する。
【0070】
以上、具体的な例を挙げながら詳細に説明したように、第1実施形態の文書分類装置によれば、分類対象の文書から抽出した特徴語を、個々のクラスタがシソーラスの部分木を構成し、各クラスタに属する特徴語が出現する文書数がほぼ等しくなるような複数の特徴語クラスタにクラスタリングする。そして、分類対象の文書を、特徴語クラスタに基づいて分類して文書クラスタを生成するとともに、各文書クラスタに分類ラベルを付与し、文書の分類結果を分類ラベルと対応付けてユーザに提示する。したがって、分類されたクラスタの数が多くなりすぎたり、クラスタごとに分類される文書数に大きな偏りがあったりといった弊害を有効に抑制し、文書の分類結果を、ユーザに対して分かり易く提示することができる。
【0071】
また、第1実施形態の文書分類装置によれば、意図表現の対象となる語句から選択された語句を特徴語として抽出し、シソーラスを用いて特徴語をクラスタリングするようにしているので、特定の分野に強く依存する観点の辞書を用いることなく、評判分析を行うことが可能となる。
【0072】
また、第1実施形態の文書分類装置によれば、文書の分類結果を分類ラベルと特徴語とに対応付けてユーザに提示するようにしているので、文書の分類結果を、ユーザに対してより分かり易く提示することができる。さらに、特徴語については、意図表現の種類ごとに区別できる形式で提示することで、文書の分類結果をさらに分かり易く提示することができる。
【0073】
<第2実施形態>
図14は、第2実施形態の文書分類装置を示すブロック図である。なお、第1実施形態と共通の構成については同一の符号を付している。第2実施形態の文書分類装置は、図14に示すように、記憶装置1aと、データ処理装置2aと、入出力装置3aと、を備える。記憶装置1a、データ処理装置2a、および入出力装置3aは、有線または無線により相互に情報の授受が可能に接続されている。なお、記憶装置1a、データ処理装置2a、および入出力装置3aは、単一の情報処理装置により実現されていてもよい。
【0074】
記憶装置1aは、文書記憶部101、意図辞書記憶部102、およびシソーラス記憶部103に加えて、指定文書記憶部104を備える。
【0075】
指定文書記憶部104は、分類対象の文書以外の文書、例えば、文書を分類するための背景知識を含む文書を格納する。この指定文書記憶部104に格納される文書は、分類対象の文書を分類する際に指定される文書である。以下、指定文書記憶部104に格納された文書を指定文書という。
【0076】
図15は、指定文書記憶部104に格納された指定文書の一例を示す図である。指定文書は、ある特定の形態に限定されるものではなく、例えば自然言語で記述された文書である。例えば、ニュースリリース、新聞記事、技術文書などが、指定文書として指定文書記憶部104に格納される。指定文書記憶部104は、指定文書そのものだけでなく、指定文書IDを組にして格納してもよい。図15では、指定文書IDがN1の指定文書と、指定文書IDがN2の指定文書とが指定文書記憶部104に格納された例を示している。
【0077】
指定文書記憶部104には、例えば、ハードディスクやフラッシュメモリなどを用いることができる。
【0078】
データ処理装置2aは、特徴語抽出手段201aと、特徴語クラスタリング手段202aと、文書分類手段203aと、分類ラベル付与手段204aと、を備える。
【0079】
特徴語抽出手段201aは、第1実施形態の特徴語抽出手段201と同様に、意図表現の対象となる語句のうち選択された語句を特徴語として抽出する。ただし、特徴語抽出手段201aは、意図表現の対象となる語句のうち選択された語句だけでなく、指定文書記憶部104が格納する指定文書に含まれる語句も特徴語として抽出する。すなわち、特徴語抽出手段201aは、分類対象の文書に含まれる語句のうち、指定文書にも含まれている語句を、特徴語として抽出する。
【0080】
図16は、図2に示した文書集合に含まれる分類対象の各文書と、図15に示した指定文書とから抽出した特徴語の一例を示す図である。なお、ここでは図2に示したすべての文書が分類対象であるものとする。
【0081】
特徴語抽出手段201aが抽出した特徴語は、例えば、図16に示すように、抽出元の文書を表す文書IDと関連付けて保持される。また、指定文書に含まれる語句であるとして抽出された特徴語は、指定文書に含まれる語句であることを示す情報と関連付けて保持するようにしてもよい。図16に示す例では、文書IDがD1の文書から抽出された特徴語のうち、「パイレーツ・ダイニング」および「禁煙エリア」が、指定文書に含まれる語句として抽出されたものであることが示されている。また、文書IDがD3の文書から抽出された特徴語のうち、「パイレーツ・ダイニング」が、指定文書に含まれる語句として抽出されたものであることが示されている。また、文書IDがD5の文書から抽出された特徴語のうち、「南国ビュッフェ」が、指定文書に含まれる語句として抽出されたものであることが示されている。また、文書IDがD6の文書から抽出された特徴語のうち、「パイレーツ・ダイニング」が、指定文書に含まれる語句として抽出されたものであることが示されている。また、文書IDがD8の文書から抽出された特徴語のうち、「パイレーツ・ダイニング」が、指定文書に含まれる語句として抽出されたものであることが示されている。
【0082】
特徴語クラスタリング手段202aは、第1実施形態の特徴語クラスタリング手段202と同様に、分類対象の文書から抽出された特徴語をクラスタリングする。ただし、特徴語クラスタリング手段202aは、指定文書に含まれる語句として抽出された特徴語については、1つのクラスタにクラスタリングする。図16に示した例では、指定文書に含まれる語句として抽出された特徴語である「パイレーツ・ダイニング」、「南国ビュッフェ」が、それぞれ1つのクラスタにクラスタリングされる。なお、指定文書に含まれる語句として抽出された特徴語であっても、「禁煙エリア」のように、分類対象の文書のみから抽出された特徴語と一致するものについては、第1実施形態で説明した方法でクラスタリングする。
【0083】
文書分類手段203aは、第1実施形態の文書分類手段203と同様に、特徴語クラスタリング手段202aによるクラスタリングの結果である特徴語クラスタに基づいて、分類対象の文書を分類する。ただし、文書分類手段203aは、分類対象の文書に指定文書から抽出された特徴語が出現する場合、その文書を指定文書から抽出された特徴語が属するクラスタに分類する。図16に示した例では、文書IDがD1の文書、文書IDがD3の文書、文書IDがD6の文書、文書IDがD8の文書が、それぞれ「パイレーツ・ダイニング」が属するクラスタに分類される。また、文書IDがD5の文書は、「南国ビュッフェ」が属するクラスタに分類される。
【0084】
分類ラベル付与手段204aは、第1実施形態の分類ラベル付与手段204と同様に、文書が分類されたクラスタである文書クラスタに対して、そのクラスタに属する特徴語を代表する語句を分類ラベルとして付与する。ただし、分類ラベル付与手段204aは、指定文書から抽出された特徴語が属するクラスタについては、指定文書から抽出された特徴語そのものを、分類ラベルとして付与する。
【0085】
図17は、分類ラベル付与手段204aにより付与された分類ラベルの一例を示す図である。図17の例では、指定文書から抽出された特徴語である「パイレーツ・ダイニング」が属するクラスタ(文書クラスタIDがC6のクラスタ)に対しては、「パイレーツ・ダイニング」そのものが分類ラベルとして付与されており、指定文書から抽出された特徴語である「南国ビュッフェ」が属するクラスタ(文書クラスタIDがC7のクラスタ)に対しては、「南国ビュッフェ」そのものが分類ラベルとして付与されている。
【0086】
入出力装置3aは、分類方法選択手段301aと、提示手段302aと、を備える。
【0087】
分類方法選択手段301aは、第1実施形態の分類方法選択手段301と同様に、分類対象の文書の選択を受け付ける。ただし、分類方法選択手段301aは、分類対象の文書の選択だけでなく、文書の分類に用いる指定文書の指定も受け付ける。分類方法選択手段301aは、ユーザによる分類対象の文書の選択と指定文書の指定を受け付けて、どの文書が分類対象として選択され、どの指定文書が指定されたかを明示的にデータ処理装置2aに送信するための機能、例えば送信用のボタンなどを持つ。例えば、ユーザが任意のクエリを入力すると、文書記憶部101に格納された文書集合に含まれる文書のうち、入力されたクエリに対応する文書の集合を分類対象として選択するとともに、指定文書記憶部104に格納された指定文書のうち、入力されたクエリに対応する指定文書を選択して、分類対象として選択した文書や指定文書を明示する情報をデータ処理装置2aに送信するといった方法を用いることができる。この分類方法選択手段301aからの情報がデータ処理装置2aに送信されると、データ処理装置2aの特徴語抽出手段201aが処理を開始する。
【0088】
提示手段302aは、第1実施形態の提示手段302と同様に、文書分類手段203aによる文書の分類結果を、分類ラベル付与手段204aにより付与された分類ラベルと対応付けた情報として、ユーザに提示する。ただし、提示手段302aは、指定文書から抽出された特徴語が属するクラスタについては、そのクラスタが、指定文書から抽出された特徴語が属するクラスタであることを判別できる形式で提示する。指定文書から抽出された特徴語が属するクラスタを判別できる形式で提示する例としては、例えば、分類ラベルに所定のアイコンを併記するといった例が挙げられる。
【0089】
図18−1および図18−2は、提示手段302aによる情報の提示例を示す図である。図18−1および図18−2に示す例は、文書数を付したアイコンと分類ラベルとの組み合わせと、各クラスタに属する特徴語とを対応付けた表示情報を表示するようにした例である。図9−1に示した第1実施形態の提示手段302による情報の提示例と比較すると、「禁煙」、「パイレーツ・ダイニング」、「南国ビュッフェ」の各分類ラベルに対して、これらの分類ラベルが付与されたクラスタが、指定文書から抽出された特徴語が属するクラスタであることを示す旗のアイコンが併記されている。また、図18−2に示す例は、旗のアイコンが併記された分類ラベルが上位に並ぶように、分類結果の並び順を入れ替えた例である。この図18−2に示す例のように、指定文書から抽出された特徴語が属するクラスタを繰り上げたかたちで、分類結果の情報を提示することもできる。
【0090】
以上、具体的な例を挙げながら詳細に説明したように、第2実施形態の文書分類装置によれば、分類対象の文書だけでなく指定文書からも特徴語を抽出し、指定文書から抽出した特徴語は1つのクラスタにクラスタリングする。そして、指定文書から抽出した特徴語が属するクラスタに対しては、指定文書から抽出した特徴語そのものを分類ラベルとして付与し、その分類ラベルが付与されたクラスタが、指定文書から抽出した特徴語が属するクラスタであることを判別できる形式で、文書の分類結果を提示する。したがって、ユーザの意図を反映させたかたちで文書の分類を行うことができるとともに、文書の分類結果を、ユーザに対して分かり易く提示することができる。
【0091】
<第3の実施の形態>
図19は、第3実施形態の文書分類装置を示すブロック図である。なお、第1実施形態と共通の構成については同一の符号を付している。第3実施形態の文書分類装置は、図19に示すように、記憶装置1bと、データ処理装置2bと、入出力装置3bと、を備える。記憶装置1b、データ処理装置2b、および入出力装置3bは、有線または無線により相互に情報の授受が可能に接続されている。なお、記憶装置1b、データ処理装置2b、および入出力装置3bは、単一の情報処理装置により実現されていてもよい。
【0092】
記憶装置1bは、文書記憶部101、意図辞書記憶部102、およびシソーラス記憶部103に加えて、観点辞書記憶部105を備える。
【0093】
観点辞書記憶部105は、意図表現の対象となる観点の辞書を格納する。観点の辞書は、文書の分類のための観点表現を記述している。観点表現とは、文書分析の視点を表す表現である。
【0094】
図20は、観点辞書記憶部105に格納された観点の辞書の一例を示す図である。観点辞書記憶部105は、観点表現そのものだけでなく、観点表現の種類を組にした観点の辞書を格納してもよい。図20では、「料金」の観点表現の種類に対して「料金」、「値段」、「価格」の観点表現、「サービス」の観点表現の種類に対して「サービス」、「従業員」、「接客」の観点表現、「立地」の観点表現の種類に対して「立地」、「駅前」、「駅近」の観点表現が、観点の辞書として観点辞書記憶部105に格納された例を示している。
【0095】
観点辞書記憶部105には、例えば、ハードディスクやフラッシュメモリなどを用いることができる。
【0096】
データ処理装置2bは、第1実施形態の特徴語抽出手段201に代えて特徴語抽出手段201bを備えるとともに、第1実施形態の分類ラベル付与手段204に代えて分類ラベル付与手段204bを備える。
【0097】
特徴語抽出手段201bは、第1実施形態の特徴語抽出手段201と同様に、意図表現の対象となる語句のうち選択された語句を特徴語として抽出する。ただし、特徴語抽出手段201bは、意図表現の対象となる語句のうち、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現を、特徴語として優先的に抽出する。
【0098】
図21は、図20に示した観点表現を用いて、図2に示した文書集合に含まれる分類対象の各文書から抽出した特徴語の一例を示す図である。なお、ここでは図2に示したすべての文書が分類対象であり、図20に示した観点表現のすべてを用いて文書を分類するものとする。
【0099】
特徴語抽出手段201bが抽出した特徴語は、例えば、図21に示すように、抽出元の文書を表す文書IDと関連付けて保持される。また、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語は、観点表現の種類と関連付けて保持される。図21に示す例では、文書IDがD1の文書から抽出された特徴語のうち、「サービス」という種類に含まれる「接客」が、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語であることが示されている。また、文書IDがD2の文書から抽出された特徴語のうち、「サービス」という種類に含まれる「従業員」および「接客」が、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語であることが示されている。また、文書IDがD6の文書から抽出された特徴語のうち、「料金」という種類に含まれる「料金」と、「立地」という種類に含まれる「駅前」とが、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語であることが示されている。また、文書IDがD7の文書や文書IDがD8の文書から抽出された特徴語のうち、「料金」という種類に含まれる「料金」が、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語であることが示されている。
【0100】
分類ラベル付与手段204bは、第1実施形態の分類ラベル付与手段204と同様に、文書が分類されたクラスタである文書クラスタに対して、そのクラスタに属する特徴語を代表する語句を分類ラベルとして付与する。ただし、分類ラベル付与手段204bは、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタについては、その観点表現の種類を表す語句を分類ラベルとして優先的に選択する。
【0101】
図22は、分類ラベル付与手段204bにより付与された分類ラベルの一例を示す図である。図22の例では、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現である「接客」や「従業員」が属するクラスタ(文書クラスタIDがC1のクラスタ)に対しては、「接客」や「従業員」の種類を表す「サービス」という語句が、分類ラベルとして付与されている。また、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現である「料金」が属するクラスタ(文書クラスタIDがC2のクラスタ)に対しては、「料金」の種類を表す「料金」という語句が、分類ラベルとして付与されている。また、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現である「駅前」が属するクラスタ(文書クラスタIDがC5のクラスタ)に対しては、「駅前」の種類を表す「立地」という語句が、分類ラベルとして付与されている。
【0102】
入出力装置3bは、分類方法選択手段301bと、提示手段302bと、を備える。
【0103】
分類方法選択手段301bは、第1実施形態の分類方法選択手段301と同様に、分類対象の文書の選択を受け付ける。ただし、分類方法選択手段301bは、分類対象の文書の選択だけでなく、観点辞書記憶部105が保持する観点表現の種類のうち、文書の分類に用いる観点表現の種類の選択も受け付ける。分類方法選択手段301bは、ユーザによる分類対象の文書の選択と観点表現の種類の選択を受け付けて、どの文書が分類対象として選択され、文書の分類に用いる観点表現の種類としてどの種類が選択されたかを明示的にデータ処理装置2bに送信するための機能、例えば送信用のボタンなどを持つ。例えば、ユーザが任意のクエリを入力すると、文書記憶部101に格納された文書集合に含まれる文書のうち、入力されたクエリに対応する文書の集合を分類対象として選択するとともに、観点辞書記憶部105が保持する観点表現の種類のうち、入力されたクエリに対応する観点表現の種類を選択して、分類対象として選択した文書や文書の分類に用いる観点表現の種類を明示する情報をデータ処理装置2bに送信するといった方法を用いることができる。この分類方法選択手段301bからの情報がデータ処理装置2bに送信されると、データ処理装置2bの特徴語抽出手段201bが処理を開始する。
【0104】
提示手段302bは、第1実施形態の提示手段302と同様に、文書分類手段203による文書の分類結果を、分類ラベル付与手段204bにより付与された分類ラベルと対応付けた情報として、ユーザに提示する。ただし、提示手段302bは、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタについては、そのクラスタが、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタであることを判別できる形式で提示する。観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタを判別できる形式で提示する例としては、例えば、分類ラベルに所定のアイコンを併記するといった例が挙げられる。
【0105】
図23−1乃至図23−3は、提示手段302bによる情報の提示例を示す図である。図23−1乃至図23−3に示す例は、文書数を付したアイコンと分類ラベルとの組み合わせと、各クラスタに属する特徴語とを対応付けた表示情報を表示するようにした例である。図9−1に示した第1実施形態の提示手段302による情報の提示例と比較すると、「予約、サービス」、「料金、値段」、「その他、立地、印象、空調」の各分類ラベルに対して、これらの分類ラベルが付与されたクラスタが、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタであることを示す眼鏡のアイコンが併記されている。また、図23−2に示す例は、眼鏡のアイコンが併記された分類ラベルが上位に並ぶように、分類結果の並び順を入れ替えた例である。この図23−2に示す例のように、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタを繰り上げたかたちで、分類結果の情報を提示することもできる。また、図23−3に示す例は、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタのみを表した提示例である。特徴語抽出手段201bが、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語のみを抽出する場合は、図23−3に示す例のように分類結果の情報が提示される。
【0106】
以上、具体的な例を挙げながら詳細に説明したように、第3実施形態の文書分類装置によれば、分類対象の文書に含まれる意図表現の対象となる語句のうち、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する語句を、特徴語として優先的に抽出する。そして、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタに対しては、その観点表現の種類を表す語句を分類ラベルとして付与し、その分類ラベルが付与されたクラスタが、観点辞書記憶部105が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタであることを判別できる形式で、文書の分類結果を提示する。したがって、ユーザの意図を反映させたかたちで文書の分類を行うことができるとともに、文書の分類結果を、ユーザに対して分かり易く提示することができる。
【0107】
<第4実施形態>
図24は、第4実施形態の文書分類装置を示すブロック図である。なお、第1実施形態と共通の構成については同一の符号を付している。第4実施形態の文書分類装置は、図24に示すように、記憶装置1cと、データ処理装置2と、入出力装置3と、を備える。データ処理装置2および入出力装置3は、第1実施形態のものと同様である。記憶装置1c、データ処理装置2、および入出力装置3は、有線または無線により相互に情報の授受が可能に接続されている。なお、記憶装置1c、データ処理装置2、および入出力装置3は、単一の情報処理装置により実現されていてもよい。
【0108】
記憶装置1cは、第1実施形態の文書記憶部101に代えて、文書記憶部101cを備える。
【0109】
文書記憶部101cは、意図表現ごとに文書要素に分離されている構造化文書の文書集合を、分類の対象となる文書集合として格納する。
【0110】
図25は、文書記憶部101cに格納された文書集合の一例を示す図である。文書集合に含まれる構造化文書は、例えば、Webページ文書、業務上作成された文書、特許公報などの文書が、意図表現ごとに文書要素に分離されたかたちで格納される。文書記憶部101cは、構造化文書そのものだけでなく、文書IDを組にして格納してもよい。図25では、文書IDがD1の構造化文書から文書IDがD3の構造化文書までを含む文書集合が文書記憶部101cに格納された例を示している。文書IDがD1の構造化文書は、「広い」、「取れない」、「いい」の意図表現ごとに文書要素を持つ。また、文書IDがD2の構造化文書は、「笑顔」、「いい」、「おいしい」、「良心的」、「イライラ」の意図表現ごとに文書要素を持つ。また、文書IDがD3の構造化文書は、「多い」の意図表現に対応した文書要素を持つ。
【0111】
文書記憶部101cには、例えば、ハードディスクやフラッシュメモリなどを用いることができる。
【0112】
第4実施形態の文書分類装置において、データ処理装置2の特徴語抽出手段201は、第1実施形態と同様に、文書集合に含まれる分類対象の各文書から意図表現の対象となる語句を抽出し、意図表現の対象となる語句の中から、予め定めた基準に従って選択された語句を特徴語として抽出する。このとき、第4実施形態では、分類対象の文書が、意図表現ごとに文書要素に分離された構造化文書であるため、特徴語抽出手段201は各文書の文書要素から特徴語を抽出すればよく、処理が簡便になる。
【0113】
以上のように、第4実施形態の文書分類装置によれば、分類対象の文書が構造化文書として文書記憶部101cに格納されているので、第1実施形態の効果に加えて、分類対象の文書から特徴語を抽出する処理を簡便に行って、文書の分類を効率良く行うことができるという効果が得られる。
【0114】
以上説明した各実施形態において、データ処理装置2,2a,2bが備える上述した各機能は、例えば、データ処理装置2,2a,2bが所定のプログラムを実行することにより実現できる。このときのデータ処理装置2,2a,2bのハードウェア構成について、図26を用いて説明する。図26は、データ処理装置2,2a,2bのハードウェア構成例を示す説明図である。
【0115】
データ処理装置2,2a,2bは、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、HDD(Hard Disk Drive)、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。
【0116】
上記のようなハードウェア構成を有するデータ処理装置2,2a,2bで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
【0117】
また、データ処理装置2,2a,2bで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、データ処理装置2,2a,2bで実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0118】
また、データ処理装置2,2a,2bで実行されるプログラムを、データ処理装置2,2a,2bのROM52等に予め組み込んで提供するように構成してもよい。
【0119】
データ処理装置2,2a,2bで実行されるプログラムは、データ処理装置2,2a,2bの各手段(特徴語抽出手段201(201a,201b)、特徴語クラスタリング手段202(202a)、文書分類手段203(203a)、分類ラベル付与手段204(204a,204b)など)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、CPU51(プロセッサ)が記憶媒体からプログラムを読み出して実行することにより、上記の各手段が主記憶装置上にロードされ、上記の各手段が主記憶装置上に生成されるようになっている。
【0120】
以上述べた少なくとも一つの実施形態の文書分類装置によれば、分類されたクラスタの数が多くなりすぎたり、クラスタごとに分類される文書数に大きな偏りがあったりといった弊害を有効に抑制し、文書の分類結果を、ユーザに対して分かり易く提示することができる。
【0121】
なお、以上述べた各実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0122】
1,1a,1b,1c 記憶装置
2,2a,2b データ処理装置
3,3a,3b 入出力装置
101,101c 文書記憶部
102 意図辞書記憶部
103 シソーラス記憶部
104 指定文書記憶部
105 観点辞書記憶部
201,201a,201b 特徴語抽出手段
202,202a 特徴語クラスタリング手段
203,203a 文書分類手段
204,204a,204b 分類ラベル付与手段
301,301a,301b 分類方法選択手段
302,302a,302b 提示手段

【特許請求の範囲】
【請求項1】
文書集合に含まれる文書から特徴語を抽出する特徴語抽出手段と、
抽出した前記特徴語を、木構造を有するシソーラスの部分木を構成する複数のクラスタであって、一のクラスタに属する前記特徴語が出現する前記文書の数と、他のクラスタに属する前記特徴語が出現する前記文書の数との差が、予め定めた基準値以下となる複数のクラスタにクラスタリングする特徴語クラスタリング手段と、
前記文書集合に含まれる前記文書を、該文書に出現する前記特徴語が属するクラスタに分類する文書分類手段と、
前記複数のクラスタのそれぞれに、各クラスタに属する前記特徴語を代表する語句である分類ラベルを付与する分類ラベル付与手段と、
前記文書の分類結果を、分類されたクラスタに付与された前記分類ラベルと対応付けて提示する提示手段と、を備えることを特徴とする文書分類装置。
【請求項2】
前記特徴語抽出手段は、意図表現の対象となる語句から、予め定めた基準に従って選択された語句を、前記特徴語として抽出することを特徴とする請求項1に記載の文書分類装置。
【請求項3】
前記特徴語抽出手段は、意図表現の対象となる語句から、出現頻度に基づいて計算される重みが所定値以上となる語句を、前記特徴語として抽出することを特徴とする請求項2に記載の文書分類装置。
【請求項4】
前記提示手段は、前記文書の分類結果を、分類されたクラスタに付与された前記分類ラベルと、分類されたクラスタに属する前記特徴語とに対応付けて提示することを特徴とする請求項2に記載の文書分類装置。
【請求項5】
前記提示手段は、前記文書の分類結果に対応付けて提示する前記特徴語を、該特徴語の抽出に用いた前記意図表現の種類ごとに区別できる形式で提示することを特徴とする請求項4に記載の文書分類装置。
【請求項6】
前記特徴語抽出手段は、前記文書集合に含まれる前記文書以外の指定された文書である指定文書から前記特徴語をさらに抽出し、
前記特徴語クラスタリング手段は、前記指定文書から前記特徴語が抽出された場合、1つの前記指定文書から抽出された前記特徴語を1つのクラスタにクラスタリングし、
前記文書分類手段は、前記文書集合に含まれる前記文書に前記指定文書から抽出された前記特徴語が出現する場合、該文書を前記指定文書から抽出された前記特徴語が属するクラスタに分類することを特徴とする請求項1に記載の文書分類装置。
【請求項7】
意図表現の対象となる観点の辞書を格納する観点辞書記憶手段をさらに備え、
前記特徴語抽出手段は、意図表現の対象となる語句のうち、前記観点の辞書に含まれる語句を、前記特徴語として抽出することを特徴とする請求項2に記載の文書分類装置。
【請求項8】
前記文書集合に含まれる文書は、意図表現ごとに文書要素に分離された構造化文書であり、
前記特徴語抽出手段は、前記文書要素から前記特徴語を抽出することを特徴とする請求項2に記載の文書分類装置。
【請求項9】
前記特徴語クラスタリング手段は、前記シソーラスにおいて1つの部分木を構成しない複数の前記特徴語を1つのクラスタにクラスタリングし、
前記分類ラベル付与手段は、前記シソーラスにおいて1つの部分木を構成しない複数の前記特徴語が属するクラスタに対して、該クラスタがシソーラスの1つの部分木を構成しない複数の前記特徴語の集合であることを表す分類ラベルを付与することを特徴とする請求項1に記載の文書分類装置。
【請求項10】
文書集合に含まれる文書から特徴語を抽出するステップと、
抽出した前記特徴語を、木構造を有するシソーラスの部分木を構成する複数のクラスタであって、一のクラスタに属する前記特徴語が出現する前記文書の数と、他のクラスタに属する前記特徴語が出現する前記文書の数との差が、予め定めた基準値以下となる複数のクラスタにクラスタリングするステップと、
前記文書集合に含まれる前記文書を、該文書に出現する前記特徴語が属するクラスタに分類するステップと、
前記複数のクラスタのそれぞれに、各クラスタに属する前記特徴語を代表する語句である分類ラベルを付与するステップと、
前記文書の分類結果を、分類されたクラスタに付与された前記分類ラベルと対応付けて提示するステップと、を備えることを特徴とする文書分類方法。
【請求項11】
コンピュータに、
文書集合に含まれる文書から特徴語を抽出する機能と、
抽出した前記特徴語を、木構造を有するシソーラスの部分木を構成する複数のクラスタであって、一のクラスタに属する前記特徴語が出現する前記文書の数と、他のクラスタに属する前記特徴語が出現する前記文書の数との差が、予め定めた基準値以下となる複数のクラスタにクラスタリングする機能と、
前記文書集合に含まれる前記文書を、該文書に出現する前記特徴語が属するクラスタに分類する機能と、
前記複数のクラスタのそれぞれに、各クラスタに属する前記特徴語を代表する語句である分類ラベルを付与する機能と、
前記文書の分類結果を、分類されたクラスタに付与された前記分類ラベルと対応付けて提示する機能と、を実現させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3−1】
image rotate

【図3−2】
image rotate

【図4】
image rotate

【図5−1】
image rotate

【図5−2】
image rotate

【図6】
image rotate

【図7−1】
image rotate

【図7−2】
image rotate

【図8−1】
image rotate

【図8−2】
image rotate

【図9−1】
image rotate

【図9−2】
image rotate

【図9−3】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18−1】
image rotate

【図18−2】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23−1】
image rotate

【図23−2】
image rotate

【図23−3】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate


【公開番号】特開2013−65097(P2013−65097A)
【公開日】平成25年4月11日(2013.4.11)
【国際特許分類】
【出願番号】特願2011−202281(P2011−202281)
【出願日】平成23年9月15日(2011.9.15)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】