説明

文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体

【課題】大量の文書データから特異な意見を抽出すること。
【解決手段】文書処理装置は、複数の文書データのそれぞれについて特徴データを求める特徴化部202と、特徴化部202によって求められた特徴データに基づいて、複数の文書データを、それぞれが類似する文書データの集合である複数のクラスタにクラスタリングするクラスタリング部204と、クラスタリング部204によって得られた複数のクラスタのうち、所定の類似度に達しないクラスタを抽出する抽出部207と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、文書データをクラスタリングし、クラスタごとに文書データを分類する文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体に関する。
【背景技術】
【0002】
従来、類似性の高い文書を同一クラスタに集めるために、クラスタリングを実行していた。また、より適切にクラスタリングを実行するために、再帰的にクラスタリングを実行するものも存在していた。たとえば、文書データをクラスタリング対象に応じたクラスタ数に分類できる文書クラスタリングシステムを提供するにあたり、類似性の高いクラスタを安定クラスタとし、それ以外のクラスタに属した文書を安定クラスタになるまで、再帰的にクラスタリングを実行しているものがある(たとえば、特許文献1参照。)。
【0003】
【特許文献1】特開2002−183171号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、この方法は、類似性の高い文書を同一クラスタに集めることを目的としている。すなわち、複数の文書をクラスタごとに高い精度でクラスタリングすることを目的としている。このように、複数の文書を適切に分類することを意図しているものはあったが、文書を最終的にクラスタリングすることが前提となっており、クラスタリングされない、特異な意見を抽出することを目的としているものはなかった。
【0005】
この発明は、上述した従来技術による問題点を解消するため、大量の文書データから特異な意見を抽出することができる文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するため、請求項1の発明にかかる文書処理装置は、複数の文書データのそれぞれについて特徴データを求める特徴化手段と、前記特徴化手段によって求められた特徴データに基づいて、前記複数の文書データを、それぞれが類似する文書データの集合である複数のクラスタにクラスタリングするクラスタリング手段と、前記クラスタリング手段によって得られた複数のクラスタのうち、所定の類似度に達しないクラスタを抽出する抽出手段と、を備えることを特徴とする。
【0007】
この請求項1の発明によれば、クラスタリングした結果、所定の類似度に達しないクラスタを抽出することができ、それにより、手作業で文書データを分類することなく、特異な文書データを含むクラスタを提示することができる。たとえば、アンケート調査などで、変わった意見を含む文書が含まれるクラスタを取り出すことができる。
【0008】
また、請求項2の発明にかかる文書処理装置は、請求項1に記載の発明において、前記クラスタリング手段によって得られたクラスタの類似度を算出する類似度算出手段を備え、前記抽出手段は、前記類似度算出手段によって算出された類似度が、所定の類似度に達しないクラスタを抽出することを特徴とする。
【0009】
この請求項2の発明によれば、所定の類似度に達しないクラスタを抽出することができるので、このクラスタに含まれる特異な意見を含む文書データを取り出すことができる。
【0010】
また、請求項3の発明にかかる文書処理装置は、請求項1または2に記載の発明において、前記特徴データは、前記文書データに含まれる所定の単語の出現頻度であり、前記類似度は、前記出現頻度の傾向にしたがった類似の度合いであることを特徴とする。
【0011】
請求項3の発明によれば、単語の出現頻度の傾向が異なる文書データを含むクラスタを抽出し、このクラスタに含まれる文書データを特異な意見を含むものであるとして提示することができる。
【0012】
また、請求項4の発明にかかる文書処理装置は、請求項1または2に記載の発明において、前記特徴データは、前記文書データに含まれる所定の単語の出現頻度をもとに求められる統計的情報であり、前記類似度は、前記統計的情報の傾向にしたがった類似の度合いであることを特徴とする。
【0013】
請求項4の発明によれば、単語の出現頻度が統計的に異なる傾向の文書データを含むクラスタを抽出することができる。それにより、より高い精度で傾向が異なる文書データを抽出し、抽出された文書データを特異な意見を含むものであるとして提示することができる。
【0014】
また、請求項5の発明にかかる文書処理装置は、請求項1〜4のいずれか一つに記載の発明において、クラスタリングの実行条件を設定する設定手段を備え、前記クラスタリング手段は、前記設定手段によって設定された実行条件を満たす場合はクラスタリングを実行し、該実行条件を満たさない場合はクラスタリングを終了することを特徴とする。
【0015】
請求項5の発明によれば、設定された実行条件を満たさない場合はクラスタリングを終了するので、たとえば必要なデータが得られた場合やクラスタリングを継続するのに適さない場合など、クラスタリングを終了するのが望ましい場合に早期にクラスタリングを終了することができ、早期に処理を終了することができる。
【0016】
また、請求項6の発明にかかる文書処理装置は、請求項5に記載の発明において、前記実行条件は、得られたクラスタが所定の類似度に達していることであり、前記クラスタリング手段は、該クラスタが所定の類似度に達していない場合に、クラスタリングを終了することを特徴とする。
【0017】
請求項6の発明によれば、クラスタが所定の類似度に達しない時点でクラスタリングを終了するので、不要なクラスタリング処理を待つことなく、所望の特異な意見を含む文書データを得ることができる。
【0018】
また、請求項7の発明にかかる文書処理装置は、請求項1〜6のいずれか一つに記載の発明において、前記抽出手段は、前記クラスタリング手段によってクラスタリングされた複数の文書データのうち、該文書データがクラスタリングされたクラスタに対して所定の類似度に達しない文書データを抽出することを特徴とする。
【0019】
この請求項7の発明によれば、クラスタリングした結果、クラスタに対して所定の類似度に達しない文書データを抽出することができ、それにより、手作業で文書データを分類することなく、特異な文書データを提示することができる。
【0020】
請求項8の発明にかかる文書処理方法は、複数の文書データのそれぞれについて特徴データを求める特徴化工程と、前記特徴化工程によって求められた特徴データに基づいて、前記複数の文書データを、それぞれが類似する文書データの集合である複数のクラスタにクラスタリングするクラスタリング工程と、前記クラスタリング工程によって得られた複数のクラスタのうち、所定の類似度に達しないクラスタを抽出する抽出工程とを含むことを特徴とする。
【0021】
この請求項8の発明によれば、クラスタリングした結果、所定の類似度に達しないクラスタを抽出することができ、それにより、手作業で文書データを分類することなく、特異な文書データを含むクラスタを提示することができる。たとえば、アンケート調査などで、変わった意見を含む文書が含まれるクラスタを取り出すことができる。
【0022】
請求項9の発明にかかる文書処理プログラムによれば、請求項8に記載の文書処理方法をコンピュータに実行させることができる。
【0023】
また、請求項10の発明にかかるコンピュータに読み取り可能な記録媒体は、請求項9に記載の文書処理プログラムをコンピュータが読み出して実行することができる。
【発明の効果】
【0024】
本発明にかかる文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体によれば、大量の文書データから特異な意見を抽出することができる。また、クラスタリングにより大量の文書データから特異な意見を抽出することができるので、所望の文書の抽出にあたり、すべての文書データに目を通す手間を省くことができるという効果を奏する。
【発明を実施するための最良の形態】
【0025】
以下に添付図面を参照して、この発明による文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体の実施の形態を詳細に説明する。図1は、この発明の実施の形態による文書処理装置のハードウエア構成の一例を示すブロック図である。図中、CPU101は装置全体を制御する。ROM102は基本入出力プログラムを記憶する。RAM103はCPU101のワークエリアとして使用される。
【0026】
また、HDD(ハードディスクドライブ)104はCPU101の制御にしたがってHD(ハードディスク)105に対するデータのリード/ライトを制御する。HD105はHDD104の制御にしたがって書き込まれたデータを記憶する。また、FDD(フレキシブルディスクドライブ)106はCPU101の制御にしたがってFD(フレキシブルディスク)107に対するデータのリード/ライトを制御する。FD107は、着脱自在であり、FDD106の制御にしたがって書き込まれたデータを記憶する。また、CD−RWドライブ108はCPU101の制御にしたがってCD−RW(または、CD−R、CD−ROM)109に対するデータのリード/ライトを制御する。CD−RW109は着脱自在であり、CD−RWドライブ108の制御にしたがって書き込まれたデータを記憶する。
【0027】
また、ディスプレイ110はカーソル、メニュー、ウィンドウ、あるいは文字や画像などの各種データを表示する。キーボード111は文字、数値、各種指示などの入力のための複数のキーを備える。マウス112は各種指示の選択や実行、処理対象の選択、マウスポインタの移動などを行う。また、ネットワークI/F113は、通信ケーブル114を介してLANやWANなどのネットワークに接続され、当該ネットワークとCPU101とのインターフェースとして機能する。バス100は上記各部を接続する。
【0028】
図2は、この発明の実施の形態にかかる文書処理装置の構成を機能的に示すブロック図である。文書処理装置は、文書データベース201、特徴化部202、辞書データ203、クラスタリング部204、条件入力部205、類似度算出部206、抽出部207によって構成され、この構成により特異クラスタ208および特異文書209が出力される。以上の各構成は、図1に示したCPU101が、ROM102からプログラムを読み出しRAM103をワークエリアとして使用することにより実現される。
【0029】
文書データベース201は、複数の文書データを記憶する。特徴化部202は、文書データベース201から文書データを読み出し、読み出した文書データについて特徴データを求める。特徴データは、文書データのクラスタリングに用いられる各文書データの特徴を示すデータである。たとえば、単語の出現頻度とすることができる。また、出現頻度を文書データの長さで除算して正規化した値や、出現頻度を文書データ内での出現頻度の総和で除算して正規化した値とすることができる。その他、出現頻度をもとに求められる様々な統計的情報を使用することもできる。
【0030】
辞書データ203は、特徴化部202が文書データに含まれる単語の出現頻度を求める場合の、出現頻度を調べる単語を記憶する辞書である。特徴化部202は、辞書データ203から単語を読み出して、読み出した単語の出現頻度を文書データについて調べることにより、文書データの特徴データを求めることができる。
【0031】
クラスタリング部204は、特徴化部202によって求められた特徴データを用いて、複数のクラスタにクラスタリングする。各文書データは、特徴データが示す傾向にしたがって分けられ、この複数のクラスタのいずれかに分類される。
【0032】
条件入力部205は、クラスタリング部204によって実行されるクラスタリングの条件を入力する。クラスタリングの条件には、(1)クラスタ内の文書データの類似性を判定する類似度の閾値、(2)クラスタ内の文書データの類似性を判定する類似度が低いものから、再帰クラスタリングの対象とする場合のクラスタ数、(3)代表タームの有無、が挙げられる。クラスタリングの条件には、再帰クラスタリング実行条件およびクラスタリング終了条件のバリエーションが含まれる。
【0033】
(1)クラスタ内の文書データの類似性を判定する類似度の閾値について説明する。再帰クラスタリング実行条件として、たとえば、類似度が0.9未満のクラスタを対象とすることができる。また、クラスタリング終了条件として、たとえば、類似度が0.8未満のクラスタが得られるか類似度が計測できなくなった場合とすることができる。
【0034】
(2)クラスタ内の文書データの類似性を判定する類似度が低いものから、再帰クラスタリングの対象とする場合のクラスタ数について説明する。再帰クラスタリング実行条件として、たとえば、類似度が最も低いクラスタと2番目に低いクラスタを対象とすることができる。また、クラスタリング終了条件として、たとえば、各クラスタ内の文書データ数平均が3以下になった場合とすることができる。
【0035】
(3)代表タームの有無について説明する。再帰クラスタリング実行条件として、たとえば、各クラスタの代表タームを含まない文書データすべてを対象とすることができる。また、終了条件として、たとえば、代表ターム10位まで含めても代表タームが表れない文書データが30%以上占めるクラスタができた場合とすることができる。
【0036】
類似度算出部206は、クラスタリング部204でクラスタリングされた各クラスタにおいて、該当する文書データのそのクラスタに対する類似度を算出する。それにより、各クラスタの類似度を求めることができる。または、クラスタにおける文書データ自体の類似度を求めることもできる。抽出部207は、特異クラスタ208を抽出する。特異クラスタ208は、クラスタリングによって得られたクラスタのうち、類似度算出部206によって算出された類似度が所定の値より小さいクラスタである。文書データの類似度を求める場合、クラスタリングされた文書データのうち、類似度算出部206で算出された類似度が所定の値よりも小さい文書データを、特異文書209として抽出する。
【0037】
従来のクラスタリングは、類似性の高いものをまとめ上げるものであるが、類似性の高いものをまとめるということは、逆に類似性の低いものも発生するということである。そこで、この実施の形態では、クラスタリングを再帰的に実行して特異な意見を抽出する。他の文書との類似性を元にクラスタを作成し、類似性の低いクラスタだけを再帰的にクラスタリングすることにより、どの文書とも類似しない特異な意見を含む文書を提示することができる。
【0038】
図3は、文書と特徴データの関係を説明する説明図である。文書データ301〜305は、文書データベース201に記憶されている。まず、特徴化部202は、文書データベース201から文書データ301〜305を読み出し、読み出した文書データ301〜305から特徴データを求める。
【0039】
ここで、特徴データとして単語の出現頻度を例にあげて説明する。図3に示すように、単語1〜5の出現頻度を文書データ301〜305のそれぞれについて検索する。ここでは5種類の単語の頻度を特徴データとするが、出現頻度を検索する単語の数は6以上としてもよい。また、文書データ中に検索する単語が1つもない場合は、その単語の出現頻度は0となる。
【0040】
図3に示すように、文書データ301には、単語1が13、単語2が1、単語3が4、単語4が5、単語5が2、含まれる。文書データ302には、単語1が12、単語2が2、単語3が6、単語4が4、単語5が1、含まれる。文書データ303には、単語1が14、単語2が4、単語3が5、単語4が4、単語5が4、含まれる。文書データ304には、単語1が6、単語2が3、単語3が15、単語4が6、単語5が1、含まれる。文書データ305には、単語1が3、単語2が2、単語3が5、単語4が1、単語5が15、含まれる。
【0041】
なお、特徴データは、出現頻度だけではなく出現頻度を文書データの長さで除算して正規化した値や、出現頻度を文書データ内での出現頻度の総和で除算して正規化した値とすることができる。その他、出現頻度をもとに求められる様々な統計的情報を使用することもできる。このように与えられた特徴データに基づいてクラスタリングを実行する。
【0042】
クラスタリングについて説明する。クラスタリングは、似ている文書データ同士は同じ振る舞いをするという前提のもとに、似ているデータは同じクラスタに、似ていないデータは別なクラスタにとデータを分類する分析である。クラスタは、そのクラスタ内のほかのデータとは似ているが、違うクラスタ内のデータとは似ていないようなデータの集合である。このようにクラスタリングを実行した結果、文書データ301〜305を分類することができる。
【0043】
図4は、文書データをクラスタリングした場合を説明する説明図である。文書データ301〜305は、クラスタ401または402に分類される。たとえば、文書データ301、文書データ302および文書データ303が含まれるクラスタ401、文書データ304および文書データ305が含まれるクラスタ402に分けることができる。ここで、クラスタ401は類似度の高いクラスタであり、クラスタ402は類似度の低いクラスタである。この類似度の低いクラスタ402が、特異な意見を含んでいるクラスタとして提示される。
【0044】
以上のクラスタリングを実行するにあたっては、k−means法が用いられる。k−means法では、与えられたk個のクラスタにデータが分割される。ここで、クラスタの中心値をそのクラスタを代表する値とする。クラスタの中心値との距離を計算することで、データがどのクラスタに属するかを判断する。そして、各データを最も近いクラスタにデータを配分する。
【0045】
そして、全ての文書データをクラスタに配分し終わったあと、クラスタの中心値を更新する。クラスタの中心値は全ての点の平均値である。上記の操作を、全てのデータとデータが属するクラスタの中心値との距離の合計が最小になるまで(更新されなくなるまで)繰り返す。
【0046】
k−means法のアルゴリズムを簡単に述べると次のようになっている。
1 K個の初期クラスタ中心を決める
2 すべてのデータを最も近いクラスタ中心のクラスタに分類する
3 新たにできたクラスタの重心をクラスタ中心とする
4 新たなクラスタ中心がすべて以前と同じであれば終了し、そうでなければ2に戻る
このように、徐々に局所最適解に収束していくアルゴリズムである。
【0047】
図5は、文書データをクラスタリングした場合のクラスタと類似度を説明する説明図である。図4で説明したように、文書データ301〜305について単語1〜5の出現頻度が求められたので、この出現頻度を特徴データとして用いてクラスタリングを実行する。その結果、文書データ301〜303はクラスタ401に、文書データ304と305はクラスタ402に分類される。
【0048】
ここで、クラスタ401においては、文書データ301〜303の単語の出現頻度の観点から見た類似度は高い値となり、たとえば類似度93%となる。一方クラスタ402においては、文書データ304と305の単語の出現頻度の観点から見た類似度は低く、たとえば類似度55%となる。ここで、類似度の低いクラスタであるクラスタ402が抽出される。なお、ここでは説明のためにクラスタ401およびクラスタ402に分けられる場合について説明したが、3つ以上の多くのクラスタに分けられることが考えられる。そして、この複数のクラスタのうち、類似度が低いクラスタが抽出される。また、類似度は文書データごとに求め、類似度の低い文書データを抽出することもできる。
【0049】
図6は、この実施の形態の処理を説明するフローチャートである。まず、クラスタリング実行の条件を設定する(ステップS601)。すなわち、再帰クラスタリングを実行したり、クラスタリングを終了したりする場合の条件を設定する。この条件は、ユーザからの入力に基づいて設定される。
【0050】
再帰クラスタリングの実行条件として、(1)クラスタ内の文書データの類似性を判定する類似度の閾値、(2)クラスタ内の文書データの類似性を判定する類似度が低いものから、再帰クラスタリングの対象とするクラスタ数、(3)代表タームの有無、を設定することができる。
【0051】
クラスタリングの終了条件として、類似度の閾値を設定することができる。なお、クラスタリングの終了条件は、再帰クラスタリングの実行条件より優先される。たとえば、再帰クラスタリングの実行条件として、クラスタ内の文書データの類似性を判定する類似度が0.9未満のクラスタを対象とする、という条件を設定することができる。また、クラスタリングの終了条件として、類似度が0.8未満のクラスタが得られるか、類似度が計測できない場合にクラスタリングを終了する、という条件を設定することができる。
【0052】
次に、文書データ301〜305について特徴データを求める(ステップS602)。特徴データとしては、図3で説明した単語1〜5の出現頻度を用いることができる。出現頻度を用いる場合、辞書データ203に記憶される単語1〜5のそれぞれについて文書データ301〜305について出現頻度を求め、この値を特徴データとする。
【0053】
次に、クラスタリングを実行する(ステップS603)。文書データ301〜305について特徴データが求められているので、この特徴データによって示される傾向を求めることにより、文書データ301〜305をクラスタ401、402に分類する。
【0054】
次に、クラスタリング結果について、ステップS601で設定したクラスタリングの終了条件を満たしているか否かを判定する(ステップS604)。終了条件を満たしていない場合(ステップS604:No)、ステップS605に進む。終了条件を満たしている場合(ステップS604:Yes)、ステップS606に進む。
【0055】
次に、クラスタリング結果について、ステップS601で設定した再帰クラスタリングの実行条件を満たしているか否かを判定する(ステップS605)。実行条件を満たしている場合(ステップS605:Yes)、ステップS603に戻り、該当クラスタ内の文書データについて、クラスタリングする。実行条件を満たしていない場合(ステップS605:No)、終了条件に最も近いクラスタの情報に基づいてステップS606を実行する。
【0056】
ステップS604の条件を満たしている特異文書と対応クラスタを、「特異な意見を含んでいる可能性が高いもの」として提示する(ステップS606)。ステップS605の条件を満たさなかったものについては、終了条件に最も近いクラスタとそのクラスタ内文書データを「特異な意見を含んでいる可能性があるもの」として提示する。たとえば、クラスタ内文書データから特異な意見を含んでいるものが確認された場合、今までにはなかったような視点でのサービスの要望を発見することができる。
【0057】
特異な意見を含む文書を抽出する他の基準について説明する。まず、語彙空間が異なる意見を抽出することにより、特異な意見を抽出することもできる。たとえば、類義語辞書を用いて、各タームに分野を割り振ることもできる。その結果、今までにない分野の組み合わせが見られる意見が抽出されるので、特異な意見を抽出することができる。
【0058】
また、たとえば、出現頻度の非常に低い係り受けがある文書データや、出現頻度の非常に低い同一文書データ内に存在するタームの組み合わせを持つ文書データを抽出することができる。その結果、他と語彙空間が異なる文書データが抽出され、特異な意見を抽出することができる。
【0059】
また、一般的な意見を外部に登録しておき、該当なしの意見を抽出することもできる。一般的な意見を共通性の高い意見とするのなら、クラスタリングでも似た結果が得られるはずであり、その結果、該当なしの意見から特異な意見を抽出することができる。また、未登録語は新しい概念である可能性があるので、未登録語を含む文書の場合に、特異な意見であるとして抽出することができる。
【0060】
また、冗長な説明を含む場合に、一語では表し得ない概念を説明している可能性がある。冗長な説明の例として、「〜するときに…みたいに○○するもの」などの表現が挙げられる。また、冗長な説明には、「みたい」「ようだ」「っぽい」などの例示の表現を伴うことが多く、この場合に特異な意見を含むものとして抽出することができる。
【0061】
以上説明したように、文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体によれば、大量の文書データから特異な意見を抽出することができる。クラスタリングにより大量の文書データから特異な意見を抽出することができるので、所望の文書の抽出にあたり、すべての文書データに目を通す手間を省くことができる。
【0062】
なお、本実施の形態で説明した文書処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
【産業上の利用可能性】
【0063】
以上のように、本発明にかかる文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体は、大量の文書データから特異な意見を抽出するにあたって有用である。
【図面の簡単な説明】
【0064】
【図1】この発明の実施の形態による文書処理装置のハードウエア構成の一例を示すブロック図である。
【図2】この発明の実施の形態にかかる文書処理装置の構成を機能的に示すブロック図である。
【図3】文書と特徴データの関係を説明する説明図である。
【図4】文書データをクラスタリングした場合を説明する説明図である。
【図5】文書データをクラスタリングした場合のクラスタと類似度を説明する説明図である。
【図6】この実施の形態の処理を説明するフローチャートである。
【符号の説明】
【0065】
101 CPU
102 ROM
103 RAM
201 文書データベース
202 特徴化部
203 辞書データ
204 クラスタリング部
205 条件入力部
206 類似度算出部
207 抽出部

【特許請求の範囲】
【請求項1】
複数の文書データのそれぞれについて特徴データを求める特徴化手段と、
前記特徴化手段によって求められた特徴データに基づいて、前記複数の文書データを、それぞれが類似する文書データの集合である複数のクラスタにクラスタリングするクラスタリング手段と、
前記クラスタリング手段によって得られた複数のクラスタのうち、所定の類似度に達しないクラスタを抽出する抽出手段と、
を備えることを特徴とする文書処理装置。
【請求項2】
前記クラスタリング手段によって得られたクラスタの類似度を算出する類似度算出手段を備え、
前記抽出手段は、前記類似度算出手段によって算出された類似度が、所定の類似度に達しないクラスタを抽出することを特徴とする請求項1に記載の文書処理装置。
【請求項3】
前記特徴データは、前記文書データに含まれる所定の単語の出現頻度であり、前記類似度は、前記出現頻度の傾向にしたがった類似の度合いであることを特徴とする請求項1または2に記載の文書処理装置。
【請求項4】
前記特徴データは、前記文書データに含まれる所定の単語の出現頻度をもとに求められる統計的情報であり、前記類似度は、前記統計的情報の傾向にしたがった類似の度合いであることを特徴とする請求項1または2に記載の文書処理装置。
【請求項5】
クラスタリングの実行条件を設定する設定手段を備え、
前記クラスタリング手段は、前記設定手段によって設定された実行条件を満たす場合はクラスタリングを実行し、該実行条件を満たさない場合はクラスタリングを終了することを特徴とする請求項1〜4のいずれか一つに記載の文書処理装置。
【請求項6】
前記実行条件は、得られたクラスタが所定の類似度に達していることであり、
前記クラスタリング手段は、該クラスタが所定の類似度に達していない場合に、クラスタリングを終了することを特徴とする請求項5に記載の文書処理装置。
【請求項7】
前記抽出手段は、前記クラスタリング手段によってクラスタリングされた複数の文書データのうち、該文書データがクラスタリングされたクラスタに対して所定の類似度に達しない文書データを抽出することを特徴とする請求項1〜6のいずれか一つに記載の文書処理装置。
【請求項8】
複数の文書データのそれぞれについて特徴データを求める特徴化工程と、
前記特徴化工程によって求められた特徴データに基づいて、前記複数の文書データを、それぞれが類似する文書データの集合である複数のクラスタにクラスタリングするクラスタリング工程と、
前記クラスタリング工程によって得られた複数のクラスタのうち、所定の類似度に達しないクラスタを抽出する抽出工程と、
を含むことを特徴とする文書処理方法。
【請求項9】
請求項8に記載の文書処理方法をコンピュータに実行させることを特徴とする文書処理プログラム。
【請求項10】
請求項9に記載の文書処理プログラムを記録したことを特徴とするコンピュータに読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2006−301959(P2006−301959A)
【公開日】平成18年11月2日(2006.11.2)
【国際特許分類】
【出願番号】特願2005−122719(P2005−122719)
【出願日】平成17年4月20日(2005.4.20)
【出願人】(390024350)株式会社ジャストシステム (123)
【Fターム(参考)】