説明

文書クラスタリング装置、方法、及びプログラム

【課題】関連する複数の文書からなる文書群を適切にクラスタリングすることができるようにする。
【解決手段】関係判定部23によって、特定の話題に関連する一連の複数の文書からなる文書群における全ての文書間の各々について、文書間の関係及び関係の信頼度を判定する。クラスタリング部25によって、文書群の各文書について、時間順に、先頭文書まで繋がる文書間の関係の信頼度が最も高くなるように、対象文書と先行文書のうちの何れか1つとの間について判定された関係を確定する。クラスタリング部25によって、確定された文書間の関係を用いて、文書群をクラスタリングする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書クラスタリング装置、方法、及びプログラムに係り、特に、関連する複数の文書からなる文書群をクラスタリングする文書クラスタリング装置、方法、及びプログラムに関する。
【背景技術】
【0002】
インターネットには、ユーザが投稿した質問に対して、別のユーザが回答を投稿する質問応答サイトが存在する。このようなサイトに投稿される質問の中には、Web検索エンジンでは答えが見つからなかったり、人それぞれによって答えが異なったりするような質問も多く見受けられたり、そもそもはっきりとした答えがなく他人の意見やアドバイスを求めるような質問も多く見られる。このような質問に対しては、複数のユーザがそれぞれ異なる回答を投稿する事例が多く見られる。複数の回答の中には、類似している意見や対立している意見、そしてまったく別の意見が存在している。回答数が多くなるとすべての回答を読むのに時間がかかるため、回答全体を適切に分類することが望ましい。
【0003】
従来の文書クラスタリング技術では、文書に出現する単語とその頻度を用いることにより作成した文書ベクトルの類似度に従って、類似している文書同士をクラスタリングする手法が主流であり、クラスタリングについては様々な方法が提案されている(非特許文献1)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】高村大也、奥村学、「言語処理のための機械学習入門」、コロナ社、2010年、pp.77-93.
【発明の概要】
【発明が解決しようとする課題】
【0005】
回答のような文書には意見が含まれるので、同じ話題でも正反対の主張になることがありえるが、従来の文書クラスタリングの手法では、同じ話題の文書であるから、共通の単語、とりわけ共通の内容語が出現し、これらの文書が同じクラスタとして誤って区分されてしまう、という問題がある。これらの文書が正反対の主張を含んでいるとすれば、本来は異なるクラスタに区分されるべきである。このように、文書に正反対の意見が含まれる場合には、単純に文書に出現する単語を用いた文書間の類似度により、文書を適切にクラスタリングすることは困難である。
【0006】
本発明は、上記の事情を鑑みてなされたもので、関連する複数の文書からなる文書群を適切にクラスタリングすることができる文書クラスタリング装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記の目的を達成するために本発明に係る文書クラスタリング装置は、時間情報が各々付与され、かつ、関連する複数の文書からなる文書群における全ての文書間の各々について、文書間の関係及び前記関係の信頼度を判定する関係判定手段と、前記文書群の各文書について、時間順に、最も早い時間情報が付与された先頭文書まで繋がる文書間の関係の信頼度が最も高くなるように、前記文書より早い時間情報が付与された先行文書のうちの何れか1つとの間について判定された関係を確定する関係確定手段と、前記関係確定手段によって確定された文書間の関係を用いて、前記文書群をクラスタリングするクラスタリング手段とを含んで構成されている。
【0008】
本発明に係る文書クラスタリング方法は、関係判定手段、関係確定手段、及びクラスタリング手段を含む文書クラスタリング装置における文書クラスタリング方法であって、
【0009】
前記文書クラスタリング装置は、前記関係判定手段によって、時間情報が各々付与され、かつ、関連する複数の文書からなる文書群における全ての文書間の各々について、文書間の関係及び前記関係の信頼度を判定するステップと、前記関係確定手段によって、前記文書群の各文書について、時間順に、最も早い時間情報が付与された先頭文書まで繋がる文書間の関係の信頼度が最も高くなるように、前記文書より早い時間情報が付与された先行文書のうちの何れか1つとの間について判定された関係を確定するステップと、前記クラスタリング手段によって、前記関係確定手段によって確定された文書間の関係を用いて、前記文書群をクラスタリングするステップと、を含んで実行することを特徴とする。
【0010】
本発明によれば、前記関係判定手段によって、時間情報が各々付与され、かつ、関連する複数の文書からなる文書群における全ての文書間の各々について、文書間の関係及び前記関係の信頼度を判定する。
【0011】
そして、関係確定手段によって、前記文書群の各文書について、時間順に、最も早い時間情報が付与された先頭文書まで繋がる文書間の関係の信頼度が最も高くなるように、前記文書より早い時間情報が付与された先行文書のうちの何れか1つとの間について判定された関係を確定する。前記クラスタリング手段によって、前記関係確定手段によって確定された文書間の関係を用いて、前記文書群をクラスタリングする。
【0012】
このように、文書群の各文書について、時間順に、先行文書との関係を確定し、確定された文書間の関係を用いて、文書群をクラスタリングすることにより、関連する複数の文書からなる文書群を適切にクラスタリングすることができる。
【0013】
本発明に係る関係確定手段は、前記文書群の各文書について、時間順に、既に確定された文書間の関係の各々の信頼度と、前記文書と前記先行文書との間について判定された前記関係の信頼度とに基づいて、前記先頭文書まで繋がる文書間の関係の信頼度が最も高くなるように、前記先行文書のうちの何れか1つとの間について判定された関係を確定するようにすることができる。
【0014】
本発明に係る文書クラスタリング装置は、前記文書群における全ての文書間の各々について、文書間の素性を抽出する素性抽出手段を更に含み、前記関係判定手段は、前記文書群における全ての文書間の各々について、前記素性抽出手段によって抽出された前記文書間の素性と、前記文書間の素性と前記文書間の関係とに基づいて予め学習した文書間関係モデルとに基づいて、前記文書間の関係及び前記関係の信頼度を判定するようにすることができる。
【0015】
上記の文書群を、特定の話題に関連する複数の文書からなる文書群とすることができる。
【0016】
本発明に係る関係判定手段は、前記文書間の関係として、類似、対立、及び無関係の何れかを判定するようにすることができる。
【0017】
本発明に係るプログラムは、コンピュータを、上記の文書クラスタリング装置の各手段として機能させるためのプログラムである。
【発明の効果】
【0018】
以上説明したように、本発明の文書クラスタリング装置、方法、及びプログラムによれば、文書群の各文書について、時間順に、先行文書との関係を確定し、確定された文書間の関係を用いて、文書群をクラスタリングすることにより、関連する複数の文書からなる文書群を適切にクラスタリングすることができる、という効果が得られる。
【図面の簡単な説明】
【0019】
【図1】本発明の実施の形態に係る文書クラスタリング装置の構成を示す概略図である。
【図2】入力される文書のデータ形式を示す図である。
【図3】文書間関係モデルを説明するための図である。
【図4】判定された文書間の関係の例を示す図である。
【図5】クラスタリング結果の出力例を示す図である。
【図6】本発明の実施の形態に係る文書クラスタリング装置における文書クラスタリング処理ルーチンの内容を示すフローチャートである。
【図7】本発明の実施の形態に係る文書クラスタリング装置における文書間の関係の確定処理の内容を示すフローチャートである。
【発明を実施するための形態】
【0020】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0021】
<システム構成>
本発明の実施の形態に係る文書クラスタリング装置100は、文書群として特定の話題に関連する一連の文書が入力され、文書のクラスタを出力する。1つの文書は1つ以上の文からなるテキストデータであり、書き手の意見や感情が含まれるものとする。この文書クラスタリング装置100は、CPUと、RAMと、後述する文書クラスタリング処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、文書クラスタリング装置100は、入力部10と、演算部20と、出力部30とを備えている。
【0022】
入力部10は、入力された複数の文書からなる文書群として、特定の話題に関連する一連の文書を受け付ける。例えば、ある質問に対して寄せられる複数の回答文書などであり、各回答文書は、文書作成時間あるいは文書送信時間などの時間情報が付加されている。また、文書は形態素解析済み、およびあるいは固有表現抽出済み、およびあるいは係り受け解析済みのテキストであってもよい。例えば、文書として図2に示すようなデータを入力することができる。このように、入力部10は、文書の内容と文書の時間情報を取得する。
【0023】
演算部20は、文書群データベース21、素性抽出部22、関係判定部23、文書間関係モデル記憶部24、及びクラスタリング部25を備えている。なお、クラスタリング部25が、関係確定手段及びクラスタリング手段の一例である。
【0024】
文書群データベース21は、入力部10により受け付けた文書群としての複数の回答文書を記憶する。
【0025】
素性抽出部22は、文書群データベース21に記憶された文書群の各文書から、文書間の関係を判定するために利用する素性を抽出する。抽出される素性は、予め定められた複数の素性であり、文書間の素性が含まれる(後述する図3参照)。また、抽出される素性として、更に、文書の素性を用いてもよい。例えば、非特許文献(神保一樹、高村大也、奥村学、"質問応答サイトにおける発言間の関係同定"、人工知能学会全国大会、3D3-3、2010.)に開示されている素性を利用することができ、質問の核文に関するもの、質問のタイプ、回答文書に含まれる固有表現、単語をベクトルとした文書間の類似度などを、抽出される素性とすることができる。素性の抽出結果としては、素性に対応する数値が得られ、例えば、素性に該当するか否かを示す数値(0、1)が得られる。
【0026】
関係判定部23は、素性抽出部22から得られる素性と文書間関係モデル記憶部24に記憶された文書間関係モデルとに基づいて、全ての文書間について、最も尤もらしい関係(例えば、類似、対立、無関係など)を判定すると共に、その文書間の関係の信頼度を判定する。
【0027】
文書間関係モデル記憶部24に記憶されている文書間関係モデルは、各素性に関する重みの数値を格納したものであり、文書から抽出される素性と共に、文書同士の関係が正しく付与された多数の正解データから学習することにより得ることができる。文書間関係モデルの例を図3に示す。
【0028】
関係判定部23は、機械学習アルゴリズムを利用することができる。機械学習アルゴリズムとしては、例えばサポートベクトルマシン(SVM)やMarkov Logic Network (MLN)などのアルゴリズムを利用することができる。サポートベクトルマシン等の2値分類器を利用する場合には、文書間の関係がある関係であるか否か、という一度に1つの関係しか判別できないため、判定する関係が複数種類である場合には複数のサポートベクトルマシンを組み合わせる。例えば、one-vs-rest法を利用し、各文書同士について最も尤もらしい関係を判定することができる。また、サポートベクトルマシンにより得られる超平面からの各文書同士までの距離を正規化したものを、各文書同士の関係についての信頼度とすることができる。MLNを利用する場合には、SVMで利用する素性の他に、大域的な制約を導入することが可能である。例えば、
【数1】

を導入すれば、文書Aと文書Bが類似の関係にあり、文書Bと文書Cが類似の関係にあるならば、文書Aと文書Cは類似の関係にあるという制約を設けることができる。また、
【数2】

を導入すれば、文書Aと文書Bが類似の関係にあるならば、文書Aと文書Cは対立の関係にあり、かつ、文書Bと文書Cも対立の関係にあるという制約を設けることができる。
【0029】
関係判定部23は、例えば、サポートベクトルマシンを用いる場合には、類似の関係にある正例と類似の関係にない負例から類似の関係を判定する分類器を学習しておき、判定対象の文書間から抽出された素性の値を用いてスコアを計算し、当該文書間の関係が類似か否かを判定する。同様に、対立及び無関係についてもその関係か否かをサポートベクトルマシンで判定する。one-vs-rest法により、各々のサポートベクトルマシンにより複数の関係にあると判定された場合でも、それらの中で最もスコアが大きいサポートベクトルマシンの関係をその文書間の関係とする。
【0030】
クラスタリング部25は、すべての文書間について判定された最も尤もらしい関係とその信頼度を取得し、それらの情報に基づいて、以下のように、文書群をクラスタリングする。
【0031】
例えば、文書Xという質問に対して、時間順に回答A〜Dの文書集合が存在し、いずれも質問に対する直接的な回答文書である場合に、クラスタリング部25が用いる、判定された文書間の関係の例を図4に示す。この例では、文書Aと文書Bの関係は類似であり、信頼度は0.8である。また、文書Aと文書Cの関係は対立であり、信頼度は0.5である。
【0032】
クラスタリング部25は、文書群の各文書について、最も早い時間情報が付与された先頭文書から時間順に、文書間の関係により先頭文書まで繋がるパスのうち、信頼度が最も高くなるパスを確定することにより、当該文書より早い時間情報が付与された先行文書のうちの何れか1つとの間について判定された関係を確定する。このとき、既に確定されたパス上の文書間の関係の各々の信頼度と、当該文書と先行文書との間について判定された関係の信頼度とに基づいて、先行文書のうちの何れか1つとの間について判定された関係を確定する。
【0033】
また、クラスタリング部25は、文書群について確定された文書間の関係を用いて、文書群をクラスタリングする。
【0034】
出力部30は、文書群に対するクラスタリングの結果及び文書群についての確定パスを出力する。出力は、文書をノードとし確定パスをリンクとしたグラフとすることができる。例えば、上記図4で得られていた文書間の関係から確定パスを得ることによりクラスタリングした出力例を図5に示す。
【0035】
上記図5は、文書Aと文書Bでひとつのクラスタを構成し、文書Cだけで別のクラスタを構成し、文書Dだけでも別のクラスタを構成することを示す例である。時間順に先頭文書Aから順次文書Bから文書Dまで、それぞれの文書から先頭文書Aまでの確定パスを描画することにより、文書Aと文書Bの間には「類似」の関係があり、文書Bと文書Dの間の関係は「無関係」であり、文書Aと文書Cの間には「対立」の関係があることを示すグラフを提示することができる。確定パスには関係と共に信頼度を示すことができる。また関係の種類に応じて、グラフのリンクの形状を変更してもよい。例えば、類似の関係ではリンクを太くしたり、対立の関係ではリンクを両方向矢印にしたり、無関係の関係ではリンクを点線にしてもよいし、リンクを張らなくてもよい。
【0036】
<文書クラスタリング装置の作用>
次に、本実施の形態に係る文書クラスタリング装置100の作用について説明する。まず、ある質問に対する一連の回答文書が文書群として文書クラスタリング装置100に入力されると、文書クラスタリング装置100によって、入力された文書群が、文書群データベース21へ格納される。そして、文書クラスタリング装置100によって、図6に示す文書クラスタリング処理ルーチンが実行される。
【0037】
まず、ステップS101において、文書群の全ての文書間の素性、及び全ての文書の素性を抽出する。そして、ステップS102において、上記ステップS101において抽出された素性と文書間関係モデルとに基づいて、文書群の全ての文書間について、文書間の関係及び当該関係の信頼度を判定する。
【0038】
次のステップS103では、上記ステップS102で判定された文書間の関係及び信頼度に基づいて、文書間の関係を確定する処理を行う。
【0039】
そして、ステップS104では、上記ステップS103で確定された文書間の関係に基づいて、文書群をクラスタリングし、ステップS105において、クラスタリング結果と共に、確定された文書間の関係及びその関係の信頼度を出力して、文書クラスタリング処理ルーチンを終了する。
【0040】
上記ステップS103は、図7に示す処理ルーチンによって実現される。
【0041】
まず、ステップS110において、文書群を構成する回答文書を、時間が早い順にソートする。そして、ステップS111において、処理していない回答文書が残っているかを判定し、処理していない回答文書が残っている場合には、ステップS112において、残っている回答文書から時間が早い順に1つの回答文書を選択して対象文書とし、ステップS113へ移行する。一方、処理していない回答文書が残っていない場合には、処理ルーチンを終了する。
【0042】
ステップS113では、上記ステップS112で選択した対象文書が、時間順で最も早い文書(以下、先頭文書)でないかどうかを判定する。先頭文書でなければ、ステップS114へ移行するが、一方、先頭文書である場合には、上記ステップS111へ戻る。
【0043】
ステップS114では、後述するステップS115〜S120の処理を行っていない、対象文書よりも時間が早い文書があるかを判定する。対象文書よりも時間が早い文書のうち、処理を行っていない文書がある限り、後述するステップS115〜S120の処理を繰り返す。まず、ステップS115において、対象文書よりも時間が早い文書のうち、後述するステップS115〜S120の処理を行っていない文書の中から、時間が早い順に1つの文書を選択して先行文書とする。
【0044】
そして、ステップS116において、先行文書が先頭文書でないかどうかを判定し、先行文書が先頭文書でなければ、ステップS117において、対象文書と先行文書との間について判定された関係の信頼度(以下、信頼度A)を取得し、ステップS118において、先行文書から先頭文書までの確定パスの信頼度(以下、信頼度B)を取得する。ここで、確定パスとその信頼度については、後述のステップS121により既に登録されているものを利用することになる。
【0045】
そして、ステップS119において、信頼度Aと信頼度Bの値に基づいて信頼度Cを計算し、その値と対象文書から先頭文書までのパス(先行文書から先頭文書までの確定パスと、先行文書と対象文書との間のパスとを繋げたもの)をパス候補として登録し、上記ステップS114へ戻る。ここで、信頼度Cは、例えば以下の(1)式で求めることができる。
【0046】
信頼度C=信頼度A*信頼度B ・・・(1)
【0047】
上記ステップS116において、先行文書が先頭文書であると判定された場合には、ステップS120において、対象文書と先行文書の間について判定された関係の信頼度を信頼度Cとして取得し、その値と、対象文書と先行文書との間のパスをパス候補として登録して、上記ステップS114へ戻る。
【0048】
すべての先行文書についてパス候補を登録すると、上記ステップS114において、後述するステップS115〜S120の処理を行っていない、対象文書よりも時間が前の文書が存在しないと判定され、ステップS121へ移行する。
【0049】
ステップS121では、パス候補の中で最も高い信頼度Cの値を持つパス候補を確定パスとして登録し、上記ステップS111へ戻る。ここで、最も高い信頼度Cを有するパス候補が複数存在する場合には、ランダムにいずれかに決定してもよい。
【0050】
以上のように、文書群の全ての文書を対象文書として時間順に上記の処理を繰り返し実施し、文書群に対する確定パスを得る。なお、文書数が多い場合には、先行文書から先頭文書までの信頼度が高い上位N文書だけを先行文書として選択して、パス候補を登録するようにしてもよい。
【0051】
ここで、上記図4の例において、例えば、文書Dを対象文書として処理するときの例を説明する。文書Dが対象文書として選択されるときには、すでに文書A、文書B、文書Cを対象文書とする処理を終えているため、文書Bから先頭文書Aへの確定パス、及び、文書Cから先頭文書Aへの確定パスは既に登録されている。
【0052】
まず、文書Aを先行文書として選択する。文書Aが先頭文書なので、先行文書Aと文書Dとの間について判定された関係を直接取得でき、文書Dから先頭文書Aまでのパス候補として、先行文書Aと文書Dとの間のパス(関係が「類似」で信頼度Cが0.3)を取得する(ステップS120)。
【0053】
次に、文書Bを先行文書として選択する。先行文書Bと文書Dのパスとして関係が「無関係」で信頼度Aとして0.7を取得する(ステップS117)。先行文書Bは先頭文書ではないので、文書Bから先頭文書Aまでのパスとして、先頭文書Aから文書Bまでの間の確定パス(関係が「類似」であり、信頼度Bが0.8)を取得する(ステップS118)。上記(1)式に従って、文書Dから先頭文書Aまでのパス候補の信頼度Cは、0.56(=0.8*0.7)と計算される(ステップS119)。
【0054】
続いて、文書Cを先行文書として選択する。先行文書Cと文書Dのパス(関係が「無関係」であり、信頼度Aが0.6)を取得する(ステップS117)。先行文書Cは先頭文書ではないので、文書Cから先頭文書Aまでのパスとして、先頭文書Aから文書Cまでの間の確定パス(関係が「対立」であり、信頼度Bが0.5)を取得する(ステップS118)。上記(1)式に従って、文書Dから先行文書Aまでのパス候補の信頼度Cは0.3(=0.6*0.5)と計算される(ステップS119)。
【0055】
文書Dから先頭文書Aまでの3つのパス候補の信頼度Cを比較し、最も高い値である0.56を有する文書Dから文書Bを経由して文書Aにいたるパスを確定パスとして、当該パスとパス上の関係と信頼度Cの値とを登録する(ステップS121)。
【0056】
さらに、文書群の全ての文書を対象文書として確定パスが得られたら、「類似」という関係を用いることにより、確定パスの関係として「類似」の関係で登録されている文書同士を同じクラスタにするように分類する(ステップS104)。
【0057】
以上説明したように、本実施の形態に係る文書クラスタリング装置によれば、文書群の全ての文書間の関係を判定し、文書群の各文書について、早い時間順に、先行文書との関係を確定し、確定された文書間の関係を用いて、文書群をクラスタリングすることにより、ある質問に対する一連の回答文書からなる文書群を適切にクラスタリングすることができる。
【0058】
また、質問に対する一連の複数の回答文書に対して、回答文書同士の個々の関係を信頼度付きで判定し、判定した回答文書同士の関係の信頼度に基づいて回答文書全体をクラスタリングし、クラスタ間の関係を可視化するため、同一の話題で正反対の主張を含む回答文書を異なるクラスタに分類し、クラスタ間の関係を明示することができる。
【0059】
また、文書群の全ての文書間の関係を判定し、文書群の各文書について、早い時間順に、先行文書との関係を確定することにより、文書群全体において矛盾がないように、文書間の関係を確定することができる。
【0060】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0061】
例えば、パス候補上の文書間の関係の信頼度の平均を計算し、信頼度の平均が最大となるパス候補を、確定パスとしてもよい。
【0062】
また、文書群全体で確定パスを決めた後に、「類似」の関係を持つ文書同士を同じクラスタに分類する場合を例に説明したが、これに限定されるものではなく、文書群全体で確定パスを決めたときに得られる文書間の関係を用いた他の方法により、文書群をクラスタリングするようにしてもよい。
【0063】
また、ある質問に対する一連の回答文書を、文書群として入力する場合を例に説明したが、これに限定されるものではなく、質問以外の特定の話題に関連する一連の文書を、文書群として入力するようにしてもよい。
【0064】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0065】
10 入力部
20 演算部
21 文書群データベース
22 素性抽出部
23 関係判定部
24 文書間関係モデル記憶部
25 クラスタリング部
30 出力部
100 文書クラスタリング装置

【特許請求の範囲】
【請求項1】
時間情報が各々付与され、かつ、関連する複数の文書からなる文書群における全ての文書間の各々について、文書間の関係及び前記関係の信頼度を判定する関係判定手段と、
前記文書群の各文書について、時間順に、最も早い時間情報が付与された先頭文書まで繋がる文書間の関係の信頼度が最も高くなるように、前記文書より早い時間情報が付与された先行文書のうちの何れか1つとの間について判定された関係を確定する関係確定手段と、
前記関係確定手段によって確定された文書間の関係を用いて、前記文書群をクラスタリングするクラスタリング手段と、
を含む文書クラスタリング装置。
【請求項2】
前記関係確定手段は、前記文書群の各文書について、時間順に、既に確定された文書間の関係の各々の信頼度と、前記文書と前記先行文書との間について判定された前記関係の信頼度とに基づいて、前記先頭文書まで繋がる文書間の関係の信頼度が最も高くなるように、前記先行文書のうちの何れか1つとの間について判定された関係を確定する請求項1記載の文書クラスタリング装置。
【請求項3】
前記文書群における全ての文書間の各々について、文書間の素性を抽出する素性抽出手段を更に含み、
前記関係判定手段は、前記文書群における全ての文書間の各々について、前記素性抽出手段によって抽出された前記文書間の素性と、前記文書間の素性と前記文書間の関係とに基づいて予め学習した文書間関係モデルとに基づいて、前記文書間の関係及び前記関係の信頼度を判定する請求項1又は2記載の文書クラスタリング装置。
【請求項4】
前記文書群を、特定の話題に関連する複数の文書からなる文書群とした請求項1〜請求項3の何れか1項記載の文書クラスタリング装置。
【請求項5】
前記関係判定手段は、前記文書間の関係として、類似、対立、及び無関係の何れかを判定する請求項1〜請求項4の何れか1項記載の文書クラスタリング装置。
【請求項6】
関係判定手段、関係確定手段、及びクラスタリング手段を含む文書クラスタリング装置における文書クラスタリング方法であって、
前記文書クラスタリング装置は、
前記関係判定手段によって、時間情報が各々付与され、かつ、関連する複数の文書からなる文書群における全ての文書間の各々について、文書間の関係及び前記関係の信頼度を判定するステップと、
前記関係確定手段によって、前記文書群の各文書について、時間順に、最も早い時間情報が付与された先頭文書まで繋がる文書間の関係の信頼度が最も高くなるように、前記文書より早い時間情報が付与された先行文書のうちの何れか1つとの間について判定された関係を確定するステップと、
前記クラスタリング手段によって、前記関係確定手段によって確定された文書間の関係を用いて、前記文書群をクラスタリングするステップと、
を含んで実行することを特徴とする文書クラスタリング方法。
【請求項7】
コンピュータを、請求項1〜請求項5の何れか1項記載の文書クラスタリング装置の各手段として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−243214(P2012−243214A)
【公開日】平成24年12月10日(2012.12.10)
【国際特許分類】
【出願番号】特願2011−114967(P2011−114967)
【出願日】平成23年5月23日(2011.5.23)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(304021417)国立大学法人東京工業大学 (1,821)