説明

データクラスタリング装置及び方法

【課題】より精度の良いクラスタリング結果を得ることができるようにする。
【解決手段】実施形態によれば、データクラスタリング装置において解析手段は、複数の要素から構成されるデータユニットの集合を含むデータセットに基づき、当該複数の要素を複数の要素グループに区分し、当該複数の要素グループの各々を次元とし、その次元の組み合わせに対応するデータユニットの出現回数を成分とする多次元の特徴行列を生成する。結合手段は、特徴行列の同一次元の2つの特徴ベクトルの組み合わせのうち、2つの特徴ベクトルの間の結合指数が第1の条件を満たす2つの特徴ベクトルを結合し、その結合結果に応じて特徴行列及び分類結果表を更新する処理を、更新後の特徴行列が第2の条件を満たすまで繰り返す。出力手段は、この繰り返しの後の分類結果表に基づいて、データセットのデータユニット毎にクラス分けしたクラスタリング結果を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、データクラスタリング装置及び方法に関する。
【背景技術】
【0002】
従来から、例えばデータ共有サーバのような計算機において、ユーザがどのような操作をしたかの履歴を示すデータを保管し、このデータを解析し、各ユーザの不正な操作や異常な操作、操作の全体的な傾向などを、機械学習などを行うことによって抽出する技術が知られている。このような技術を用いる際、入力するデータの種類(操作の種類や操作の対象の種類など)が多い場合、元のデータをそのまま利用し機械学習を行うには計算量が膨大になるため、現実的な時間で有益な結果を導き出すことは難しい。
【0003】
そこで、学習データの多様性を減らすために、データをクラスタリングすることが知られている。クラスタリング手法としては、データから多次元ベクトルを構成し、各ベクトル間の距離を導出し、それに基づいて例えばk平均法(k−means法)などによりクラスタリングする方法が一般的である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2001−229362号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来のクラスタリング手法では、そもそも多次元ベクトルとして構成する際、ベクトルの次元数や成分の取り方によって結果が大きく左右されるにも拘わらず、次元数や成分の取り方はクラスタリングとは直接関係の無い決め方がなされている。また、データのどの要素を特徴ベクトルの要素として採用するか否かを事前に設定しておく必要があり、データ全体を見て重要でないデータを削ぎ落としたり、似たような特徴のデータを統合したりするという作業はクラスタリングとは別に前処理として実施する必要がある。
【0006】
そのため、前処理の実施方法が自明でない場合や前処理結果の評価が難しい場合、前処理をどのように実施するかを決定するのも難しくなる。
そこで、従来技術において前処理として切り離されていた、入力データを多次元ベクトルとして抽象化するような処理も総合的に考慮したクラスタリング手法が要求される。
【0007】
本発明が解決しようとする課題は、複数の要素を持つデータユニットの集合を、特定の1要素ではなく、複数の要素を複合的に考慮してクラスタリングすることで、より精度の良いクラスタリング結果を得ることができるデータクラスタリング装置及び方法を提供することにある。
【課題を解決するための手段】
【0008】
実施形態によれば、データクラスタリング装置は、入力手段と、解析手段と、記憶手段と、判定手段と、結合手段と、出力手段とを具備する。入力手段は、複数の要素から構成されるデータユニットの集合を含むクラスタリング対象のデータセットを入力する。解析手段は、前記入力されたデータセットに基づき、前記複数の要素を1つ以上の要素から構成される複数の要素グループに区分して、当該複数の要素グループの各々を次元とし、その次元の組み合わせに対応するデータユニットの出現回数を成分とする多次元特徴行列を生成する。記憶手段は、前記入力されたデータセット、前記多次元特徴行列、及び前記多次元特徴行列の1つ以上の次元の各特徴ベクトルをクラスとして保持する分類結果表を格納する。判定手段は、前記多次元特徴行列の前記1つ以上の次元を対象に、前記多次元特徴行列から同一次元同士で2つの特徴ベクトルの組み合わせを逐次抽出して、当該2つの特徴ベクトルの組み合わせ毎にその2つの特徴ベクトルの間の結合指数を計算し、その結合指数が第1の条件を満たす2つの特徴ベクトルを抽出するための判定処理を実行する。結合手段は、前記第1の条件を満たす2つの特徴ベクトルを結合し、その結合結果に応じて前記多次元特徴行列を更新し、且つ当該第1の条件を満たす2つの特徴ベクトルが、結合後の特徴ベクトルに対応するクラスに分類されたことを示すように、前記分類結果表を更新するための結合処理を実行する。前記判定手段及び前記結合手段は、前記更新後の多次元特徴行列が第2の条件を満たすまで、それぞれ前記判定処理及び前記結合処理を繰り返す。前記出力手段は、前記第2の条件を満たした際の前記分類結果表に基づいて、前記入力されたデータセットのデータユニット毎にクラス分けしたクラスタリング結果を出力する。
【図面の簡単な説明】
【0009】
【図1】第1の実施形態に係るクラスタリングユニットを備えたデータ処理システムの構成を示すブロック図。
【図2】第1の実施形態においてクラスタリングの対象となるデータセットの一例を示す図。
【図3】図2に示されるデータセットに基づいて生成される特徴行列の一例を示す図。
【図4】第1の実施形態においてクラスタリング処理の過程で生成される分類結果表の一例を示す図。
【図5】第1の実施形態において結合部から出力部に渡される分類結果表の一例を示す図。
【図6】第1の実施形態におけるクラスタリング結果の一例を示す図。
【図7】第1の実施形態における上記クラスタリング処理の手順を示すフローチャート。
【図8】第1の実施形態における1回目の特徴ベクトル結合後の特徴行列を示す図。
【図9】第1の実施形態における1回目の特徴ベクトル結合前後の分類結果表を示す図。
【図10】第1の実施形態における2回目の特徴ベクトル結合後の特徴行列を示す図。
【図11】第1の実施形態における3回目の特徴ベクトル結合後の特徴行列を示す図。
【図12】第2の実施形態における一連の特徴ベクトル結合完了後の分類結果表の一例を示す図。
【図13】第2の実施形態におけるクラスタリング結果の一例を示す図。
【図14】第3の実施形態における圧縮完了後の行の分類結果表及び列の分類結果表の一例を示す図。
【図15】第3実施形態におけるクラスタリング結果の一例を示す図。
【図16】図14の行の分類結果表及び列の分類結果表で示される、第1の要素が結合された行及び第2の要素が結合された列の組み合わせとクラスを示す記号との関係を示す図。
【図17】第4の実施形態においてクラスタリングの対象となるデータセットに基づいて生成される行圧縮特徴行列及び列圧縮特徴行列の例を示す図。
【図18】第4の実施形態における1回目の圧縮完了後の行圧縮特徴行列を示す図。
【図19】第4の実施形態における1回目の圧縮完了後の行の分類結果表を示す図。
【図20】第4の実施形態における2回目の圧縮完了後の列圧縮特徴行列を示す図。
【図21】第4の実施形態における2回目の圧縮完了後の列の分類結果表を示す図。
【図22】第4の実施形態における3回目の圧縮完了後の行圧縮特徴行列を示す図。
【図23】第4の実施形態における3回目の圧縮完了後の行の分類結果表を示す図。
【図24】第4の実施形態におけるクラスタリング結果の一例を示す図。
【発明を実施するための形態】
【0010】
以下、実施の形態につき図面を参照して説明する。
[第1の実施形態]
図1は第1の実施形態に係るクラスタリングユニットを備えたデータ処理システムの構成を示すブロック図である。
図1において、データ処理システム10は、データ保管部11及びクラスタリングユニット12を備えている。データ処理システム10は、例えばデータ共有サーバ計算機のような単一の計算機により構成されている。
【0011】
データ保管部11は、ユーザがどのような操作をしたかの履歴を示すデータ(操作履歴データ)を保管する。この操作履歴データは、例えば、データ処理システム10を構成する計算機へのユーザの操作によるアクセスのログであり、図示せぬ手段によってデータ保管部11に予め保存されているものとする。データ保管部11は、例えばデータ処理システム10を構成する計算機が有する、ディスク装置のような不揮発性記憶装置に置かれる。
【0012】
クラスタリングユニット12は、データクラスタリング装置として機能して、データ保管部11に格納されているデータから特定の特徴を持ったデータセットを抽出する。即ちクラスタリングユニット12は、データ保管部11からクラスタリングの対象データを受け取り、受け取った対象データをある指定された数のクラスに分類する。
【0013】
クラスタリングユニット12は、入力部121、入力データ解析部122、判定部123、結合部124及び出力部125の各機能要素と、ワーキングメモリ126とを備えている。入力部121、入力データ解析部122、判定部123、結合部124及び出力部125は、データ処理システム10を構成する計算機が、例えば、ディスク装置のような不揮発性記憶装置に格納されているプログラムを読み込んで実行することにより実現されるものとする。このプログラムが、外部の計算機から例えばネットワークを介してダウンロードされたものであっても構わない。このプログラムは、クラスタリングの対象となるデータから、ある特定の特徴を持つデータを識別する機能を持つ。
【0014】
入力部121は、例えばデータ保管部11から、クラスタリングの対象となるデータセットを受け取り、当該受け取ったデータセットを入力データ解析部122に渡す。第1の実施形態においてデータ保管部11に格納されているデータは、前述したように、データ処理システム10を構成する計算機へのユーザの操作によるアクセスのログであり、例えば、当該計算機内の同一機器または当該計算機内の同一プログラムに存在するデータである。しかし、データ保管部11に格納されているデータが、外部の計算機内の機器や当該外部の計算機内のプログラムに存在するデータであっても構わない。また、外部の計算機の機器やプログラムから入力部121がデータを受け取っても構わない。
【0015】
図2は、入力部121が受け取る、クラスタリングの対象となるデータセットの一例を示す。図2の例では、データセットは、2つの文字列の組を持つデータユニットの集合である。2つの文字列はそれぞれ異なる集合の要素である。図2の例において、データユニット内の一方の文字列である第1の要素(データ1)は英文中に出現する動詞であり、他方の文字列である第2の要素(データ2)は当該英文中に出現する名詞である。
【0016】
再び図1を参照すると、入力データ解析部122は、入力部121が受け取ったデータセット(つまり入力データ)を解析し、上記2つの文字列のうち第1の要素(データ1)を縦軸(縦方向の次元、つまり行の次元)の要素(行要素)i、第2の要素(データ2)を横軸(横方向の次元、つまり列の次元)の要素(列要素)jとし、出現回数を行列の要素(成分)aijとする2次元の行列(以下、特徴行列と称する)を生成する。
【0017】
図3は、図2に示されるデータセットに基づいて入力データ解析部122によって生成された特徴行列の一例を示す。図3に示す特徴行列の例えば第3(read)行、第2(book)列の要素a32(値)は6である。この「6」は、「“read”,“book”」という文字列を持つデータユニットが、入力されたデータセット内に6回出現していたということを意味する。入力データ解析部122は、生成した特徴行列をワーキングメモリ126に格納する。
【0018】
なお、入力データ解析部122による入力データ(入力されたデータセット)の解析手法は、上述の例のみならず、各種方法が考えられる。入力データが、2つの文字列(要素)の組を持つデータユニットの集合の場合、結果としてクラスタリング対象の2要素の一方を行要素とし、他方を列要素とする、当該行要素及び列要素の組み合わせの特徴を表現する行列が構成されればよい。また、2要素が、動詞と名詞である必要はない。
【0019】
判定部123は、ワーキングメモリ126から特徴行列を読み出し、当該特徴行列の任意の2つの行の要素(成分)の集合(以下、特徴ベクトルと称する)毎に、その2つの特徴ベクトルの間の結合指数を計算する。判定部123はまた、特徴行列の任意の2つの列の要素(成分)の集合(特徴ベクトル)毎に、その2つの特徴ベクトルの間の結合指数を計算する。そして判定部123は、結合指数が最小の組み合わせとなる2つの特徴ベクトルを抽出する。結合指数は2つの特徴ベクトルの相違度と重要度に正の相関を持つ値である。図3において、例えば第1行、つまり行1(i=1)の特徴ベクトル(行特徴ベクトル)は、(1,1,4)で表される。また、例えば第1列、つまり列1(j=1)の特徴ベクトル(列特徴ベクトル)は、(1,2,0,3)で表される。
【0020】
相違度は特徴ベクトル同士の方向の違いの大きさを表す値であり、方向が異なるほど大きな値を示す。相違度として、例えば2つの特徴ベクトルのなす角度の大きさをθとした場合のsinθなどを用いることが考えられる。重要度は特徴ベクトルを構成する各要素が当該特徴ベクトルの他の要素と比較して、どのくらい特徴的な値であるか、各要素がどのくらい大きいかを表す値である。重要度は、特徴的であるほど大きな値を示し、各要素の値が大きいほど大きな値を示す。重要度として、例えば特徴ベクトルの絶対値(特徴ベクトルの長さ)を用いてもよい。この場合、例えば2つの特徴ベクトルの各々の重要度(絶対値)の積と前記2つの特徴ベクトルの前記相異度との積を結合指数として用いてもよい。
【0021】
第1の実施形態では、結合指数として、2つの特徴ベクトルの外積の絶対値が用いられる。ここでは、特徴ベクトルaと特徴ベクトルbの外積の絶対値の2乗が、|a||b|−(a・b)と定義される(a・bはaとbの内積)。この場合、2つの特徴ベクトルa及びbの長さが小さく(つまり重要度が低く)、なす角度が小さい(つまり相違度が低い)ほど、結合指数が小さくなる。判定部123は、抽出した2つの特徴ベクトルのデータを結合部124に送る。
【0022】
結合部124は、判定部123から受け取った2つの特徴ベクトルを結合し、1つのベクトルとして、ワーキングメモリ126に格納されている特徴行列を更新する。結合の方法としては例えば、2つの特徴ベクトルの各成分の和をそれぞれ新しいベクトルの成分とする方法などが考えられる。また結合部124は、結合の際、受け取った2つの特徴ベクトルが新しく生成されたベクトルのクラスに分類されたものとして分類結果表を更新する。分類結果表は、ワーキングメモリ126に格納して用いられるものとする。第1の実施形態では結合部124は、行の特徴ベクトルが結合された場合にのみ分類結果表を更新する。
【0023】
図4は、分類結果表の一例を示す。第1の実施形態において、分類結果表は、行の各特徴ベクトルをクラスとして保持する。判定部123は、更新の際は結合した行をどちらかのクラスに統合する操作を行う。図4に示される分類結果表において、クラスの表記には、行要素の値が用いられている。しかし、クラスの表記は、行要素と直接関連する必要はない。例えば、図4に示すクラス1(ride)、クラス2(do)、クラス3(read)を、それぞれ、単にクラスA、クラスB、クラスCのような記号で表記しても良い。
【0024】
結合部124は判定部123と協働して上述のような操作を繰り返す。結合部124は、この繰り返しの結果、特徴行列に残されている例えば行の特徴ベクトルの数が予め指定された数(クラスの数)まで減少した時点で、当該繰り返しを終了して、ワーキングメモリ126を介して分類結果表を出力部125に渡す。なお、特徴行列に残されている行及び列の両方の特徴ベクトルの数が予め指定された数まで減少した時点で、上述の繰り返しを終了しても構わない。
【0025】
図5は、出力部125に渡される分類結果表の一例を示す。なお、図4は、上述の操作の繰り返しの途中の分類結果表(より詳細には、1回目の2つの行の特徴ベクトルの結合後の分類結果表)の一例を示したものである。
【0026】
出力部125は、ワーキングメモリ126を介して結合部124から分類結果表を受け取ると、当該分類結果表と入力データセットとに基づき、データユニット毎にクラス分けをした結果(クラスタリング結果)を出力データとして出力する。
【0027】
図6は出力データの一例を示す。図6に示す出力データは、入力データセットのデータユニット毎にそのデータユニットがどのクラスに属するかを記述した表形式のクラスタリング結果を示す。図6の出力データ(クラスタリング結果)において、クラスAは図5におけるクラス1に、クラスBは図5におけるクラス3に、それぞれ対応する。他にも入力データセットの種類毎にその種類のがどのクラスに属するかを出力データとする方法などが適用可能である。
【0028】
第1の実施形態において上述のように特徴行列を生成した場合、当該特徴行列で示される各特徴ベクトルの絶対値(特徴ベクトルの長さ)は、対応する行または列の要素のデータとしての重要度を表している。また、特徴ベクトル同士のなす角度をθとした場合のsinθは、θが大きくなればなるほど大きくなり、特徴ベクトルの相異度(どのくらい異なるかの度合い)を表す。つまり、結合指数が小さい2つの特徴ベクトルを結合(統合)するということは、特徴行列を構成する特徴ベクトルとして重要度が低いものを、他の重要度が低く、似ている特徴ベクトル(ベクトルの方向が似ている特徴ベクトル)に統合することを意味する。
【0029】
このように統合を行うことで、全体の特徴を失うことなく、全体の特徴とはあまり関係の無いデータをできるだけ影響が小さい形で統合することができる。つまり、このような「結合指数」を用いて統合を繰り返した結果、全体の特徴は失わず、重要でないデータはできるだけ似たもの同士統合したクラスタリング結果を得ることができる。
【0030】
第1の実施形態によれば、予め定められたルールに基づいて多次元ベクトルを構成した後にクラスタリングを行う方法に比べ、特定の1要素ではなく、複数の要素を複合的に考慮して、つまり多次元ベクトルの各成分の類似度(相違度)や距離などを考慮した上で多次元ベクトルを構成することができ、より精度の良いクラスタリング結果を得ることができる。また、出現頻度の低い重要でないデータを削ぎ落としつつ、似た特徴を有するデータは統合し、他とは異なる特徴を持つデータを残したクラスタリング結果を得ることができる。
【0031】
次に、第1の実施形態におけるクラスタリングユニット12の動作の概要について説明する。
まず、クラスタリングユニット12は、データ保管部11から、例えば図2に示したようなクラスタリングの対象データを受け取り、当該対象データに対してクラスタリング処理を行う。このクラスタリング処理において、クラスタリングユニット12の出力部125は、図5に示したような分類結果表と図2に示したようなクラスタリングの対象データ(入力データセット)とに基づき、データセット毎にクラス分けをした結果を出力データとして出力する。
【0032】
次に、第1の実施形態における上記クラスタリング処理の手順について、図7のフローチャートを参照して説明する。
まず入力部121は、データ保管部11から図2に示したようなクラスタリングの対象となるデータ(データセット)を受信する(ステップS11)。入力部121が受信したデータは入力データ解析部122に渡される。
【0033】
入力データ解析部122は、入力部121が受信したデータを当該入力部121から受け取ると、当該受信データ(入力データ)を解析することにより、図3に示したような特徴行列を生成する(ステップS12)。このステップS12において、入力データ解析部122は、生成された特徴行列に基づいて、当該特徴行列の行及び列の少なくとも一方、例えば行の各特徴ベクトルをクラスとして保持する分類結果表も生成する。生成された特徴行列及び分類結果表は、入力データと共に、ワーキングメモリ126に格納される。
【0034】
判定部123は、入力データ解析部122によって生成された特徴行列の行及び列の少なくとも一方、例えば行及び列の両方を対象に、当該特徴行列から2つの特徴ベクトルの組み合わせを全て抽出する(ステップS13)。即ち判定部123は、特徴行列の行を対象に、当該特徴行列から2つの行の特徴ベクトルの組み合わせを全て抽出する。また判定部123は、特徴行列の列を対象に、当該特徴行列から2つの列の特徴ベクトルの組み合わせを全て抽出する。
【0035】
判定部123は、抽出された行及び列のそれぞれの2つの特徴ベクトルの組み合わせ毎に、その2つの特徴ベクトルの間の結合指数を計算する(ステップS14)。そして判定部123は、計算した結合指数が第1の条件に合致する組み合わせの特徴ベクトル、例えば計算した結合指数が最も小さい組み合わせの特徴ベクトルを抽出する(ステップS15)。
【0036】
結合部124は、判定部123によって抽出された、結合指数が最も小さい組み合わせの特徴ベクトルを結合する(ステップS16)。結合部124は、この特徴ベクトル結合結果に基づいて、特徴行列及び分類結果表を更新する(ステップS17)。
【0037】
上述のステップS13〜S17は、更新後の特徴行列が第2の条件を満たすまで、例えば更新後の特徴行列に残っている行の特徴ベクトルの数が、予め指定された数(ここでは、ユーザによって指定された数)に達するまで(ステップS18)、繰り返される。そして、残っている行の特徴ベクトルの数が指定数に達すると、出力部125は、図6に示したようなクラスタリング結果を生成し、当該クラスタリング結果を出力データとして出力する。
【0038】
<第1の実施形態の具体例>
次に第1の実施形態における上述した図7のフローチャートに従う動作の流れを、図2乃至図6に加えて、図8乃至図11を参照して、具体例を挙げて説明する。
以下の例では、特徴行列の2つの行の特徴ベクトルの全ての組み合わせ及び当該特徴行列の2つの列の特徴ベクトルの全ての組み合わせのうち、最小の結合指数を持つ組み合わせの特徴ベクトルを結合するものとする。結合の終了は行の特徴ベクトルの数が2となったタイミングとする。また、分類結果表は行の特徴ベクトルの圧縮が起こった際のみ更新され、結合指数にはベクトルの外積の絶対値が用いられるものとする。
【0039】
まず、入力部121が、図2に示したような入力データ(データセット)をクラスタリング対象データとして受信したものとする(ステップS11)。入力部121によって受信された入力データは入力データ解析部122に渡される。入力データ解析部122は、入力部121から渡された入力データを一旦ワーキングメモリ126に格納し、当該ワーキングメモリ126に格納された入力データ(図2参照)に基づいて、図3に示したような特徴行列(つまりクラスタリング開始時の特徴行列)を生成する(ステップS12)。ここでは入力データ解析部122は、図2に示す入力データの第1要素(データ1)を行要素、第2要素(データ2)を列要素とし、当該入力データを構成するデータユニット毎に、そのデータユニットの第1要素及び第2要素がそれぞれ割り当てられる行要素i及び列要素jに対応する、特徴行列の要素(成分)aijをインクリメントすることにより、当該特徴行列(図3参照)を生成する。生成された特徴行列はワーキングメモリ126に格納される。
【0040】
上記ステップS12において入力データ解析部122は、図3に示す特徴行列に基づき、当該特徴行列の例えば行の各特徴ベクトルをクラスとして保持する分類結果表(図9(a)参照)も生成する。生成された分類結果表はワーキングメモリ126に格納される。
【0041】
次に判定部123は、生成された特徴行列から、2つの行の特徴ベクトルの組み合わせ及び2つの列の特徴ベクトルの組み合わせを全て抽出し(ステップS13)、それぞれの組み合わせ(2つの特徴ベクトルの間)の結合指数として、それぞれの組み合わせの外積の絶対値を計算する(ステップS14)。図3の例における、行及び列それぞれの特徴ベクトルの組み合わせの外積の絶対値の2乗は、次のようになる。
【0042】
(1)行の特徴ベクトルの組み合わせ
行1−行2:98
行1−行3:566
行1−行4:251
行2−行3:164
行2−行4:17
行3−行4:529
(2)列の特徴ベクトルの組み合わせ
列1−列2:509
列1−列3:153
列2−列3:963
このように第1の実施形態では結合指数として、便宜的に、外積の絶対値に代えて外積の絶対値の2乗が用いられる。ここで、外積の絶対値の2乗を用いても、結合指数が最小値となる組み合わせは同じである。
【0043】
上記特徴ベクトルの組み合わせの外積(外積の2乗)のうち、最も小さい外積は17であり、行2及び行4の特徴ベクトルの組み合わせの外積である。
【0044】
この場合、結合部124は、行2及び行4の特徴ベクトルの組み合わせを、結合指数が最小の組み合わせとして抽出し(ステップS15)、行2及び行4の特徴ベクトルを結合する(ステップ16)。図3の例では、結合部124は、行2の特徴ベクトル(2,2,1)の各成文の値、、つまり行2の列毎の要素a2j(j=1,2,3)の値と、行4の特徴ベクトル(3,4,3)の各成文の値、つまり行4の列毎の要素a4j(j=1,2,3)の値とを加算することにより、行2及び行4の特徴ベクトルを結合する、この1回目の特徴ベクトル結合の結果、生成された特徴ベクトル、つまり結合後の特徴ベクトルは、(5,6,4)となる。
【0045】
結合部124は、図3に示す特徴行列から、行2及び行4の特徴ベクトルを削除し、結合後の特徴ベクトル(5,6,4)を例えば行2の新たな特徴ベクトルとして、当該特徴行列に追加する。つまり結合部124は、図3に示す特徴行列から行4の特徴ベクトルを削除し、行2の特徴ベクトルを、結合後の特徴ベクトル(5,6,4)に更新する(ステップ17)。これにより図3に示す特徴行列は、図8に示すように更新される。
【0046】
結合部124による行2及び行4の特徴ベクトルの結合と特徴行列の更新とは、当該特徴行列上で、行4の特徴ベクトル(3,4,3)の各成文の値を、行2の特徴ベクトル(2,2,1)の各成文の値に加算して、当該行4の特徴ベクトル(3,4,3)を削除することと等価である。
【0047】
図8に示す特徴行列(つまり1回目の特徴ベクトル結合後の特徴行列)に残っている行の特徴ベクトルの数(つまり有効な行の数)は、図3に示す特徴行列と比較して、4から3に減少している。つまり特徴行列の行が圧縮されている。
【0048】
第1の実施形態における具体例では、行のクラスタリングのみ行われる。したがって分類結果表は、特徴行列の行のみ、それらの行の特徴ベクトルそれぞれをクラスとして保持すればよい。そこで結合部124は、行の特徴ベクトルを結合した場合のみ分類結果表を更新する。つまり結合部124は、上述の例のように行4の特徴ベクトルを行2の特徴ベクトルに結合した場合、特徴行列だけでなく、ワーキングメモリ126に格納されている分類結果表も更新する(ステップS17)。
【0049】
図9は、1回目の特徴ベクトル結合前後の分類結果表を示す。つまり分類結果表は、1回目の特徴ベクトル結合後、図9(a)に示す状態から図9(b)に示す状態に更新される。図9(a)に示す分類結果表、即ち1回目の特徴ベクトル結合前の分類結果表(クラスタリング開始時の分類結果表)のクラスは、1回目の特徴ベクトル結合前の特徴行列の全ての行の特徴ベクトル(行要素)、即ち行1〜3の要素(各データユニットの第1の要素)に対応する。ここでは、分類結果表は、クラスと、そのクラスに分類される行の特徴ベクトル(行要素)が属する行とを対応付けて示す。図9(b)に示す分類結果表は、図4に示した分類結果表に相当する。図9(b)に示す分類結果表では、図9(a)に示す分類結果表との比較から明らかなように、クラス2に分類される行の特徴ベクトルが、1回目の特徴ベクトル結合結果である、行2及び行4の特徴ベクトルの結合を反映するように、行2の特徴ベクトルから、行2及び行4の特徴ベクトルの結合後の特徴ベクトルに更新されている。
【0050】
判定部123は、結合部124によって分類結果表が更新されると、その際の特徴行列に残っている行の特徴ベクトルの数が、予め指定された数である「2」であるかを判定する(ステップS18)。このとき特徴行列に残っている行の特徴ベクトルの数は、図8から明らかなように3であるため、ステップS18の判定はNoとなる。
【0051】
この場合、判定部123は、最新の特徴ベクトル結合(ここでは1回目の特徴ベクトル結合)後の特徴行列(図8参照)に基づいて、再び上記ステップS13〜S15を実行する。これにより判定部123は、その時点における特徴行列の行及び列それぞれの特徴ベクトルの全ての組み合わせから、結合指数が最小の特徴ベクトルの組み合わせを抽出する。詳細は省略するが、2回目のステップS13〜S15の実行では、判定部123は、列1及び列3の特徴ベクトルの組み合わせを、結合指数が最小(外積の2乗=153)の組み合わせとして抽出する。
【0052】
すると結合部124は、列1の特徴ベクトル(1,5,0)の各成文の値、つまり列1の行毎の要素ai1(i=1,2,3)の値と、列3の特徴ベクトル(4,4,1)の各成文の値、つまり列3の行毎の要素ai3(i=1,2,3)の値とを加算することにより、列1及び列3の特徴ベクトルを結合する(ステップS16)。この2回目の特徴ベクトル結合の結果、生成された特徴ベクトル、つまり結合後の特徴ベクトルは、(5,9,1)となる。
【0053】
結合部124は、図8に示す特徴行列から、列1及び列3の特徴ベクトルを削除し、結合後の特徴ベクトル(5,9,1)を例えば列1の新たな特徴ベクトルとして、当該特徴行列に追加する。つまり結合部124は、図8に示す特徴行列から列3の特徴ベクトルを削除し、列1の特徴ベクトルを、結合後の特徴ベクトル(5,9,1)に更新する(ステップ17)。これにより図8に示す特徴行列は、図10に示すように更新される。
【0054】
結合部124による列1及び列3の特徴ベクトルの結合と特徴行列の更新とは、当該特徴行列上で、列3の特徴ベクトル(4,4,1)の各成文の値を、列1の特徴ベクトル(1,5,0)の各成文の値に加算して、当該列3の特徴ベクトル(4,4,1)を削除することと等価である。
【0055】
図10に示す特徴行列(つまり2回目の特徴ベクトル結合後の特徴行列)に残っている列の特徴ベクトルの数(つまり有効な列の数)は、図8に示す特徴行列と比較して、3から2に減少している。つまり特徴行列の列が圧縮されている。
【0056】
図10に示す特徴行列の例では、特徴行列に残っている行の特徴ベクトルの数は、1回目の特徴ベクトル結合後と比較して変化しておらず、「3」のままである。この場合、2回目の特徴ベクトル結合後のステップS18の判定はNoとなり、判定部123は、当該2回目の特徴ベクトル結合後の特徴行列(図10参照)に基づいて、3回目のステップS13〜S15を実行する。詳細は省略するが、3回目のステップS13〜S15の実行では、判定部123は、行1及び行2の特徴ベクトルの組み合わせを、結合指数が最小(外積の2乗=441)の組み合わせとして抽出する。
【0057】
すると結合部124は、行1の特徴ベクトル(5,1)の各成文の値と行2の特徴ベクトル(9,6)の各成文の値とを加算することにより、行1及び行2の特徴ベクトルを結合する(ステップS16)。この3回目の特徴ベクトル結合の結果、生成された特徴ベクトル、つまり結合後の特徴ベクトルは、(14,7)となる。
【0058】
結合部124は、図10に示す特徴行列から、行1及び行2の特徴ベクトルを削除し、結合後の特徴ベクトル(14,7)を例えば行1の新たな特徴ベクトルとして、当該特徴行列に追加する。つまり結合部124は、図10に示す特徴行列から行2の特徴ベクトルを削除し、行1の特徴ベクトルを、結合後の特徴ベクトル(14,7)に更新する(ステップ17)。これにより図10に示す特徴行列は、図11に示すように更新される。
【0059】
結合部124による行1及び行2の特徴ベクトルの結合と特徴行列の更新とは、当該特徴行列上で、行2の特徴ベクトル(9,6)の各成文の値を、行1の特徴ベクトル(5,1)の各成文の値に加算して、当該行2の特徴ベクトル(9,6)を削除することと等価である。
図11に示す特徴行列に残っている行の特徴ベクトルの数は、図10に示す特徴行列と比較して、3から2に減少している。つまり特徴行列の行が圧縮されている。
【0060】
結合部124は、行の特徴ベクトルを結合したことから、この特徴ベクトル結合結果に基づいて、特徴行列だけでなく分類結果表も更新する(ステップS17)。
図5は、3回目の特徴ベクトル結合後の分類結果表を示したものである。つまり分類結果表は、3回目の特徴ベクトル結合後、図9(b)に示す状態から図5に示す状態に更新される。図5に示す分類結果表では、図9(b)に示す分類結果表との比較から明らかなように、クラス1に分類される行の特徴ベクトルが、3回目の特徴ベクトル結合結果である、行1及び行3の特徴ベクトルの結合を反映するように、行1の特徴ベクトルから、行1及び行3の特徴ベクトルの結合後の特徴ベクトルに更新されている。このとき、図11に示す3回目の特徴ベクトル結合後の特徴行列に残っている行の特徴ベクトルの数は予め指定された数「2」に一致する(ステップS18のYes)。
【0061】
すると出力部125は、図5に示す最終的な分類結果表及び図2に示す入力データに基づいてクラスタリング結果を生成し、当該クラスタリング結果を出力データとして出力する(ステップS19)。ここでは、出力部125は、入力データのデータユニット毎にそのデータユニットが、どのクラスに属するかを分類結果表に基づいて分類し、分類されたクラスを示すデータを対応するデータユニットに付加することで、クラスタリング結果を生成する。図6は、このときのクラスタリング結果(出力データ)の一例を示したものである。
【0062】
なお、第1の実施形態では、分類結果表は、行の各特徴ベクトルをクラスとして保持し、行の特徴ベクトルが結合された場合にのみ更新される。しかし、分類結果表が、列の各特徴ベクトルをクラスとして保持し、列の特徴ベクトルが結合された場合にのみ更新される構成としても構わない。このような構成では、特徴行列に残されている、列の特徴ベクトルの数、または行及び列の両方の特徴ベクトルの数が予め指定された数(クラスの数)まで減少した時点で、判定処理及び結合処理の繰り返しを終了してもよい。
【0063】
[第2の実施形態]
次に第2の実施形態に係るクラスタリングユニットを備えたデータ処理システムについて説明する。この第2の実施形態に係るデータ処理システムの構成は、第1の実施形態と同様であるため、以下の説明では図1を援用する。
【0064】
第2の実施形態の特徴は、第1の実施形態と異なって、特徴行列における行及び列それぞれの結合指数を単純に比較するのではなく、例えば、特徴行列の行の圧縮を優先させるとか、特徴行列の行の圧縮のみを行うことにある。そのため第2の実施形態では、判定部123から結合部124に渡される特徴ベクトルを当該判定部123が抽出するための抽出基準として、第1の実施形態のそれとは異なるものが適用される。
【0065】
例えば、第1の実施形態では判定部123は、行及び列それぞれ任意の特徴ベクトル間の結合指数を計算し、結合指数が最小の組み合わせを抽出していた。これに対し、第2の実施形態では、判定部123が結合指数を計算する対象が、行または列のいずれか一方の特徴ベクトルに限定される。
【0066】
<第2の実施形態の具体例>
以下、第2の実施形態の具体例について、図7のフローチャートを援用して説明する。但し第2の実施形態では、特徴行列の列の圧縮は行われず、行の圧縮のみ行われるものとする。ここで、入力データは第1の実施形態と同様であるとする(図2参照)。この場合、特徴行列の生成までの動作は第1の実施形態と同様であり、1回目の特徴ベクトル結合に関しても第1の実施形態と同様である(図8参照)。
【0067】
2回目の特徴ベクトル結合では、判定部123は、行1及び行3の特徴ベクトルの組み合わせを、結合指数が最小(外積の2乗=566)の組み合わせとして抽出する(ステップS15)。すると、結合部124は、例えば行3の特徴ベクトル(0,6,1)の各成文の値を、行1の特徴ベクトル(1,1,4)の各成文の値に加算して、当該行3の特徴ベクトル(0,6,1)を削除する(ステップS16,S17)。この結果、2回目の特徴ベクトル結合後の新たな行1の特徴ベクトルは(1,7,5)となる。特徴ベクトル結合は2回目で完了し、その時点での分類結果表に基づいて、入力データのデータユニット毎にそのデータユニットが、どのクラスに属するかが決定される。
図12は一連の特徴ベクトル結合完了後の分類結果表の一例を示し、図13は図12に示す分類結果表及び図2に示す入力データに基づくクラスタリング結果の一例を示す。図13のクラスタリング結果において、クラスAは図12におけるクラス1に、クラスBは図12におけるクラス2に、それぞれ対応する。
【0068】
第2の実施形態によれば、第1の要素(データ1)と第2の要素(データ2)を同列に扱うのが適当でない場合や、第2の要素が第1の要素の従属要素である場合などに、そのような実態を加味したクラスタリングを行うことが可能となる。
【0069】
なお、第2の実施形態において、行または列のいずれか一方の結合指数を例えばユーザによって指定された重みで重み付けして、その重み付けされた結合指数(つまり結合指数と重みとの積)を、他方の結合指数と比較し、最小のものを抽出してもよい。
【0070】
また、上記一方の結合指数及び上記他方の結合指数に、いずれを重要視するかに応じてそれぞれ異なる重みを付してもよい。つまり判定部123は、特徴行列の行及び列を対象に、当該特徴行列から同一次元同士で2つの特徴ベクトルの組み合わせを逐次抽出して、当該2つの特徴ベクトルの組み合わせ毎にその2つの特徴ベクトルの間の結合指数を計算し、行の2つの特徴ベクトルの間の結合指数を、当該行に対応する第1の重みで重み付けし、列の2つの特徴ベクトルの間の結合指数を、当該列に対応する第2の重みで重み付けし、重み付け後の結合指数が最小の2つの特徴ベクトルを抽出するようにしてもよい。重みが1の場合、重み付けしないことと等価である。
また、ユーザによって指定された数、或いは予め指定された数に結合されるまでは、行または列のいずれか一方のみ抽出を行い、その後、他方の抽出を行うことも可能である。
【0071】
[第3の実施形態]
次に第3の実施形態に係るクラスタリングユニットを備えたデータ処理システムについて説明する。この第3の実施形態に係るデータ処理システムの構成も、第1の実施形態と同様であるため、以下の説明では図1を援用する。
【0072】
第3の実施形態の特徴は、結合部124が行及び列双方の分類結果表を記録し、特徴行列のゼロ以外の成分の残数が、例えばユーザによって指定された、クラスタリングしたい数(以下、クラスタリング数と称する)以下になった時点で、クラスタリング結果が出力される点にある。この場合、特徴行列の各成分をクラスタリング結果のクラスとし、各データユニットは第1の要素が結合された行と第2の要素が結合された列の交点(組み合わせ)に対応するクラスに分類されたものとする。
【0073】
<第3の実施形態の具体例>
以下、第3の実施形態の具体例について、クラスタリング数が4であるものとして説明する。入力データが第1及び第2の実施形態と同様であるとすると(図2参照)、第2の実施形態と同様の経過を辿り、3回目の特徴ベクトル結合(つまり圧縮)が完了した時点で、特徴行列の行数は2で列数は2となる。この特徴行列のゼロ以外の成分の残数は4であり、クラスタリング数4以下である。そこで、圧縮(結合)処理は終了する。
【0074】
図14は、圧縮完了の時点における行の分類結果表及び列の分類結果表を示すもので、同図(a)は行の分類結果表を、同図(b)は列の分類結果表を、それぞれ示す。行の分類結果表は、図5に示した第1の実施形態における分類結果表と同様である。
【0075】
出力部125は、図14(a)に示す行の分類結果表、図14(b)に示す列の分類結果表及び入力データ(図8参照)に基づいてクラスタリング結果を生成し、当該クラスタリング結果を出力データとして出力する。
【0076】
図15は図14(a)及び(b)の分類結果表で示される、第1の要素が結合された行及び第2の要素が結合された列の組み合わせとクラスを示す記号との関係を示し、図16は第3の実施形態におけるクラスタリング結果の一例を示す。図15から明らかなように、図16のクラスタリング結果において、クラスAは図14(a)の分類結果表のクラス1及び図14(b)の分類結果表のクラス1の組み合わせに、クラスBは図14(a)の分類結果表のクラス1及び図14(b)の分類結果表のクラス2の組み合わせに、クラスCは図14(a)の分類結果表のクラス3及び図14(b)の分類結果表のクラス1の組み合わせに、そしてクラスDは図14(a)の分類結果表のクラス3及び図14(b)の分類結果表のクラス2の組み合わせに、それぞれ対応する。
【0077】
第3の実施形態によれば、第1の要素と第2の要素をそれぞれ独立の要素とみなし、第1及び第2の要素をそれぞれ主要素とする観点から行ったクラスタリング結果を取得することができる。このため第3の実施形態は、第1及び第2の要素をそれぞれクラスタリングしたいが、それぞれの要素は他方の要素で特徴付けられるような場合のデータに対して有効である。
なお、第3の実施形態に、第2の実施形態を組み合わせてもよい。
【0078】
[第4の実施形態]
次に第4の実施形態に係るクラスタリングユニットを備えたデータ処理システムについて説明する。この第4の実施形態に係るデータ処理システムの構成も、第1の実施形態と同様であるため、以下の説明では図1を援用する。
【0079】
第4の実施形態の第1の特徴は、行の圧縮を記録する行圧縮特徴行列と、列の圧縮を記録する列圧縮特徴行列とを保持し、行の特徴ベクトルの結合指数の計算には行圧縮特徴行列を用い、列の特徴ベクトルの結合指数の計算には列圧縮特徴行列を用いる点にある。
第4の実施形態の第2の特徴は、行の特徴ベクトルの結合を行圧縮特徴行列で行い、列の特徴ベクトルの結合を列圧縮特徴行列で行う点にある。
【0080】
第4の実施形態の第3の特徴は、行の分類結果表と、列の分類結果表とを保持し、行の特徴ベクトルの結合(行圧縮特徴行列の更新)に応じて行の分類結果表を更新し、列の特徴ベクトルの結合(列圧縮特徴行列の更新)に応じて列の分類結果表を更新する点にある。
【0081】
<第4の実施形態の具体例>
以下、第4の実施形態の具体例について説明する。ここでは、行圧縮特徴行列の行の数が2となった時点で圧縮(結合)が終了するものとする。また、結合指数として、第1の実施形態等と同様に、特徴ベクトル同士の外積の絶対値が用いられる。
【0082】
入力データ(クラスタリング対象データセット)が第1の実施形態と同様であるとすると(図2参照)、入力データ解析部122は、当該入力データに基づいて行圧縮特徴行列及び列圧縮特徴行列を生成する。生成された行圧縮特徴行列及び列圧縮特徴行列は、図3に示す特徴行列と同様である。生成された行圧縮特徴行列及び列圧縮特徴行列を、それぞれ図17(a)及び(b)に示す。なお、第3の実施形態では、入力データに基づいて行圧縮特徴行列が生成され、この生成された行圧縮特徴行列の複製が列圧縮特徴行列として生成される(用いられる)。
【0083】
1回目の圧縮は第1の実施形態と同様であり、図17(a)に示す行圧縮特徴行列において、行4の特徴ベクトルを行2の特徴ベクトルに結合することにより、当該行圧縮特徴行列の行が圧縮される。図18は、1回目の圧縮が完了した後の行圧縮特徴行列を示す。列圧縮特徴行列は変化しない。
1回目の圧縮が完了すると、結合部124は、行の分類結果表を更新する。図19は、1回目の圧縮完了後の行の分類結果表を示す。この図19に示す行の分類結果表は、図9(b)に示す分類結果表と同様である。
【0084】
2回目の圧縮も第1の実施形態と同様であり、図17(b)に示す列圧縮特徴行列において、列3の特徴ベクトルを列1の特徴ベクトルに結合することにより、当該列圧縮特徴行列の列が圧縮される。図20は、2回目の圧縮が完了した後の列圧縮特徴行列を示す。行圧縮特徴行列は変化しない。
2回目の圧縮が完了すると、結合部124は、列の分類結果表を更新する。図21は、2回目の圧縮完了後の列の分類結果表を示す。
【0085】
3回目の圧縮では、図18に示す行圧縮特徴行列において、行3の特徴ベクトルを行1の特徴ベクトルに結合することにより、当該行圧縮特徴行列の行が圧縮される。図22は、3回目の圧縮が完了した後の行圧縮特徴行列を示す。列圧縮特徴行列は変化しない。
3回目の圧縮が完了すると、結合部124は、行の分類結果表を更新する。図23は、3回目の圧縮完了後の行の分類結果表を示す。この図23に示す行の分類結果表は、図12に示す分類結果表と同様である。この時点で、図22に示す行圧縮特徴行列から明らかなように、行の特徴ベクトルの残りが2つとなる。そこで結合部124は、一連の結合処理を終了する。
【0086】
すると出力部125は、図23に示す行の分類結果表、図21に示す列の分類結果表及び入力データ(図2参照)に基づいてクラスタリング結果を生成し、当該クラスタリング結果を出力データとして出力する。
【0087】
図24は第4の実施形態におけるクラスタリング結果の一例を示す。図24のクラスタリング結果において、クラスAは図23の行の分類結果表のクラス1及び図21の列の分類結果表のクラス1の組み合わせに、クラスBは図23の行の分類結果表のクラス1及び図21の列の分類結果表のクラス2の組み合わせに、クラスCは図23の行の分類結果表のクラス2及び図21の列の分類結果表のクラス1の組み合わせに、そしてクラスDは図23の行の分類結果表のクラス2及び図21の列の分類結果表のクラス2の組み合わせに、それぞれ対応する。
【0088】
第4の実施形態によれば、行の圧縮と列の圧縮とが、それぞれ行圧縮行列及び列圧縮行列上で行われるため、行の圧縮結果と列の圧縮結果とが互いに干渉するのを防止でき、行及び列それぞれを一定の基準で独立にクラスタリングした結果を取得できる。このため第4の実施形態は、例えば入力データの態様を重視したクラスタリングに有効である。
なお、第4の実施形態に、第2の実施形態及び/または第3の実施形態を組み合わせてもよい。また、第1乃至第4の実施形態において、入力データ(データセット)の各データユニットは、2つの要素から構成されている。しかし、各データユニットが3つ以上の要素から構成されていても構わない。この場合、データユニットを構成する要素の数をn(n≧3)とすると、入力データ解析部122は、n次元(つまり多次元)の特徴行列を構成すればよい。また入力データ解析部122が、データユニットを構成するn個の要素の集合を、1つ以上の要素から構成される、上記nより少なく2より多いm個(n>m>2)の要素グループに区分して、当該m個の要素グループの各々を次元とし、その次元の組み合わせに対応するデータユニットの出現回数を成分とするm次元特徴行列を構成してもよい。また、上記mが2であっても構わない。つまり、3つ以上の要素のうちの1つ以上の要素から構成される第1の要素グループを行(第1の次元)とし、3つ以上の要素のうちの残りの要素から構成される第2の要素グループを列(第2の次元)とする特徴行列(2次元の特徴行列)を構成して構わない。
【0089】
以上説明した少なくとも1つの実施形態によれば、特定の1要素ではなく、複数の要素を複合的に考慮してクラスタリングすることで、より精度の良いクラスタリング結果を得ることができるデータクラスタリング装置及び方法を提供することができる。
【0090】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0091】
10…データ処理システム、11…データ保管部、12…クラスタリングユニット(データクラスタリング装置)、121…入力部、122…入力データ解析部、123…判定部、124…結合部、125…出力部、126…ワーキングメモリ(記憶手段)。

【特許請求の範囲】
【請求項1】
複数の要素から構成されるデータユニットの集合を含むクラスタリング対象のデータセットを入力する入力手段と、
前記入力されたデータセットに基づき、前記複数の要素を1つ以上の要素から構成される複数の要素グループに区分して、当該複数の要素グループの各々を次元とし、その次元の組み合わせに対応するデータユニットの出現回数を成分とする多次元特徴行列を生成する解析手段と、
前記入力されたデータセット、前記多次元特徴行列、及び前記多次元特徴行列の1つ以上の次元の各特徴ベクトルをクラスとして保持する分類結果表を格納する記憶手段と、
前記多次元特徴行列の前記1つ以上の次元を対象に、前記多次元特徴行列から同一次元同士で2つの特徴ベクトルの組み合わせを逐次抽出して、当該2つの特徴ベクトルの組み合わせ毎にその2つの特徴ベクトルの間の結合指数を計算し、その結合指数が第1の条件を満たす2つの特徴ベクトルを抽出するための判定処理を実行する判定手段と、
前記第1の条件を満たす2つの特徴ベクトルを結合し、その結合結果に応じて前記多次元特徴行列を更新し、且つ当該第1の条件を満たす2つの特徴ベクトルが、結合後の特徴ベクトルに対応するクラスに分類されたことを示すように、前記分類結果表を更新するための結合処理を実行する結合手段と、
出力手段とを具備し、
前記判定手段及び前記結合手段は、前記更新後の多次元特徴行列が第2の条件を満たすまで、それぞれ前記判定処理及び前記結合処理を繰り返し、
前記出力手段は、前記第2の条件を満たした際の前記分類結果表に基づいて、前記入力されたデータセットのデータユニット毎にクラス分けしたクラスタリング結果を出力する
データクラスタリング装置。
【請求項2】
前記結合手段は、前記第1の条件を満たす2つの特徴ベクトルを前記多次元特徴行列から削除し、且つ前記結合後の特徴ベクトルを前記多次元特徴行列に追加することにより、前記多次元特徴行列を更新する請求項1記載のデータクラスタリング装置。
【請求項3】
前記第2の条件は、前記更新後の多次元特徴行列における予め指定された次元の特徴ベクトルの数が予め指定されたクラス数に一致することであり、
前記1つ以上の次元は、前記予め指定された次元を含み、
前記出力手段は、前記入力されたデータセットの各データユニットを、当該データユニットに含まれている前記複数の要素グループのうち前記予め指定された次元の要素グループが分類されたクラスに分類する
請求項1または2に記載のデータクラスタリング装置。
【請求項4】
前記判定手段は、前記結合指数が最小の2つの特徴ベクトルを前記第1の条件を満たす2つの特徴ベクトルとして抽出する請求項1乃至3のいずれかに記載のデータクラスタリング装置。
【請求項5】
前記結合指数は、対応する前記2つの特徴ベクトルの各々の重要度の積が小さく、当該2つの特徴ベクトルのなす角度が小さいものほど小さくなる請求項1乃至4のいずれかに記載のデータクラスタリング装置。
【請求項6】
前記複数の要素グループは第1の要素グループ及び第2の要素グループから構成され、
前記多次元特徴行列は、前記第1の要素グループを行の次元とし、前記第2の要素グループを列の次元とする2次元特徴行列である
請求項1または2に記載のデータクラスタリング装置。
【請求項7】
前記第2の条件は、前記更新後の2次元特徴行列における前記予め指定された次元の特徴ベクトルの数が予め指定されたクラス数に一致することであり、
前記分類結果表は前記予め指定された次元の特徴ベクトルの結合を保持し、
前記出力手段は、前記入力されたデータセットの各データユニットを、当該データユニットに含まれている前記複数の要素グループのうち前記予め指定された次元の要素グループが分類されたクラスに分類する
請求項6記載のデータクラスタリング装置。
【請求項8】
前記1つ以上の次元は、前記2次元特徴行列の行及び列であり、
前記第2の条件は、前記更新後の2次元特徴行列の行数及び列数の積が予め指定されたクラス数に一致することであり、
前記分類結果表は前記行の特徴ベクトルの結合及び前記列の特徴ベクトルの結合を保持し、
前記出力手段は、前記入力されたデータセットの各データユニットを、当該データユニットに含まれている前記複数の要素グループのうち前記第1の要素グループが分類された行と前記第2の要素グループが分類された列との組み合わせに対応するクラスに分類する
請求項6記載のデータクラスタリング装置。
【請求項9】
前記2次元特徴行列は、前記第1の要素グループを行の次元とし、前記第2の要素グループを列の次元とする行圧縮特徴行列と、前記2次元特徴行列の更新前において前記行圧縮特徴行列に一致する内容の列圧縮特徴行列とから構成され、
前記分類結果表は、前記行圧縮特徴行列の行の各特徴ベクトルをクラスとして保持する第1の分類結果表と前記列圧縮特徴行列の列の各特徴ベクトルをクラスとして保持する第2の分類結果表とから構成され、
前記判定手段は、前記判定処理により、前記多次元特徴行列の前記1つ以上の次元を対象に、前記行圧縮特徴行列及び前記率圧縮特徴行列から同一次元同士で2つの特徴ベクトルの組み合わせを逐次抽出して、当該2つの特徴ベクトルの組み合わせ毎にその2つの特徴ベクトルの間の結合指数を計算し、その結合指数が前記第1の条件を満たす2つの特徴ベクトルを抽出し、
前記結合手段は、前記第1の条件を満たす2つの特徴ベクトルを結合し、当該第1の条件を満たす2つの特徴ベクトルが行の特徴ベクトルである場合には、前記結合結果に応じて前記行圧縮特徴行列を更新し、且つ当該第1の条件を満たす2つの特徴ベクトルが、結合後の特徴ベクトルに対応するクラスに分類されたことを示すように、前記第1の分類結果表を更新し、当該第1の条件を満たす2つの特徴ベクトルが列の特徴ベクトルである場合には、前記結合結果に応じて前記列圧縮特徴行列を更新し、且つ当該第1の条件を満たす2つの特徴ベクトルが、結合後の特徴ベクトルに対応するクラスに分類されたことを示すように、前記第2の分類結果表を更新し、
前記出力手段は、前記第2の条件を満たした際の前記第1の分類結果表及び前記第2の分類結果表に基づいて前記入力されたデータセットの各データユニットを分類する
請求項6記載のデータクラスタリング装置。
【請求項10】
入力手段、解析手段、判定手段、結合手段及び記憶手段を備えたデータクラスタリング装置におけるデータクラスタリング方法であって、
前記入力手段が、複数の要素から構成されるデータユニットの集合を含むクラスタリング対象のデータセットを入力するステップと、
前記解析手段が、前記入力されたデータセットを前記記憶手段に格納して、当該入力されたデータセットに基づき、前記複数の要素を1つ以上の要素から構成される複数の要素グループに区分して、当該複数の要素グループの各々を次元とし、その次元の組み合わせに対応するデータユニットの出現回数を成分とする多次元特徴行列を生成し、且つ前記多次元特徴行列の1つ以上の次元の各特徴ベクトルをクラスとして保持する分類結果表を生成して、それぞれ前記記憶手段に格納するステップと、
前記多次元特徴行列の前記1つ以上の次元を対象に、前記判定手段が、前記多次元特徴行列から同一次元同士で2つの特徴ベクトルの組み合わせを逐次抽出して、当該2つの特徴ベクトルの組み合わせ毎にその2つの特徴ベクトルの間の結合指数を計算し、その結合指数が第1の条件を満たす2つの特徴ベクトルを抽出するための判定処理を実行するステップと、
前記結合手段が、前記第1の条件を満たす2つの特徴ベクトルを結合し、その結合結果に応じて前記多次元特徴行列を更新し、且つ当該第1の条件を満たす2つの特徴ベクトルが、結合後の特徴ベクトルに対応するクラスに分類されたことを示すように、前記分類結果表を更新するための結合処理を実行するステップと、
前記更新後の多次元特徴行列が第2の条件を満たすまで、前記判定手段及び前記結合手段が、それぞれ前記判定処理及び前記結合処理を繰り返すステップと、
前記出力手段が、前記第2の条件を満たした際の前記分類結果表に基づいて、前記入力されたデータセットのデータユニット毎にクラス分けしたクラスタリング結果を出力するステップと
を具備するデータクラスタリング方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate


【公開番号】特開2012−118584(P2012−118584A)
【公開日】平成24年6月21日(2012.6.21)
【国際特許分類】
【出願番号】特願2010−264942(P2010−264942)
【出願日】平成22年11月29日(2010.11.29)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】