説明

データ解析装置、データ解析プログラムおよびその記録媒体

【課題】異なる時間スケールで変化する特徴量を考慮して、時系列データ集合を解析することを課題とする。
【解決手段】本発明は、構成要素が離散値のベクトルとして表現されたデータを時系列に複数集めた時系列データ集合を、前記構成要素それぞれに対して推定される分類項目である複数のトピックと、前記トピックの推定に関する確率モデルと、に基づいて解析するデータ解析装置1である。演算手段3は、複数の異なる時間スケールそれぞれに関して所定のトピックを伴った所定の構成要素が生成する確率の集合である多重スケール確率集合424等を用いて演算することで、構成要素に付与するトピックを推定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、異なる時間スケールで変化する特徴量(例えば、文書データにおける単語生成確率)を考慮して時系列のデータ集合(例えば、文書データ集合)を解析する技術に関する。なお、本発明は、データ集合の構成要素(例えば、文書データにおける単語)を離散値のベクトルとして表現することが可能なデータで、かつ、時間情報が付与されているデータを対象とする。
【背景技術】
【0002】
近年、オンライン技術やデータベース技術の発展により、膨大な文書データを日々収集できるようになった。そして、時間情報に基づいて文書データを解析することにより、流行トピックの追跡、文書クラスタリング、ブラウジングの高度化が可能となる。例えば、非特許文献1では、文書データの時系列解析法について開示されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】David M. Blei, John D. Lafferty, “Dynamic Topic Models”, Proceedings of the 23rd International Conference on Machine Learning (ICML2006), 113-120, 2006
【発明の概要】
【発明が解決しようとする課題】
【0004】
非特許文献1などの従来技術では、あるトピック(分類項目)で用いられる単語の時間変化は一様であると仮定している。しかし、現実の文書データを見ると、この仮定は成り立たない場合がある。例えば、政治トピックの場合を考えると、憲法、法律、国会、総理大臣などの単語は長期間(百年のスケール)に渡って、高い確率で現れる。一方、消費税などの単語は数十年のスケールで、また、現在の新人国会議員の氏名、現在審議されている法案名などは、数年のスケールで見た場合に、高い確率で現れる。つまり、単語の出現の時間スケールを考慮することで、時系列データ集合を解析する精度を上げることが期待できる。
【0005】
そこで、本発明は、前記事情に鑑みてなされたものであり、異なる時間スケールで変化する特徴量を考慮して、時系列データ集合を解析することを課題とする。
【課題を解決するための手段】
【0006】
前記課題を解決するために、本発明は、構成要素が離散値のベクトルとして表現されたデータを時系列に複数集めた時系列データ集合を、構成要素それぞれに対して推定される分類項目である複数のトピックと、トピックの推定に関する確率モデルと、に基づいて解析するデータ解析装置であって、データを入力する入力手段と、時系列データ集合、データにおける構成要素それぞれに対して推定されたトピックが時刻毎に集められた帰属トピック集合、確率モデルにおけるパラメータが時刻毎に集められたパラメータ集合、複数の異なる時間スケールそれぞれに関して所定のトピックを伴った所定の構成要素が生成する確率の集合である多重スケール確率集合、および、帰属トピック集合とパラメータ集合とが時系列データ集合を尤もらしく表している度合いである尤度を多重スケール確率集合に基づいて最大化するための目的関数、を記憶する記憶手段と、確率モデルに基づく演算を時刻単位で行う演算手段と、演算結果を出力する出力手段と、を備える。
演算手段は、帰属トピック集合に関して、所定時刻における入力されたデータの構成要素それぞれに対してランダムにトピックを推定することで初期化を行う初期化部と、帰属トピック集合とパラメータ集合との更新処理を、目的関数が収束するまで繰り返す繰り返し制御部と、多重スケール確率集合を更新する多重スケール確率推定部と、を有し繰り返し制御部は、パラメータ集合と多重スケール確率集合とを用いて、所定時刻における入力データの構成要素それぞれに対して推定されているトピックを推定し直すことで、帰属トピック集合を更新する帰属トピック推定部と、パラメータ集合と多重スケール確率集合とを用いて、パラメータ集合におけるパラメータのうち少なくとも一部を推定し直すことで、パラメータ集合を更新するパラメータ推定部と、を備える。
多重スケール確率推定部は、所定の時間スケールに関して所定のトピックを伴った所定の構成要素が生成する確率は、所定時刻よりも所定の時間スケール分だけ前の時刻から所定時刻までの時間帯において所定のトピックを伴った所定の構成要素が生成する確率であるという定義に基づき、確率モデルと、パラメータ集合と、多重スケール確率集合とを用いて、所定時刻の次の時刻の多重スケール確率集合を推定することで多重スケール確率集合を更新することを特徴とする。
【0007】
かかる発明によれば、帰属トピック推定部が帰属トピック集合を更新し、パラメータ推定部がパラメータ集合を更新するが、その際、複数の異なる時間スケールそれぞれに関して所定のトピックを伴った所定の構成要素が生成する確率の集合である多重スケール確率集合に基づいて尤度を最大化するための目的関数が収束するまで、それらの更新を行う。そして、多重スケール確率推定部は、所定の時間スケールに関して所定のトピックを伴った所定の構成要素が生成する確率が、所定時刻よりも所定の時間スケール分だけ前の時刻から所定時刻までの時間帯において所定のトピックを伴った所定の構成要素が生成する確率であるという定義に基づき、確率モデルと、パラメータ集合と、多重スケール確率集合とを用いて、所定時刻の次の時刻の多重スケール確率集合を推定することで多重スケール確率集合を更新する。つまり、複数の異なる時間スケールを考慮した上で、時系列データ集合を解析することができる。
【0008】
また、本発明は、多重スケール確率推定部が、所定の時間スケールに関して、当該時間帯において所定のトピックを伴った所定の構成要素が生成する確率を計算するとき、当該所定時刻よりも1つ前の時刻の当該所定の時間スケールよりも短い時間スケールに関するパラメータ集合を用いて、時間スケールが大きいほど少ない頻度で多重スケール確率集合を更新することを特徴とする。
【0009】
かかる発明によれば、多重スケール確率推定部は、所定の時間スケールに関して、当該時間帯において所定のトピックを伴った所定の構成要素が生成する確率を計算するとき、当該所定時刻よりも1つ前の時刻の当該所定の時間スケールよりも短い時間スケールに関するパラメータ集合を用いて、時間スケールが大きいほど少ない頻度で多重スケール確率集合を更新する。したがって、記憶手段に記憶しておくべきパラメータ集合の情報量は、当該時間帯分ではなく所定時刻よりも1つ前の時刻分だけでよく、少なくて済む。
【0010】
また、本発明は、前記したデータ解析装置としてコンピュータを機能させるためのデータ解析プログラムである。
かかる発明によれば、このプログラムをインストールされたコンピュータが、このプログラムに基づいた各機能を実現することができる。
【0011】
また、本発明は、データ解析プログラムが記録されたことを特徴とするコンピュータに読み取り可能な記録媒体である。
かかる発明によれば、この記録媒体を装着されたコンピュータが、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。
【発明の効果】
【0012】
本発明によれば、異なる時間スケールで変化する特徴量を考慮して、時系列データ集合を解析することができる。
【図面の簡単な説明】
【0013】
【図1】本実施形態に係るデータ解析装置の構成を示すブロック図である。
【図2】本実施形態に係る帰属トピック推定部の構成を示すブロック図である。
【図3】本実施形態に係るパラメータ推定部の構成を示すブロック図である。
【図4】本実施形態に係る多重スケール確率推定部の構成を示すブロック図である。
【図5】データ解析装置による処理のフローチャートである。
【図6】単語生成確率の更新を効率的に行う処理のフローチャートである。
【図7】ct,z,s,wの更新イメージを示す図である。
【図8】スケール数を変化させたときの予測誤差を示す図である。
【発明を実施するための形態】
【0014】
以下、本発明を実施するための形態(以下、「実施形態」という。)について、図面を参照して説明する。図1に示すデータ解析装置1は、各構成要素を離散値のベクトルとして表現することが可能なデータ(文書データなど)で、かつ、時間情報が付与されているデータを、確率モデルに基づいて解析する装置である。以下では、説明を簡単にするために、解析する対象のデータを文書データとして説明する。また、文書データを構成する各単語に付与されるトピックは、文書データに埋め込まれるクラスやベクトルで表すことが可能であり、例えばジャンル(政治、経済、スポーツなど)を意味する。データ解析装置1は、入力手段2と、演算手段3と、記憶手段4と、出力手段5とを備えている。各手段2〜5はバス6に接続されている。
【0015】
入力手段2は、情報を入力する手段であり、例えば、キーボード、マウス、ディスクドライブ装置などから構成される。
【0016】
演算手段3は、例えば、CPU(Central Processing Unit)およびRAM(Random Access Memory)から構成される主制御装置である。この演算手段3は、初期化部30、繰り返し制御部300、多重スケール確率推定部33、メモリ34を含んで構成される。繰り返し制御部300は、帰属トピック推定部31およびパラメータ推定部32を含んで構成され、後記する尤度が収束するまで、帰属トピック推定部31およびパラメータ推定部32による処理を繰り返す。演算手段3は、記憶手段4から、初期化プログラム410、帰属トピック推定プログラム411、パラメータ推定プログラム412、多重スケール確率推定プログラム413をそれぞれ読み込み、メモリ34に展開し、実行することで、前記した初期化部30、帰属トピック推定部31、パラメータ推定部32、多重スケール確率推定部33をそれぞれ実現する(各部30〜33の詳細は後記)。
【0017】
記憶手段4は、情報を記憶する手段であり、例えば、一般的なハードディスク装置などから構成され、プログラム格納部41と、データ格納部42と、を含む。
【0018】
プログラム格納部41には、演算手段3で用いられるプログラムとして、初期化プログラム410、帰属トピック推定プログラム411、パラメータ推定プログラム412、多重スケール確率推定プログラム413が格納されている。また、データ格納部42には、演算手段3による演算で用いられるデータとして、入力データ421、帰属トピック集合422、パラメータ集合423、多重スケール確率集合424が格納されている。入力データ421は、時系列のデータ集合であり、例えば、入力手段2を介して入力され、データ格納部42に格納される。また、帰属トピック集合422、多重スケール確率集合424は、演算手段3による演算によって生成(更新)されるデータであり、詳細については後記する。パラメータ集合423は、例えば、

などのパラメータから構成されるが、詳細については後記する。
【0019】
出力手段5は、情報を出力するための手段であり、例えば、グラフィックボード(出力インタフェース)およびそれに接続されたモニタである。
【0020】
図2に示すように、帰属トピック推定部31は、パラメータ読込部311、帰属割当部312、帰属書込部313を備えている(詳細は図5の説明とともに後記)。
【0021】
図3に示すように、パラメータ推定部32は、パラメータ読込部321、パラメータ処理部322、パラメータ書込部323を備えている(詳細は図5の説明とともに後記)。
【0022】
図4に示すように、多重スケール確率推定部33は、パラメータ読込部331、確率推定部332、確率書込部333を備えている(詳細は図5の説明とともに後記)。
【0023】
次に、図5を参照して、データ解析装置1が行う処理について説明する。なお、本実施形態では、各単語に対して1つずつのトピックが付与されるものとする。
【0024】
データ解析装置1は、時刻t=0から処理を開始するが(ステップS0)、以下では、説明の都合上、現在の時刻(所定時刻)をt(整数)として説明する。時刻tに、入力データ(入力データ421の一部)としてD個の文書の集合が与えられたとし、各文書は単語集合wt,dで表現される。ここで、

は、内容を表す文書中に含まれる単語の集合を表す。その他の表記についても説明する。なお、本実施形態における太字の文字は複数の要素からなることを表し、文章中の文字で太字でないものもそれらと整合をとっているものとする。
【0025】
は、時刻tの文書数である。
t,dは、時刻tの文書dの単語数である。
t,d,nは、時刻tの文書dのn番目の単語である(wt,d,n∈{1,・・・,W})。なお、単にwと記載することもある。
Wは、語彙数である。
Zは、トピック数(トピックzの個数)である。
t,d,nは、時刻tの文書dのn番目の単語のトピックである(Zt,d,n∈{1,・・・,Z})。なお、単にzと記載することもある。
Sは、スケール数(スケールsの個数)である(詳細は後記)。
【0026】
まず、演算手段3は、現在の時刻tの入力データ集合(単語集合)

(入力データ421)を読み込む(ステップS1)。次に、初期化部30は、単語それぞれに対して付与(推定)されたトピックの集合である帰属トピック集合

(帰属トピック集合422)をランダムに初期化する。ここで、ランダムに初期化するとは、例えば、各単語に無作為に1つずつのトピックを付与することを意味する。
【0027】
次に、帰属トピック推定部31によって、帰属トピック集合422を推定する(ステップS3:詳細は後記)。続いて、パラメータ推定部32は、パラメータ集合423を推定する(ステップS4:詳細は後記)。その後、繰り返し制御部300は、現在推定されている帰属トピック集合422とパラメータ集合423の尤度(入力データ421を尤もらしく表している度合い)が収束しているか否かを所定の目的関数(詳細は後記)を用いて判断し(ステップS5)、尤度が収束していない場合(No)、ステップS3に戻り、尤度が収束している場合(Yes)、ステップS6に進む。
【0028】
ステップS5について、さらに説明する。ある文書に含まれる単語に割り当てられるトピック種数が少ない場合に尤度は高くなる。また、あるトピックが付与される単語が特定の単語集合となった場合、尤度は高くなる。例えば、次の式(1)(目的関数)の
P(W,Z,α|αt-1,γ,Φ,Λ)を尤度として用いることができる。なお、P(・)は確率分布を表す。また、Φ,Λについては後記する。
【数1】

【0029】
ここで、トピック集合α

で表され、αt,zは時刻tにおけるトピックzの人気度を表す。γは、トピック人気度の変化しにくさを表す数値(全トピック共通)である。P(α|αt-1,γ)(式(1)の右辺の1つ目の確率分布)は、時刻t-1のトピック人気度と変化しにくさが与えられたときの、時刻tのトピック人気度αt,zの事前確率を表す。この事前確率の分布としてガンマ分布を用いたとき、P(α|αt-1,γ)は、式(2)で表すことができる。なお、Γ(・)はガンマ関数を表す。
【数2】

【0030】
P(Z|α)(式(1)の右辺の2つ目の確率分布)は、トピック人気度αが与えられたときの、帰属トピック集合の生成確率を表す。トピック生成分布として多項分布、その事前分布としてパラメータαを持つディリクレ分布を用いた場合、P(Z|α)は次の式(3)で表すことができる。
【数3】


ここで、Nt,d,zは、時刻tの文書dでトピックzが割り当てられた回数を表し、
t,d=Σzt,d,z(式(3a))である(ステップS3で、帰属トピック推定部31によってこの割り当てとパラメータ集合423への格納が行われている)。
【0031】
P(W|Z,Φ,Λ)(式(1)の右辺の3つ目の確率分布)は、帰属トピック集合Zが与えられたときの単語集合Wの生成確率を表す。この単語集合の生成確率は、異なる時間スケールの単語生成確率のトピック毎、かつ、スケール毎の集合(多重スケール確率集合)

に依存するものとする。ここで、異なる時間スケールの単語生成確率

であり、φt,z,s,wは時刻tにおける時間スケールsの場合のトピックzで単語wが生成する確率を表す。例えば、多重スケール確率集合Φに依存させる形として、トピック毎の単語生成分布として多項分布、その事前分布としてパラメータΣsλt,z,sφt,z,sを持つディリクレ分布を用いることを考える。ここで、

である。そのとき、P(W|Z,Φ,Λ)は、式(A)に基づいて、式(4)で表すことができる。
【0032】
【数4】


ここで、Nt,z,wは時刻tで単語wにトピックzが割り当てられた回数を表し、
t,z=Σwt,z,w(式(4a))である(ステップS3で、帰属トピック推定部31によってこの割り当てとパラメータ集合423への格納が行われている)。
【0033】
なお、前記した式(1)の尤度の代わりに、事後確率など同等の性質を持つ値を用いることも可能である。また、以下ではマルコフ連鎖モンテカルロ法に基づいて帰属トピック推定、パラメータ推定を行う場合について記述するが、変分ベイズ法などを用いることも可能である。
【0034】
ステップS5でYesの場合、多重スケール確率推定部33は、多重スケール確率集合を推定し(ステップS6:詳細は後記)、結果を多重スケール確率集合424に格納する(ステップS7)。
ステップS7の後、演算手段3は、処理の終了時刻Tになったか否かを判断し(ステップS8)、Noの場合、次の時刻の処理に移って(t=t+1:ステップS9)からステップS1に戻り、Yesの場合、結果を出力手段5に出力し表示等させる(ステップS10)。
【0035】
(帰属トピック推定部31)
図5のステップS3について、図2などを参照して詳細に説明する。まず、帰属トピック推定部31は、パラメータ読込部311によって、パラメータ集合423から時刻tに関するパラメータとして

を読み込み、多重スケール確率集合424から時刻tに関する多重スケール確率集合Φを読み込む。次に、帰属割当部312によって、各文書d=1,・・・,Dの各単語n=1,・・・,Nt,dがどのトピックに帰属するかを表す帰属度を計算する。
【0036】
帰属度は、入力として、予めそれぞれ取得した文書のトピック比率、トピック毎の単語生成確率を考慮したものである必要がある。例えば、帰属度
P(zj=k|W,Zt\j,α,Φ,Λ)は、式(3a)、式(4a)、式(A)に基づいて、次の式(5)により計算できる。
【数5】


ここで、j=(t,d,n)であり、「\j」の付いたパラメータや集合は元のパラメータや集合から文書dのn番目の単語を除いた場合を表す。そして、計算された帰属度の比率に基づく確率的な割り振りによって、各単語に新たなトピックzjを1つだけ割り当てる。例えば、トピックが3つで、ある単語に関して各トピックへの帰属度の比率がそれぞれ3:2:1であれば、その単語に各トピックが割り当てられる確率はそれぞれ3/6,2/6,1/6となる。最後に、帰属書込部313によって、推定した帰属トピックを帰属トピック集合422に格納する(更新する)。
【0037】
(パラメータ推定部32)
図5のステップS4について、図3などを参照して詳細に説明する。パラメータ推定部32は、まず、パラメータ読込部321によって、パラメータ集合423から時刻tに関するパラメータである

と時刻t-1に関するパラメータであるαt−1を読み込み、多重スケール確率集合424から時刻tに関する多重スケール確率集合Φを読み込む。次に、パラメータ処理部322によって、前記した式(1)の尤度が最大化になるようにパラメータα,Λを推定する。例えば、式(3a)、式(4a)、式(A)に基づいて、以下の式(6),(7)の更新式により尤度の最大化が可能である。
【0038】
【数6】


ここで、Ψ(・)は、

で定義されるディガンマ関数を表す。最後に、パラメータ書込部323によって、推定したパラメータα,Λでパラメータ集合423を更新する(読み込んだα,Λを書き換える)。
【0039】
(多重スケール確率推定部33)
図5のステップS6について、図4などを参照して詳細に説明する。まず、多重スケール確率推定部33は、パラメータ読込部331により、パラメータ集合423から

を読み込み、多重スケール確率集合424からΦを読み込む。次に、確率推定部332により、次の時刻(時刻t+1)における、多重スケール確率Φt+1を推定する。例えば、スケールとして、s=1のとき1単位時間、s=2のとき2単位時間、s=3のとき4単位時間、s=s’のとき2s’−1単位時間を用いた場合について説明する。ただし、他のスケールの場合も同様に扱うことができる。
【0040】
時刻t+1における時間スケールsの場合のトピックzで単語wが生成される確率(単語wにトピックzが帰属して単語が生成される確率)φt+1,z,s,wは、時刻(t−2s−1)から時刻tまでにおいてトピックzを伴って単語wが生成される確率であると考える。単語生成確率が多項分布であり、最尤推定を用いた場合、φt+1,z,s,wの推定値は、次の式(8)により求まる。
【数7】

【0041】
ここで、

は、時刻tで単語wにトピックzが割り当てられた期待回数(回数の期待値)を表し、次の式(9)で計算できる。
【数8】

【0042】
ここで、

は、時刻tのトピックzにおいて単語wが出現する確率を表し、式(A)、式(4a)に基づき、次の式(10)で計算できる。
【数9】

【0043】
式(8)からわかるように、φt+1,z,s,wの分子および分母は

の和の形になっているため、逐次的に計算することができる。すなわち、式(8)において、分子を

とおいたとき、分子は

にて更新できる。そして、ct+1,z,s,w←ct+1,z,s,wwt+1,z,s,wにより、次の時刻t+1の単語生成確率が推定できる。
【0044】
しかし、上記の方法の場合、Φの更新のため、2S−1単位時刻前までの

を記憶する必要があるため、O(2S−1ZW)の記憶容量が必要となる。そのため、スケール数が大きい場合、膨大な記憶容量が必要となる。そこで、図6のように、多重スケール確率Φの更新を効率的に行うことにより、必要な記憶容量をO(SZW)におさえ、スケール数が大きい場合でも対応可能にすることができる。つまり、計算の精度をわずか(実用的に問題のない程度)に下げるだけで、記憶容量や計算量を大幅に減らすことができる。
【0045】
確率推定部332は、図6に示すように、複数のスケール(s=S,・・・,2,1)に関してステップS12〜S16の処理を繰り返す(ステップS11〜S18)。まず、スケールsにおいて、現在の時刻tを2s-1で除算した剰余がゼロである(t mod 2s-1=0)か否かを判断し(ステップS12)、Yesの場合はステップS13に進み、Noの場合はステップS17に進む。
【0046】
ステップS13において、ct+1,z,s,wの値として、式(9)の

の値を採用する。
ステップS13の後、s’=1,2・・・,s-1に関して(つまり、ステップS11で選択したsよりも小さなスケールに関して)ステップS15の処理を繰り返す(ステップS14〜S16)。
ステップS15において、ステップS13で求めたct+1,z,s,wにct,z,s’,wを加算した値を、新たにct+1,z,s,wとする処理を行う。
【0047】
ステップS17において、現在の時刻tのct,z,s,wの値を、そのまま次の時刻t+1のct+1,z,s,wの値とする処理を行う。
【0048】
図7は、スケール数S=3の場合の、時刻t=4からt=8までのct,z,s,wの更新イメージを示す図である。図7において、各矩形は

に対応しており、矩形内の数字はt’(その

に対応する時刻)を表す。中塗り矩形(網掛けの矩形)は、その時刻で新たに更新されたことを表す。3段並んでいるうちで、下段はs=1、中段はs=2、上段はs=3を表し、各時刻の各段のまとまりはct,z,s,wを表す。なお、特許請求の範囲における「所定時刻よりも前記所定の時間スケール分だけ前の時刻から前記所定時刻までの時間帯」とは、例えば、図7の例では、スケールs=3、時刻t=8の場合、「時刻t=5〜t=8」を指す。
【0049】
図7からわかるように、スケールsのct,z,s,wは2s−1時刻毎に更新される。つまり、スケールs=1のct,z,1,wは1時刻毎(t=5,6,7,8)に更新され、スケールs=2のct,z,2,wは2時刻毎(t=6,8)に更新され、スケールs=3のct,z,3,wは4時刻毎(t=8)に更新される。時間スケールが大きい場合の単語生成確率の変化は、時間スケールが小さい場合に比べ遅くなるため、このように時間スケールが大きい場合のct,z,s,wの更新頻度を低くすることは、妥当な近似であると考えられる。これにより、1時刻前のct-1,z,s,wのみを用いて、ct,z,s,wを計算することができるため、O(SZW)の記憶容量におさえることができる。
【0050】
なお、異なる時間スケールの単語生成確率φt,z,s(式(A)参照)の分布として、s=0の場合の単語wについての単語生成確率φt,z,s,w=φt,z,s=0,w=W-1(語彙数の逆数)を用いることもできる。このとき

とすれば、図6のフローチャート処理と同様に計算できる。
【0051】
確率書込部333によって、時刻t+1について推定した多重スケール確率Φt+1を多重スケール確率集合424に格納する。
【0052】
このように、本実施形態によれば、異なる時間スケールで変化する特徴量を考慮して、時系列データ集合を解析することができ、流行トピックの追跡、文書クラスタリング、ブラウジングの高度化が可能となる。
【0053】
なお、データ解析装置1を構成するコンピュータに実行させるデータ解析プログラムを作成し、コンピュータにインストールすることにより、コンピュータは、そのデータ解析プログラムに基づいた各機能を実現することができる。また、そのデータ解析プログラムを、通信回線を介して配布したり、CD(Compact Disc)、DVD(Digital Versatile Disc)等の種々の記録媒体に記録したりすることができる。
【0054】
以上で実施形態の説明を終えるが、本発明の態様はこれらに限定されるものではない。例えば、解析する対象となるデータは、文書データでなくても、各構成要素を離散値のベクトルとして表現することが可能なデータであれば、画像データや購買データなど他の種類のデータであってもよい。その他、具体的な構成や処理について、本発明の主旨を逸脱しない範囲で適宜変更が可能である。
【実施例】
【0055】
本実施形態のデータ解析装置1(以下、単に「本実施形態」という。)を評価するため、時間情報を持った文書データ集合を用いた実験を行った。比較手法としてDTM、LDAall、LDAone、LDAonlineを用いた(非特許文献1参照)。DTMは、Dynamic Topic Modelの略であり、本実施形態においてスケールの個数を1つとした場合(S=1の場合)と同等である。LDAは、Latent Dirichlet allocationの略であり、時間発展を考慮しないモデルである。LDAallは、1つ前の時刻以前の全時刻のデータを用いて学習した場合のLDAである。LDAoneは、1つ前の時刻のデータのみを用いて学習した場合のLDAである。LDAonlineは、前時刻のデータおよび2つ前の時刻のデータを用いて学習済のLDAを用いて学習した場合のLDAである。
【0056】
本実験では、国際会議データ、科学雑誌データ、新聞記事データ、演説データの4セットのデータを用いた。各手法の各データセットにおける予測誤差(パープレキシティ)を表1に示す。
【表1】

【0057】
表1からわかるように、新聞記事データを除いて本実施形態の予測誤差が最も低く、本実施形態により時系列文書データをより正確にモデリングできていると言える。新聞記事データではLDAallの予測誤差が最も低かったが、LDAallは全時刻のデータを学習に用いるため、計算時間が膨大になる。一方、本実施形態は、各時刻において1つ前の時刻のデータのみを用いて、学習することができるため、高速に計算することができる。また、本実施形態でスケール数S(スケールの個数)を変化させたときの予測誤差(パープレキシティ)を図8(a)〜(d)に示す。なお、スケール数が「0」の場合とは、1つ前の時刻のデータを使用しないケースである。図8(a)〜(d)のいずれにおいても、スケール数を大きくとることにより予測誤差が下がる傾向にあり、この結果から、多重スケールの特徴量を考慮することは重要であると言える。
【符号の説明】
【0058】
1 データ解析装置
2 入力手段
3 演算手段
4 記憶手段
5 出力手段
30 初期化部
31 帰属トピック推定部
32 パラメータ推定部
33 多重スケール確率推定部
300 繰り返し制御部


【特許請求の範囲】
【請求項1】
構成要素が離散値のベクトルとして表現されたデータを時系列に複数集めた時系列データ集合を、前記構成要素それぞれに対して推定される分類項目である複数のトピックと、前記トピックの推定に関する確率モデルと、に基づいて解析するデータ解析装置であって、
前記データを入力する入力手段と、
前記時系列データ集合、
前記データにおける構成要素それぞれに対して推定されたトピックが時刻毎に集められた帰属トピック集合、
前記確率モデルにおけるパラメータが時刻毎に集められたパラメータ集合、
複数の異なる時間スケールそれぞれに関して所定のトピックを伴った所定の構成要素が生成する確率の集合である多重スケール確率集合、および、
前記帰属トピック集合と前記パラメータ集合とが前記時系列データ集合を尤もらしく表している度合いである尤度を前記多重スケール確率集合に基づいて最大化するための目的関数、を記憶する記憶手段と、
前記確率モデルに基づく演算を前記時刻単位で行う演算手段と、
演算結果を出力する出力手段と、を備え、
前記演算手段は、
前記帰属トピック集合に関して、所定時刻における前記入力されたデータの構成要素それぞれに対してランダムにトピックを推定することで初期化を行う初期化部と、
前記帰属トピック集合と前記パラメータ集合との更新処理を、前記目的関数が収束するまで繰り返す繰り返し制御部と、
前記多重スケール確率集合を更新する多重スケール確率推定部と、を有し
前記繰り返し制御部は、
前記パラメータ集合と前記多重スケール確率集合とを用いて、前記所定時刻における入力データの構成要素それぞれに対して推定されているトピックを推定し直すことで、前記帰属トピック集合を更新する帰属トピック推定部と、
前記パラメータ集合と前記多重スケール確率集合とを用いて、前記パラメータ集合におけるパラメータのうち少なくとも一部を推定し直すことで、前記パラメータ集合を更新するパラメータ推定部と、を備え、
前記多重スケール確率推定部は、
所定の時間スケールに関して所定のトピックを伴った所定の構成要素が生成する確率は、前記所定時刻よりも前記所定の時間スケール分だけ前の時刻から前記所定時刻までの時間帯において前記所定のトピックを伴った前記所定の構成要素が生成する確率であるという定義に基づき、前記確率モデルと、前記パラメータ集合と、前記多重スケール確率集合とを用いて、所定時刻の次の時刻の多重スケール確率集合を推定することで前記多重スケール確率集合を更新する
ことを特徴とするデータ解析装置。
【請求項2】
前記多重スケール確率推定部は、
所定の時間スケールに関して、当該時間帯において所定のトピックを伴った所定の構成要素が生成する確率を計算するとき、当該所定時刻よりも1つ前の時刻の当該所定の時間スケールよりも短い時間スケールに関する前記パラメータ集合を用いて、時間スケールが大きいほど少ない頻度で前記多重スケール確率集合を更新する
ことを特徴とする請求項1に記載のデータ解析装置。
【請求項3】
請求項1または請求項2に記載のデータ解析装置としてコンピュータを機能させるためのデータ解析プログラム。
【請求項4】
請求項3に記載のデータ解析プログラムが記録されたことを特徴とするコンピュータに読み取り可能な記録媒体。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2010−244264(P2010−244264A)
【公開日】平成22年10月28日(2010.10.28)
【国際特許分類】
【出願番号】特願2009−91556(P2009−91556)
【出願日】平成21年4月3日(2009.4.3)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】