データ解析装置、データ解析プログラムおよびその記録媒体

【課題】異なる時間スケールで変化する特徴量を考慮して、時系列データ集合を解析することを課題とする。
【解決手段】本発明は、構成要素が離散値のベクトルとして表現されたデータを時系列に複数集めた時系列データ集合を、前記構成要素それぞれに対して推定される分類項目である複数のトピックと、前記トピックの推定に関する確率モデルと、に基づいて解析するデータ解析装置１である。演算手段３は、複数の異なる時間スケールそれぞれに関して所定のトピックを伴った所定の構成要素が生成する確率の集合である多重スケール確率集合４２４等を用いて演算することで、構成要素に付与するトピックを推定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、異なる時間スケールで変化する特徴量（例えば、文書データにおける単語生成確率）を考慮して時系列のデータ集合（例えば、文書データ集合）を解析する技術に関する。なお、本発明は、データ集合の構成要素（例えば、文書データにおける単語）を離散値のベクトルとして表現することが可能なデータで、かつ、時間情報が付与されているデータを対象とする。
【背景技術】
【０００２】
近年、オンライン技術やデータベース技術の発展により、膨大な文書データを日々収集できるようになった。そして、時間情報に基づいて文書データを解析することにより、流行トピックの追跡、文書クラスタリング、ブラウジングの高度化が可能となる。例えば、非特許文献１では、文書データの時系列解析法について開示されている。
【先行技術文献】
【非特許文献】
【０００３】
【非特許文献１】David M. Blei, John D. Lafferty, “Dynamic Topic Models”, Proceedings of the 23rd International Conference on Machine Learning (ICML2006), 113-120, 2006
【発明の概要】
【発明が解決しようとする課題】
【０００４】
非特許文献１などの従来技術では、あるトピック（分類項目）で用いられる単語の時間変化は一様であると仮定している。しかし、現実の文書データを見ると、この仮定は成り立たない場合がある。例えば、政治トピックの場合を考えると、憲法、法律、国会、総理大臣などの単語は長期間（百年のスケール）に渡って、高い確率で現れる。一方、消費税などの単語は数十年のスケールで、また、現在の新人国会議員の氏名、現在審議されている法案名などは、数年のスケールで見た場合に、高い確率で現れる。つまり、単語の出現の時間スケールを考慮することで、時系列データ集合を解析する精度を上げることが期待できる。
【０００５】
そこで、本発明は、前記事情に鑑みてなされたものであり、異なる時間スケールで変化する特徴量を考慮して、時系列データ集合を解析することを課題とする。
【課題を解決するための手段】
【０００６】
前記課題を解決するために、本発明は、構成要素が離散値のベクトルとして表現されたデータを時系列に複数集めた時系列データ集合を、構成要素それぞれに対して推定される分類項目である複数のトピックと、トピックの推定に関する確率モデルと、に基づいて解析するデータ解析装置であって、データを入力する入力手段と、時系列データ集合、データにおける構成要素それぞれに対して推定されたトピックが時刻毎に集められた帰属トピック集合、確率モデルにおけるパラメータが時刻毎に集められたパラメータ集合、複数の異なる時間スケールそれぞれに関して所定のトピックを伴った所定の構成要素が生成する確率の集合である多重スケール確率集合、および、帰属トピック集合とパラメータ集合とが時系列データ集合を尤もらしく表している度合いである尤度を多重スケール確率集合に基づいて最大化するための目的関数、を記憶する記憶手段と、確率モデルに基づく演算を時刻単位で行う演算手段と、演算結果を出力する出力手段と、を備える。
演算手段は、帰属トピック集合に関して、所定時刻における入力されたデータの構成要素それぞれに対してランダムにトピックを推定することで初期化を行う初期化部と、帰属トピック集合とパラメータ集合との更新処理を、目的関数が収束するまで繰り返す繰り返し制御部と、多重スケール確率集合を更新する多重スケール確率推定部と、を有し繰り返し制御部は、パラメータ集合と多重スケール確率集合とを用いて、所定時刻における入力データの構成要素それぞれに対して推定されているトピックを推定し直すことで、帰属トピック集合を更新する帰属トピック推定部と、パラメータ集合と多重スケール確率集合とを用いて、パラメータ集合におけるパラメータのうち少なくとも一部を推定し直すことで、パラメータ集合を更新するパラメータ推定部と、を備える。
多重スケール確率推定部は、所定の時間スケールに関して所定のトピックを伴った所定の構成要素が生成する確率は、所定時刻よりも所定の時間スケール分だけ前の時刻から所定時刻までの時間帯において所定のトピックを伴った所定の構成要素が生成する確率であるという定義に基づき、確率モデルと、パラメータ集合と、多重スケール確率集合とを用いて、所定時刻の次の時刻の多重スケール確率集合を推定することで多重スケール確率集合を更新することを特徴とする。
【０００７】
かかる発明によれば、帰属トピック推定部が帰属トピック集合を更新し、パラメータ推定部がパラメータ集合を更新するが、その際、複数の異なる時間スケールそれぞれに関して所定のトピックを伴った所定の構成要素が生成する確率の集合である多重スケール確率集合に基づいて尤度を最大化するための目的関数が収束するまで、それらの更新を行う。そして、多重スケール確率推定部は、所定の時間スケールに関して所定のトピックを伴った所定の構成要素が生成する確率が、所定時刻よりも所定の時間スケール分だけ前の時刻から所定時刻までの時間帯において所定のトピックを伴った所定の構成要素が生成する確率であるという定義に基づき、確率モデルと、パラメータ集合と、多重スケール確率集合とを用いて、所定時刻の次の時刻の多重スケール確率集合を推定することで多重スケール確率集合を更新する。つまり、複数の異なる時間スケールを考慮した上で、時系列データ集合を解析することができる。
【０００８】
また、本発明は、多重スケール確率推定部が、所定の時間スケールに関して、当該時間帯において所定のトピックを伴った所定の構成要素が生成する確率を計算するとき、当該所定時刻よりも１つ前の時刻の当該所定の時間スケールよりも短い時間スケールに関するパラメータ集合を用いて、時間スケールが大きいほど少ない頻度で多重スケール確率集合を更新することを特徴とする。
【０００９】
かかる発明によれば、多重スケール確率推定部は、所定の時間スケールに関して、当該時間帯において所定のトピックを伴った所定の構成要素が生成する確率を計算するとき、当該所定時刻よりも１つ前の時刻の当該所定の時間スケールよりも短い時間スケールに関するパラメータ集合を用いて、時間スケールが大きいほど少ない頻度で多重スケール確率集合を更新する。したがって、記憶手段に記憶しておくべきパラメータ集合の情報量は、当該時間帯分ではなく所定時刻よりも１つ前の時刻分だけでよく、少なくて済む。
【００１０】
また、本発明は、前記したデータ解析装置としてコンピュータを機能させるためのデータ解析プログラムである。
かかる発明によれば、このプログラムをインストールされたコンピュータが、このプログラムに基づいた各機能を実現することができる。
【００１１】
また、本発明は、データ解析プログラムが記録されたことを特徴とするコンピュータに読み取り可能な記録媒体である。
かかる発明によれば、この記録媒体を装着されたコンピュータが、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。
【発明の効果】
【００１２】
本発明によれば、異なる時間スケールで変化する特徴量を考慮して、時系列データ集合を解析することができる。
【図面の簡単な説明】
【００１３】
【図１】本実施形態に係るデータ解析装置の構成を示すブロック図である。
【図２】本実施形態に係る帰属トピック推定部の構成を示すブロック図である。
【図３】本実施形態に係るパラメータ推定部の構成を示すブロック図である。
【図４】本実施形態に係る多重スケール確率推定部の構成を示すブロック図である。
【図５】データ解析装置による処理のフローチャートである。
【図６】単語生成確率の更新を効率的に行う処理のフローチャートである。
【図７】ｃ_t,z,s,wの更新イメージを示す図である。
【図８】スケール数を変化させたときの予測誤差を示す図である。
【発明を実施するための形態】
【００１４】
以下、本発明を実施するための形態（以下、「実施形態」という。）について、図面を参照して説明する。図１に示すデータ解析装置１は、各構成要素を離散値のベクトルとして表現することが可能なデータ（文書データなど）で、かつ、時間情報が付与されているデータを、確率モデルに基づいて解析する装置である。以下では、説明を簡単にするために、解析する対象のデータを文書データとして説明する。また、文書データを構成する各単語に付与されるトピックは、文書データに埋め込まれるクラスやベクトルで表すことが可能であり、例えばジャンル（政治、経済、スポーツなど）を意味する。データ解析装置１は、入力手段２と、演算手段３と、記憶手段４と、出力手段５とを備えている。各手段２〜５はバス６に接続されている。
【００１５】
入力手段２は、情報を入力する手段であり、例えば、キーボード、マウス、ディスクドライブ装置などから構成される。
【００１６】
演算手段３は、例えば、ＣＰＵ（Central Processing Unit）およびＲＡＭ（Random Access Memory）から構成される主制御装置である。この演算手段３は、初期化部３０、繰り返し制御部３００、多重スケール確率推定部３３、メモリ３４を含んで構成される。繰り返し制御部３００は、帰属トピック推定部３１およびパラメータ推定部３２を含んで構成され、後記する尤度が収束するまで、帰属トピック推定部３１およびパラメータ推定部３２による処理を繰り返す。演算手段３は、記憶手段４から、初期化プログラム４１０、帰属トピック推定プログラム４１１、パラメータ推定プログラム４１２、多重スケール確率推定プログラム４１３をそれぞれ読み込み、メモリ３４に展開し、実行することで、前記した初期化部３０、帰属トピック推定部３１、パラメータ推定部３２、多重スケール確率推定部３３をそれぞれ実現する（各部３０〜３３の詳細は後記）。
【００１７】
記憶手段４は、情報を記憶する手段であり、例えば、一般的なハードディスク装置などから構成され、プログラム格納部４１と、データ格納部４２と、を含む。
【００１８】
プログラム格納部４１には、演算手段３で用いられるプログラムとして、初期化プログラム４１０、帰属トピック推定プログラム４１１、パラメータ推定プログラム４１２、多重スケール確率推定プログラム４１３が格納されている。また、データ格納部４２には、演算手段３による演算で用いられるデータとして、入力データ４２１、帰属トピック集合４２２、パラメータ集合４２３、多重スケール確率集合４２４が格納されている。入力データ４２１は、時系列のデータ集合であり、例えば、入力手段２を介して入力され、データ格納部４２に格納される。また、帰属トピック集合４２２、多重スケール確率集合４２４は、演算手段３による演算によって生成（更新）されるデータであり、詳細については後記する。パラメータ集合４２３は、例えば、

などのパラメータから構成されるが、詳細については後記する。
【００１９】
出力手段５は、情報を出力するための手段であり、例えば、グラフィックボード（出力インタフェース）およびそれに接続されたモニタである。
【００２０】
図２に示すように、帰属トピック推定部３１は、パラメータ読込部３１１、帰属割当部３１２、帰属書込部３１３を備えている（詳細は図５の説明とともに後記）。
【００２１】
図３に示すように、パラメータ推定部３２は、パラメータ読込部３２１、パラメータ処理部３２２、パラメータ書込部３２３を備えている（詳細は図５の説明とともに後記）。
【００２２】
図４に示すように、多重スケール確率推定部３３は、パラメータ読込部３３１、確率推定部３３２、確率書込部３３３を備えている（詳細は図５の説明とともに後記）。
【００２３】
次に、図５を参照して、データ解析装置１が行う処理について説明する。なお、本実施形態では、各単語に対して１つずつのトピックが付与されるものとする。
【００２４】
データ解析装置１は、時刻ｔ＝０から処理を開始するが（ステップＳ０）、以下では、説明の都合上、現在の時刻（所定時刻）をｔ（整数）として説明する。時刻ｔに、入力データ（入力データ４２１の一部）としてＤ_ｔ個の文書の集合が与えられたとし、各文書は単語集合ｗ_t,dで表現される。ここで、

は、内容を表す文書中に含まれる単語の集合を表す。その他の表記についても説明する。なお、本実施形態における太字の文字は複数の要素からなることを表し、文章中の文字で太字でないものもそれらと整合をとっているものとする。
【００２５】
Ｄ_ｔは、時刻ｔの文書数である。
Ｎ_t,dは、時刻ｔの文書ｄの単語数である。
ｗ_t,d,nは、時刻ｔの文書ｄのｎ番目の単語である（ｗ_t,d,n∈｛１，・・・，Ｗ｝）。なお、単にｗと記載することもある。
Ｗは、語彙数である。
Ｚは、トピック数（トピックｚの個数）である。
Ｚ_t,d,nは、時刻ｔの文書ｄのｎ番目の単語のトピックである（Ｚ_t,d,n∈｛１，・・・，Ｚ｝）。なお、単にｚと記載することもある。
Ｓは、スケール数（スケールｓの個数）である（詳細は後記）。
【００２６】
まず、演算手段３は、現在の時刻ｔの入力データ集合（単語集合）

（入力データ４２１）を読み込む（ステップＳ１）。次に、初期化部３０は、単語それぞれに対して付与（推定）されたトピックの集合である帰属トピック集合

（帰属トピック集合４２２）をランダムに初期化する。ここで、ランダムに初期化するとは、例えば、各単語に無作為に１つずつのトピックを付与することを意味する。
【００２７】
次に、帰属トピック推定部３１によって、帰属トピック集合４２２を推定する（ステップＳ３：詳細は後記）。続いて、パラメータ推定部３２は、パラメータ集合４２３を推定する（ステップＳ４：詳細は後記）。その後、繰り返し制御部３００は、現在推定されている帰属トピック集合４２２とパラメータ集合４２３の尤度（入力データ４２１を尤もらしく表している度合い）が収束しているか否かを所定の目的関数（詳細は後記）を用いて判断し（ステップＳ５）、尤度が収束していない場合（Ｎｏ）、ステップＳ３に戻り、尤度が収束している場合（Ｙｅｓ）、ステップＳ６に進む。
【００２８】
ステップＳ５について、さらに説明する。ある文書に含まれる単語に割り当てられるトピック種数が少ない場合に尤度は高くなる。また、あるトピックが付与される単語が特定の単語集合となった場合、尤度は高くなる。例えば、次の式（１）（目的関数）の
Ｐ（Ｗ_ｔ，Ｚ_ｔ，α_ｔ｜α_ｔ-１，γ，Φ_ｔ，Λ_ｔ）を尤度として用いることができる。なお、Ｐ（・）は確率分布を表す。また、Φ_ｔ，Λ_ｔについては後記する。
【数１】

【００２９】
ここで、トピック集合α_ｔは

で表され、α_ｔ,zは時刻ｔにおけるトピックｚの人気度を表す。γは、トピック人気度の変化しにくさを表す数値（全トピック共通）である。Ｐ（α_ｔ｜α_ｔ-１，γ）（式（１）の右辺の１つ目の確率分布）は、時刻ｔ-１のトピック人気度と変化しにくさが与えられたときの、時刻ｔのトピック人気度α_ｔ,zの事前確率を表す。この事前確率の分布としてガンマ分布を用いたとき、Ｐ（α_ｔ｜α_ｔ-１，γ）は、式（２）で表すことができる。なお、Γ（・）はガンマ関数を表す。
【数２】

【００３０】
Ｐ（Ｚ_ｔ｜α_ｔ）（式（１）の右辺の２つ目の確率分布）は、トピック人気度α_ｔが与えられたときの、帰属トピック集合の生成確率を表す。トピック生成分布として多項分布、その事前分布としてパラメータα_ｔを持つディリクレ分布を用いた場合、Ｐ（Ｚ_ｔ｜α_ｔ）は次の式（３）で表すことができる。
【数３】

ここで、Ｎ_t,d,zは、時刻ｔの文書ｄでトピックｚが割り当てられた回数を表し、
Ｎ_t,d＝Σ_zＮ_t,d,z（式（３ａ））である（ステップＳ３で、帰属トピック推定部３１によってこの割り当てとパラメータ集合４２３への格納が行われている）。
【００３１】
Ｐ（Ｗ_ｔ｜Ｚ_ｔ，Φ_ｔ，Λ_ｔ）（式（１）の右辺の３つ目の確率分布）は、帰属トピック集合Ｚ_ｔが与えられたときの単語集合Ｗ_ｔの生成確率を表す。この単語集合の生成確率は、異なる時間スケールの単語生成確率のトピック毎、かつ、スケール毎の集合（多重スケール確率集合）

に依存するものとする。ここで、異なる時間スケールの単語生成確率

であり、φ_t,z,s,wは時刻ｔにおける時間スケールｓの場合のトピックｚで単語ｗが生成する確率を表す。例えば、多重スケール確率集合Φ_ｔに依存させる形として、トピック毎の単語生成分布として多項分布、その事前分布としてパラメータΣ_sλ_t,z,sφ_t,z,sを持つディリクレ分布を用いることを考える。ここで、

である。そのとき、Ｐ（Ｗ_ｔ｜Ｚ_ｔ，Φ_ｔ，Λ_ｔ）は、式（Ａ）に基づいて、式（４）で表すことができる。
【００３２】
【数４】

ここで、Ｎ_t,z,wは時刻ｔで単語ｗにトピックｚが割り当てられた回数を表し、
Ｎ_t,z＝Σ_wＮ_t,z,w（式（４ａ））である（ステップＳ３で、帰属トピック推定部３１によってこの割り当てとパラメータ集合４２３への格納が行われている）。
【００３３】
なお、前記した式（１）の尤度の代わりに、事後確率など同等の性質を持つ値を用いることも可能である。また、以下ではマルコフ連鎖モンテカルロ法に基づいて帰属トピック推定、パラメータ推定を行う場合について記述するが、変分ベイズ法などを用いることも可能である。
【００３４】
ステップＳ５でＹｅｓの場合、多重スケール確率推定部３３は、多重スケール確率集合を推定し（ステップＳ６：詳細は後記）、結果を多重スケール確率集合４２４に格納する（ステップＳ７）。
ステップＳ７の後、演算手段３は、処理の終了時刻Ｔになったか否かを判断し（ステップＳ８）、Ｎｏの場合、次の時刻の処理に移って（ｔ＝ｔ＋１：ステップＳ９）からステップＳ１に戻り、Ｙｅｓの場合、結果を出力手段５に出力し表示等させる（ステップＳ１０）。
【００３５】
（帰属トピック推定部３１）
図５のステップＳ３について、図２などを参照して詳細に説明する。まず、帰属トピック推定部３１は、パラメータ読込部３１１によって、パラメータ集合４２３から時刻ｔに関するパラメータとして

を読み込み、多重スケール確率集合４２４から時刻ｔに関する多重スケール確率集合Φ_ｔを読み込む。次に、帰属割当部３１２によって、各文書ｄ＝１，・・・，Ｄ_ｔの各単語ｎ＝１，・・・，Ｎ_t,dがどのトピックに帰属するかを表す帰属度を計算する。
【００３６】
帰属度は、入力として、予めそれぞれ取得した文書のトピック比率、トピック毎の単語生成確率を考慮したものである必要がある。例えば、帰属度
Ｐ（ｚ_j＝ｋ｜Ｗ_ｔ，Ｚ_ｔ＼j，α_ｔ，Φ_ｔ，Λ_ｔ）は、式（３ａ）、式（４ａ）、式（Ａ）に基づいて、次の式（５）により計算できる。
【数５】

ここで、ｊ＝（t,d,n）であり、「＼j」の付いたパラメータや集合は元のパラメータや集合から文書ｄのｎ番目の単語を除いた場合を表す。そして、計算された帰属度の比率に基づく確率的な割り振りによって、各単語に新たなトピックｚ_jを１つだけ割り当てる。例えば、トピックが３つで、ある単語に関して各トピックへの帰属度の比率がそれぞれ３：２：１であれば、その単語に各トピックが割り当てられる確率はそれぞれ3/6，2/6，1/6となる。最後に、帰属書込部３１３によって、推定した帰属トピックを帰属トピック集合４２２に格納する（更新する）。
【００３７】
（パラメータ推定部３２）
図５のステップＳ４について、図３などを参照して詳細に説明する。パラメータ推定部３２は、まず、パラメータ読込部３２１によって、パラメータ集合４２３から時刻ｔに関するパラメータである

と時刻ｔ-1に関するパラメータであるα_ｔ−１を読み込み、多重スケール確率集合４２４から時刻ｔに関する多重スケール確率集合Φ_ｔを読み込む。次に、パラメータ処理部３２２によって、前記した式（１）の尤度が最大化になるようにパラメータα_ｔ，Λ_ｔを推定する。例えば、式（３ａ）、式（４ａ）、式（Ａ）に基づいて、以下の式（６），（７）の更新式により尤度の最大化が可能である。
【００３８】
【数６】

ここで、Ψ（・）は、

で定義されるディガンマ関数を表す。最後に、パラメータ書込部３２３によって、推定したパラメータα_ｔ，Λ_ｔでパラメータ集合４２３を更新する（読み込んだα_ｔ，Λ_ｔを書き換える）。
【００３９】
（多重スケール確率推定部３３）
図５のステップＳ６について、図４などを参照して詳細に説明する。まず、多重スケール確率推定部３３は、パラメータ読込部３３１により、パラメータ集合４２３から

を読み込み、多重スケール確率集合４２４からΦ_ｔを読み込む。次に、確率推定部３３２により、次の時刻（時刻ｔ＋１）における、多重スケール確率Φ_t+1を推定する。例えば、スケールとして、ｓ＝１のとき１単位時間、ｓ＝２のとき２単位時間、ｓ＝３のとき４単位時間、ｓ＝ｓ’のとき２^ｓ’−１単位時間を用いた場合について説明する。ただし、他のスケールの場合も同様に扱うことができる。
【００４０】
時刻ｔ＋１における時間スケールｓの場合のトピックｚで単語ｗが生成される確率（単語ｗにトピックｚが帰属して単語が生成される確率）φ_t+1,z,s,wは、時刻（ｔ−２^ｓ−１）から時刻ｔまでにおいてトピックｚを伴って単語ｗが生成される確率であると考える。単語生成確率が多項分布であり、最尤推定を用いた場合、φ_t+1,z,s,wの推定値は、次の式（８）により求まる。
【数７】

【００４１】
ここで、

は、時刻ｔで単語ｗにトピックｚが割り当てられた期待回数（回数の期待値）を表し、次の式（９）で計算できる。
【数８】

【００４２】
ここで、

は、時刻ｔのトピックｚにおいて単語ｗが出現する確率を表し、式（Ａ）、式（４ａ）に基づき、次の式（１０）で計算できる。
【数９】

【００４３】
式（８）からわかるように、φ_t+1,z,s,wの分子および分母は

の和の形になっているため、逐次的に計算することができる。すなわち、式（８）において、分子を

とおいたとき、分子は

にて更新できる。そして、ｃ_t+1,z,s,w←ｃ_t+1,z,s,w/Σ_wｃ_t+1,z,s,wにより、次の時刻ｔ+1の単語生成確率が推定できる。
【００４４】
しかし、上記の方法の場合、Φ_ｔの更新のため、２^Ｓ−１単位時刻前までの

を記憶する必要があるため、Ｏ（２^Ｓ−１ＺＷ）の記憶容量が必要となる。そのため、スケール数が大きい場合、膨大な記憶容量が必要となる。そこで、図６のように、多重スケール確率Φ_ｔの更新を効率的に行うことにより、必要な記憶容量をＯ（ＳＺＷ）におさえ、スケール数が大きい場合でも対応可能にすることができる。つまり、計算の精度をわずか（実用的に問題のない程度）に下げるだけで、記憶容量や計算量を大幅に減らすことができる。
【００４５】
確率推定部３３２は、図６に示すように、複数のスケール（s=S,・・・,2,1）に関してステップＳ１２〜Ｓ１６の処理を繰り返す（ステップＳ１１〜Ｓ１８）。まず、スケールｓにおいて、現在の時刻tを２^s-1で除算した剰余がゼロである（t mod ２^s-1=0）か否かを判断し（ステップＳ１２）、Ｙｅｓの場合はステップＳ１３に進み、Ｎｏの場合はステップＳ１７に進む。
【００４６】
ステップＳ１３において、ｃ_t+1,z,s,wの値として、式（９）の

の値を採用する。
ステップＳ１３の後、s’=1,2・・・,s-1に関して（つまり、ステップＳ１１で選択したｓよりも小さなスケールに関して）ステップＳ１５の処理を繰り返す（ステップＳ１４〜Ｓ１６）。
ステップＳ１５において、ステップＳ１３で求めたｃ_t+1,z,s,wにｃ_t,z,s’,wを加算した値を、新たにｃ_t+1,z,s,wとする処理を行う。
【００４７】
ステップＳ１７において、現在の時刻ｔのｃ_t,z,s,wの値を、そのまま次の時刻t+1のｃ_t+1,z,s,wの値とする処理を行う。
【００４８】
図７は、スケール数Ｓ＝３の場合の、時刻ｔ＝４からｔ＝８までのｃ_t,z,s,wの更新イメージを示す図である。図７において、各矩形は

に対応しており、矩形内の数字はｔ’（その

に対応する時刻）を表す。中塗り矩形（網掛けの矩形）は、その時刻で新たに更新されたことを表す。３段並んでいるうちで、下段はｓ＝１、中段はｓ＝２、上段はｓ＝３を表し、各時刻の各段のまとまりはｃ_t,z,s,wを表す。なお、特許請求の範囲における「所定時刻よりも前記所定の時間スケール分だけ前の時刻から前記所定時刻までの時間帯」とは、例えば、図７の例では、スケールｓ＝３、時刻ｔ＝８の場合、「時刻ｔ＝５〜ｔ＝８」を指す。
【００４９】
図７からわかるように、スケールｓのｃ_t,z,s,wは２^ｓ−１時刻毎に更新される。つまり、スケールｓ＝１のｃ_t,z,1,wは１時刻毎（ｔ＝5,6,7,8）に更新され、スケールｓ＝２のｃ_t,z,2,wは２時刻毎（ｔ＝6,8）に更新され、スケールｓ＝３のｃ_t,z,3,wは４時刻毎（ｔ＝8）に更新される。時間スケールが大きい場合の単語生成確率の変化は、時間スケールが小さい場合に比べ遅くなるため、このように時間スケールが大きい場合のｃ_t,z,s,wの更新頻度を低くすることは、妥当な近似であると考えられる。これにより、１時刻前のｃ_t-1,z,s,wのみを用いて、ｃ_t,z,s,wを計算することができるため、Ｏ（ＳＺＷ）の記憶容量におさえることができる。
【００５０】
なお、異なる時間スケールの単語生成確率φ_t,z,s（式（Ａ）参照）の分布として、ｓ＝０の場合の単語ｗについての単語生成確率φ_t,z,s,w＝φ_t,z,s＝0,w＝Ｗ^-1（語彙数の逆数）を用いることもできる。このとき

とすれば、図６のフローチャート処理と同様に計算できる。
【００５１】
確率書込部３３３によって、時刻t+1について推定した多重スケール確率Φ_ｔ+1を多重スケール確率集合４２４に格納する。
【００５２】
このように、本実施形態によれば、異なる時間スケールで変化する特徴量を考慮して、時系列データ集合を解析することができ、流行トピックの追跡、文書クラスタリング、ブラウジングの高度化が可能となる。
【００５３】
なお、データ解析装置１を構成するコンピュータに実行させるデータ解析プログラムを作成し、コンピュータにインストールすることにより、コンピュータは、そのデータ解析プログラムに基づいた各機能を実現することができる。また、そのデータ解析プログラムを、通信回線を介して配布したり、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等の種々の記録媒体に記録したりすることができる。
【００５４】
以上で実施形態の説明を終えるが、本発明の態様はこれらに限定されるものではない。例えば、解析する対象となるデータは、文書データでなくても、各構成要素を離散値のベクトルとして表現することが可能なデータであれば、画像データや購買データなど他の種類のデータであってもよい。その他、具体的な構成や処理について、本発明の主旨を逸脱しない範囲で適宜変更が可能である。
【実施例】
【００５５】
本実施形態のデータ解析装置１（以下、単に「本実施形態」という。）を評価するため、時間情報を持った文書データ集合を用いた実験を行った。比較手法としてＤＴＭ、ＬＤＡａｌｌ、ＬＤＡｏｎｅ、ＬＤＡｏｎｌｉｎｅを用いた（非特許文献１参照）。ＤＴＭは、Dynamic Topic Modelの略であり、本実施形態においてスケールの個数を１つとした場合（Ｓ＝１の場合）と同等である。ＬＤＡは、Latent Dirichlet allocationの略であり、時間発展を考慮しないモデルである。ＬＤＡａｌｌは、１つ前の時刻以前の全時刻のデータを用いて学習した場合のＬＤＡである。ＬＤＡｏｎｅは、１つ前の時刻のデータのみを用いて学習した場合のＬＤＡである。ＬＤＡｏｎｌｉｎｅは、前時刻のデータおよび２つ前の時刻のデータを用いて学習済のＬＤＡを用いて学習した場合のＬＤＡである。
【００５６】
本実験では、国際会議データ、科学雑誌データ、新聞記事データ、演説データの４セットのデータを用いた。各手法の各データセットにおける予測誤差（パープレキシティ）を表１に示す。
【表１】

【００５７】
表１からわかるように、新聞記事データを除いて本実施形態の予測誤差が最も低く、本実施形態により時系列文書データをより正確にモデリングできていると言える。新聞記事データではＬＤＡａｌｌの予測誤差が最も低かったが、ＬＤＡａｌｌは全時刻のデータを学習に用いるため、計算時間が膨大になる。一方、本実施形態は、各時刻において１つ前の時刻のデータのみを用いて、学習することができるため、高速に計算することができる。また、本実施形態でスケール数Ｓ（スケールの個数）を変化させたときの予測誤差（パープレキシティ）を図８（ａ）〜（ｄ）に示す。なお、スケール数が「０」の場合とは、１つ前の時刻のデータを使用しないケースである。図８（ａ）〜（ｄ）のいずれにおいても、スケール数を大きくとることにより予測誤差が下がる傾向にあり、この結果から、多重スケールの特徴量を考慮することは重要であると言える。
【符号の説明】
【００５８】
１データ解析装置
２入力手段
３演算手段
４記憶手段
５出力手段
３０初期化部
３１帰属トピック推定部
３２パラメータ推定部
３３多重スケール確率推定部
３００繰り返し制御部

【特許請求の範囲】
【請求項１】
構成要素が離散値のベクトルとして表現されたデータを時系列に複数集めた時系列データ集合を、前記構成要素それぞれに対して推定される分類項目である複数のトピックと、前記トピックの推定に関する確率モデルと、に基づいて解析するデータ解析装置であって、
前記データを入力する入力手段と、
前記時系列データ集合、
前記データにおける構成要素それぞれに対して推定されたトピックが時刻毎に集められた帰属トピック集合、
前記確率モデルにおけるパラメータが時刻毎に集められたパラメータ集合、
複数の異なる時間スケールそれぞれに関して所定のトピックを伴った所定の構成要素が生成する確率の集合である多重スケール確率集合、および、
前記帰属トピック集合と前記パラメータ集合とが前記時系列データ集合を尤もらしく表している度合いである尤度を前記多重スケール確率集合に基づいて最大化するための目的関数、を記憶する記憶手段と、
前記確率モデルに基づく演算を前記時刻単位で行う演算手段と、
演算結果を出力する出力手段と、を備え、
前記演算手段は、
前記帰属トピック集合に関して、所定時刻における前記入力されたデータの構成要素それぞれに対してランダムにトピックを推定することで初期化を行う初期化部と、
前記帰属トピック集合と前記パラメータ集合との更新処理を、前記目的関数が収束するまで繰り返す繰り返し制御部と、
前記多重スケール確率集合を更新する多重スケール確率推定部と、を有し
前記繰り返し制御部は、
前記パラメータ集合と前記多重スケール確率集合とを用いて、前記所定時刻における入力データの構成要素それぞれに対して推定されているトピックを推定し直すことで、前記帰属トピック集合を更新する帰属トピック推定部と、
前記パラメータ集合と前記多重スケール確率集合とを用いて、前記パラメータ集合におけるパラメータのうち少なくとも一部を推定し直すことで、前記パラメータ集合を更新するパラメータ推定部と、を備え、
前記多重スケール確率推定部は、
所定の時間スケールに関して所定のトピックを伴った所定の構成要素が生成する確率は、前記所定時刻よりも前記所定の時間スケール分だけ前の時刻から前記所定時刻までの時間帯において前記所定のトピックを伴った前記所定の構成要素が生成する確率であるという定義に基づき、前記確率モデルと、前記パラメータ集合と、前記多重スケール確率集合とを用いて、所定時刻の次の時刻の多重スケール確率集合を推定することで前記多重スケール確率集合を更新する
ことを特徴とするデータ解析装置。
【請求項２】
前記多重スケール確率推定部は、
所定の時間スケールに関して、当該時間帯において所定のトピックを伴った所定の構成要素が生成する確率を計算するとき、当該所定時刻よりも１つ前の時刻の当該所定の時間スケールよりも短い時間スケールに関する前記パラメータ集合を用いて、時間スケールが大きいほど少ない頻度で前記多重スケール確率集合を更新する
ことを特徴とする請求項１に記載のデータ解析装置。
【請求項３】
請求項１または請求項２に記載のデータ解析装置としてコンピュータを機能させるためのデータ解析プログラム。
【請求項４】
請求項３に記載のデータ解析プログラムが記録されたことを特徴とするコンピュータに読み取り可能な記録媒体。

【図１】