時系列データ分析装置および時系列データ分析プログラム

【課題】時系列データから所望の結果が得られる、ないし期待される時系列データの特徴を自動的かつ効率的に抽出する。
【解決手段】時系列データを収集する時系列データ収集部１と、特徴を抽出すべき時系列データに第１のクラスを、それ以外の時系列データに前記第１のクラスよりその値の小さい第２のクラスを、それぞれ付与するクラス決定部２と、第１および第２のクラスが付与された時系列データを記憶する時系列データ記憶部２１と記憶された時系列データに対して、データ要素の値が観測された時系列上の観測時刻である観測点のそれぞれについて、各観測点にピークを有する凸型関数を第１および第２のクラスを係数として適用し、すべての時系列データの全観測点についての第１および第２のクラスを係数とする凸型関数の総和を算出し、算出された値が所定の閾値以上となる観測点を抽出することにより、時系列データの特徴を抽出する特徴抽出部４とを具備する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、時系列データ分析装置および時系列データ分析プログラムに関する。より詳しくは、コンピュータおよび記録媒体を用いた各種データ解析において、時間に応じて変動するデータ値を時刻順に並べて得られる時系列データから、所望の結果が得られる、ないし期待される時系列データの特徴を自動的かつ効率的に抽出するとともに、該特徴を直感的かつ識別可能に視覚化するための技術に関する。
【背景技術】
【０００２】
時間に応じて変動するデータ値を時刻順に並べて得られる時系列データは、それぞれのデータ値とともに、データ値の推移に意味がある点が特徴的である。この時系列データは、例えばプロセス状態などの物理現象や、あるいは株式市場における銘柄の値動きなどの経済現象を観測して得られる。
【０００３】
収集された複数の時系列データを解析する手法が、
【特許文献１】特開２００４−７８８１２に開示されている。同手法においては、プラントの制御運転のためプロセス状態を解析する際に、複数の時系列データ相互間の関係を把握するため、取り出した時系列データの組について時間をシフトし、最大の相関をとるシフト時間を探索し、時系列データ間の類似度を算出して得られたプロセス応答モデルを用いて、制御運転のためのルールおよび予測データを得る。
【０００４】
あるいは、時系列データの特徴を発見する手法が、
【非特許文献１】Ｋｅｏｇｈ，Ｅ．Ｊ．ａｎｄＰａｚｚａｎｉ，Ｍ．Ｊ．：ＳｃａｌｉｎｇｕｐＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇｆｏｒＤａｔａｍｉｎｉｎｇＡｐｐｌｉｃａｔｉｏｎｓ，ＩｎｔｈｅＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳｉｘｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｒｅｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ，ｐｐ．２８５−２８９（２０００）．に開示されている。同手法においては、各時系列データから生成されたグラフ形状パターンの同一性ないし類似性を評価することにより、時系列データの特徴発見を行う。
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかしながら、解析対象となる時系列データは、必ずしも単位時間毎に連続的に観測されるものではない。殊に、例えばある疾患を持つ患者を被験者として、血液検査データを収集する場合のように、観測不能であった時刻の値（以下、「欠損値」という。）が存在する離散的な観測によってしか、時系列データが得られないことは往々にしてある。このような欠損値を含む時系列データを解析する場合、前者の手法では、欠損値を補完した時系列データについて相関を計算するため、欠損値が多いほどデータ解析の精度が低下する。後者の手法においても、時系列データに欠損値がある場合には、グラフの同一性ないし類似性が維持されるとは限らないため、同様の問題点を生じさせる。
【０００６】
本発明は、上記課題に鑑みてされたものであり、その目的は、時系列データから、所望の結果が得られる、ないし期待される時系列データの特徴を自動的かつ効率的に抽出する時系列データ分析装置および時系列データ分析プログラムを提供することにある。
【０００７】
また、本発明の他の目的は、欠損値を含む時系列データを分析対象とした場合にあっても、特徴抽出の精度を損なわない時系列データ分析装置および時系列データ分析プログラムを提供することにある。
【０００８】
さらに、本発明の他の目的は、時系列データの特徴を直感的かつ識別可能に視覚化可能な時系列データ分析装置および時系列データ分析プログラムを提供することにある。
【課題を解決するための手段】
【０００９】
本発明のある特徴によれば、データ要素を時系列に配列した時系列データを収集する時系列データ収集部と、収集された時系列データ中、特徴を抽出すべき時系列データに、第１のクラスを、それ以外の時系列データに、前記第１のクラスよりその値の小さい第２のクラスを、それぞれ付与するクラス決定部と、前記第１および第２のクラスが付与された時系列データを記憶する時系列データ記憶部と、記憶された前記時系列データに対して、前記データ要素の値が観測された時系列上の観測時刻である観測点のそれぞれについて、各観測点にピークを有する凸型関数を、前記第１および第２のクラスを係数として適用し、すべての時系列データの全観測点についての、前記第１および第２のクラスを係数とする前記凸型関数の総和を算出し、算出された値が、所定の閾値以上となる観測点を抽出することにより、前記時系列データの特徴を抽出する特徴抽出部とを具備することを特徴とする時系列データ分析装置が提供される。
【００１０】
この特徴抽出部は、各時系列データごとに、すべての時刻に亘り、前記観測点のみについて、前記凸型関数の総和を算出する時系列データ関数値算出手段と、前記時系列データ関数値算出手段により算出された前記凸型関数の総和に、当該時系列データに付与された前記第１のクラスまたは第２のクラスを係数として掛け合わせるクラス適用手段と、すべての時系列データについて、前記時系列データ関数値算出手段と前記クラス適用手段とによる計算処理を繰り返す第１繰り返し計算手段と、すべてのクラスについて、前記時系列データ関数値算出手段、前記クラス適用手段および前記第１繰り返し計算手段による計算処理を繰り返す第２繰り返し計算手段と、前記第２繰り返し計算手段により算出された値が、所定の閾値以上となる観測点を抽出する観測点抽出手段とを具備してよい。
【００１１】
前記第１のクラスの値は＋１であり、前記第２のクラスの値は−１であってよい。
【００１２】
上記時系列データ分析装置は、さらに、前記特徴抽出部により抽出された特徴に基づいて、前記時系列データのすべての観測点における前記凸型関数の総和を、観測時刻および観測されたデータ値が構成する平面上三次元表示し、または該平面上閾値ごとに識別可能に二次元表示する特徴視覚化部を具備してよい。
【００１３】
また、上記時系列データ分析装置は、さらに、前記特徴抽出部により抽出された特徴に基づいて、規則を生成し、生成された規則に従って、時系列データに付与すべきクラスを予測するクラス予測部を具備してよい。
【００１４】
本発明の他の特徴によれば、時系列データ分析処理をコンピュータに実行させるための時系列データ分析プログラムであって、該プログラムは、前記コンピュータに、データ要素を時系列に配列した時系列データを収集する時系列データ収集処理と、収集された時系列データ中、特徴を抽出すべき時系列データに、第１のクラスを、それ以外の時系列データに、前記第１のクラスよりその値の小さい第２のクラスを、それぞれ付与するクラス決定処理と、前記第１および第２のクラスが付与された時系列データを記憶する時系列データ記憶処理と、記憶された前記時系列データに対して、前記データ要素の値が観測された時系列上の観測時刻である観測点のそれぞれについて、各観測点にピークを有する凸型関数を、前記第１および第２のクラスを係数として適用し、すべての時系列データの全観測点についての、前記第１および第２のクラスを係数とする前記凸型関数の総和を算出し、算出された値が、所定の閾値以上となる観測点を抽出することにより、前記時系列データの特徴を抽出する特徴抽出処理とを含む処理を実行させるためのものであることを特徴とする時系列データ分析プログラムが提供される。
【発明の効果】
【００１５】
本発明によれば、時系列データから、所望の結果が得られる、ないし期待される時系列データの特徴を自動的かつ効率的に抽出することが可能となる。
【００１６】
また、欠損値を含む時系列データを分析対象とした場合にあっても、データが存在する場合と同様の効果が得られるので、特徴抽出の精度を高く維持することができる。
【００１７】
さらに、抽出された時系列データの特徴を直感的かつ識別可能に視覚化することが可能となる。
【発明を実施するための最良の形態】
【００１８】
以下、図面を参照して、本発明の実施の形態を説明する。
【００１９】
（１）本実施形態に係る時系列データ分析の原理
本実施形態においては、複数の時系列データのデータ解析において、異なる結果が得られた時系列データが存在するときに、所望する結果、あるいは所望する結果以外の結果が得られるときの時系列データの特徴を、自動的かつ効率的に抽出する。本実施形態に係る手法によれば、時系列データの特徴から今後得られる結果を予想することができ、さらに、ユーザーに結果の理由を説明することで好ましい行動を促したり、あるいはコンピュータを利用した自動制御で所望しない結果を回避することができる。
【００２０】
本実施形態に係る時系列データ分析装置１０への入力は、複数の時系列データおよびその時系列データのクラスを含み、該時系列データ分析装置１０からの出力は、当該クラスを特徴付ける時系列データのデータ要素である。
【００２１】
時系列データ分析装置１０に入力される時系列データは、ある時系列データｔ₁，．．．，ｔ_nとして示される。例えば、ある疾患を持つ患者から、１日ごとに得られるある血液検査の値をｔ_iとして検査データを取得する。そして、ｎ日目に、ある薬を投薬する場合には、血液の検査値υがｎ個分の時系列データとして得られる。ここで、時系列データは、欠損値（未観測の値）を含むものであってもよい。この例の場合では、患者が血液検査を毎日受けなくても構わない。
【００２２】
時系列データ分析装置１０に入力される時系列データのクラスは、時系列データに対して付与される。各時系列データを分類することにより、各時系列データに付与すべきクラスが決定される。各時系列データに対応して得られた結果に基づき、好ましい結果とそれ以外の結果を区別可能な属性値としてクラスが付与されてよい。例えば、好ましい結果が得られた時系列データ群に属する時系列データのそれぞれには、＋１が、それ以外の結果が得られた時系列データ群に属する時系列データのそれぞれには、−１が、付与されてよい。上記の例に従えば、上記のデータに対して、ｎ日目に、ある薬を投与する場合を考える。すると、効果があった患者の時系列データと、効果が無かった患者の時系列データに分類することができる。効果があったクラスをＣ₁、効果が無かったクラスをＣ₂とすると、時系列データは、Ｃ₁かＣ₂のクラスが割り当てられることになる。ただし、クラスの数は、２つ以上であれば何個でも構わない。さらに、本実施形態におけるクラスは、単数のクラスと複数のクラスに分類されるだけでなく、複数のクラスとその他の複数のクラスとに分類されてもよい。例えば、薬効に関する時系列データの場合には、「著効、有効」にそれぞれ分類される２つのクラスと、「効果無し、不明」にそれぞれ分類される２つのクラスとに分割されてもよい。
【００２３】
本実施形態における特徴抽出処理においては、入力データ、すなわち、時系列データとそのクラスが複数与えられ、その中から、あるクラスに特徴的な時系列の現象を抽出するというタスクを実行する。与えられた時系列データを分析することにより、この特徴を抽出し、新たな時系列データが与えられた時に、その特徴があるか否かによって、今後得られるクラスの予測に利用することができる。
【００２４】
より具体的には、本実施形態における特徴抽出処理は、各時系列データのうち、欠損値を除き、時間軸上、実データが得られた箇所の値のみを観測点とし、該観測点における観測値がピーク（最高値）となるような凸型関数を用いて、時系列データの対象観測点に対する該凸型関数の値を影響度として算出する。この影響度の算出を、サンプルのそれぞれについて、全時刻の時系列データについて繰り返し実行する。その際、各観測点が属するクラスに定義される係数を掛け合わせる。この処理を、全サンプルについて行い、全サンプルの全観測点（全時刻）について、影響度の総和を算出する。時間軸と時系列データの各値で構成される平面上、所定の閾値以上の値が分布する２次元領域を、特徴領域として抽出する。その際、所望する結果に対応するクラス、すなわち特徴を抽出したいクラスに属する時系列データに与えられる係数は、少なくとも、それ以外の結果に対応するクラスに属する時系列データに与えられる係数より大きいものとする。
【００２５】
ここで、観測点とは、時刻（時間単位）とデータ値（観測値）とにより特定される、実際に値の観測された、すなわち実データが存在する箇所をいい、例えば図２においては、サンプルＮｏ．２であれば単位時間３のセルおよび単位時間９のセルがそれぞれ観測点となる。また、凸型関数により示される影響度とは、時系列上における同じ観測点で、別のサンプルが再び観測される尤度を意味する。
【００２６】
なお、一般に、あるデータとそのクラスの組が複数与えられ、その中から特徴を見付けることを教師付き学習といい、この教師付き学習のための入力となる時系列データとクラスを、訓練データという。これらはいずれも、人工知能の一研究分野である機械学習で用いられる概念であり、例えば特開平６−９６０５２号公報にも開示がある。
【００２７】
（２）本実施形態に係る時系列データ分析装置の構成
図１は、第１の実施形態に係る時系列データ分析装置１０の構成を示す。本実施形態に係る時系列データ分析装置１０は、時系列データ収集部１と、分類クラス決定部２と、時系列データ記憶部２１と、時系列データ決定部３と、特徴量抽出部４と、規則学習部１５と、特徴視覚化部６と、分類予測算出部７と、理由説明報知部８と、データ制御部９とを具備する。
【００２８】
時系列データ収集部１は、複数の時系列データを、時系列データ分析装置１０に入力する。この時系列データは、例えばプロセスデータなど任意のデータをモニタリングして得てもよく、あるいは、例えば血液検査の実施など、能動的に分析対象に動作することによって得てもよい。収集された時系列データは、好ましくは、各サンプル（図２におけるＮｏ１，Ｎｏ２，Ｎｏ３，・・・、図７におけるサンプル１、サンプル２、サンプル３、サンプル４、・・・）ごと１レコードが構成され、内蔵メモリあるいは内蔵・外部記録媒体に格納されたテーブルとして参照される。収集される時系列データは、例えば血液検査の脈拍数や血圧のように、異なる種類のデータであってもよい。複数の異なる種類の時系列データを処理する場合には、時系列データ収集部１による時系列データ収集処理以降に実行される、分類クラス決定部２と、時系列データ決定部３と、特徴量抽出部４とが行う各処理は、いずれも、時系列データの種類（属性）ごと独立に実行されることとなる。一方、複数の異なる時系列データを処理する場合にあっても、規則学習部５は、異なる種類の時系列データのそれぞれについて特徴量抽出部４により得られた、異なる種類の特徴を組み合わせて規則を生成するように構成されれば、より有用な規則を生成することが可能となる。特徴視覚化部６においても、複数の特徴を重畳的に表示出力するように構成されれば、複数の特徴把握をより容易にすることができる。また、本実施形態において収集される時系列データは、観測不能な時刻を含んだ、すなわち欠損値を含んだ離散的なデータ群でもよい。この場合には、図２に示すように、欠損値を含む表形式の時系列データが得られることになる。
【００２９】
分類クラス決定部２は、時系列データ収集部１によって収集された時系列データを生成したサンプルのそれぞれ（すなわち時系列データのそれぞれ）に、対応するクラスを決定する。例えば、ある患者の血液検査の時系列データが得られた後に、薬を投与した場合、薬の効果に差が出たものとする。この場合には、効果のあった患者グループと効果の無かった患者グループの２つのクラスに分けることができ、従って、それぞれの血液検査の時系列データに対しても、その属する患者（サンプル）のクラスに従って、効果ありのクラスと効果無しのクラスの２通りに分けることが可能となる。ただし、ここでは、２クラスを例として述べたが、クラスの数は、２つに限定されるものではなく、３つ以上の多数であっても構わない。結果として、各時系列データに対して、一つのクラスラベルが付与される。
【００３０】
時系列データ記憶部２１は、分類クラス決定部２によってクラスが付与された時系列データを、内蔵メモリあるいは内蔵・外部記憶媒体に保持記憶する。
【００３１】
時系列データ決定部３は、収集された時系列データから、データ解析において意味のありそうな時間幅を決定する手段である。例えば、ある薬の効果を見るのに、１０年前の血液検査の状態が関与しているとは、経験則上想定しにくい。時系列データ決定部３は、このように明らかに不要な部分のデータを切捨て、必要と思われる部分だけを決定し、特徴量抽出部４に出力する。あるいは、時系列データ決定部３は、時間幅以外にも、例えば、複数の種類（属性）の時系列データが収集された場合には、処理すべき時系列データの種類（属性）のみを選択するよう構成されてよい。例えば、薬効を判定するための時系列データを分析する場合には、時系列データ記憶部２１に他の種類の時系列データ（例えば株価の値動きに関する時系列データ）が記憶されていたとしても不要である。時系列データ決定部３は、こうした当該データ分析に不要な時系列データが特徴量抽出部４により処理されるのを防止する。ただし、この時系列データ決定部３では、特徴量抽出処理に関連する時系列データの時間幅（開始時刻と終了時刻を含む）を厳密に決定するのではなく、関係のありそうな時間幅を決定する前処理を施すだけに過ぎない。従って、この時系列データ決定部３は、収集される時系列データのデータ属性によっては、本実施形態において省略することも可能である。時系列データ決定部３での時系列データの選択処理の結果として、時系列データ収集部１によって収集された時系列データよりも洗練された時系列データが得られる。
【００３２】
特徴量抽出部４は、分類クラス決定部２によってクラスラベルが付与され、時系列データ記憶部２１に記憶された時系列データであって、時系列データ決定部３によって選択された範囲の時系列データを入力とし、異なるクラスの弁別に有効である特徴量を抽出する。
【００３３】
特徴量抽出部４が行う特徴量の抽出手法を、以下説明する。まず、データ観測時、観測値（観測対象時刻における時系列データの値）が最高値を持つような凸型関数（ｃｏｎｖｅｘｆｕｎｃｔｉｏｎ）を用いる。この凸型関数は、どのようなものでも構わないが、ここでは、例えば次の関数を使用することができる。
【数１】

【００３４】
ここで、ｔ′，υ′は、それぞれ観測した時間と、観測した時系列データの値とする。またｐ_t，ｐ_υは、それぞれの適用領域に対して決定される定数とする。このｐ_t，ｐ_υは、正規化パラメータであり、簡単のため、例えば１であってもよい。このとき、関数ｆ（ｔ，υ）は、値を観測した場所（時刻）を最大値とする凸型関数になっており、観測した点よりも離れる程、値が小さくなる。この関数ｆ（ｔ，υ）は、上記のとおり、観測点（観測対象時刻）に対する各時系列データの影響度として考えることが可能である。
【００３５】
次に、特徴を抽出したいクラスとそれ以外のクラスを弁別するため、以下の関数を定義する。
【数２】

【００３６】
ここで、ｅは、クラスラベルの付与された時系列データ（訓練データ）とし、ｇ（ｅ）は、特徴を調べたいクラスの場合には＋１を、それ以外のクラスの場合には−１を返すものとする。例えば、クラスがＣ１，Ｃ２，・・・、Ｃ５と５つあった場合に、クラスＣ２の特徴を調べたいと仮定すると、クラスＣ２には係数＋１を、それ以外のクラスＣ１、Ｃ３、Ｃ４およびＣ５には係数−１を与える。この係数は、要するに特徴を出したいクラスをそれ以外のクラスから弁別するための係数であるので、特徴を調べたいクラスに与えられる係数が、それ以外のクラスに与えられる係数より有意に大きい値であれば、任意の係数であってよい。
【００３７】
次に全ての訓練データ（クラスラベルの付与された時系列データ）Ｅの観測点に対して、以下の値を計算する。
【数３】

【００３８】
この関数ｈ（ｔ，υ）の値は、対象クラス（特徴を調べたいクラス）の観測点が集中している場所程、大きな値を取り、対象クラス以外の観測点が集中している場所程、小さな値をとる。所定の閾値以上の関数ｈ（ｔ，υ）の値が分布する、時間軸と観測された時系列データ値とが構成する平面上の領域を特定することによって、対象クラスの特徴を表す領域を抽出することが可能となる。ここで、血圧と脈拍数のようにそれぞれ異なる時系列データを解析する場合には、上記の特徴抽出処理は独立に行われる。その結果、対象クラスに特徴的な時系列データの傾向を発見できる。特徴量抽出部４によって発見された特徴は、規則学習部５および特徴視覚化部６に送出される。
【００３９】
規則学習部５は、例えばＣ４．５などの公知の機械学習システムに、特徴量抽出部４によって抽出された特徴を入力することによって、抽出された特徴を、if-thenや決定木のような規則の形態に変換する。この規則学習部５に入力される特徴は、１つとは限らず、複数入力可能であり、またこの特徴は血圧値と脈拍など異なる時系列データから抽出した特徴であっても構わない。その結果、分類クラス決定部２が、収集された時系列データに対して付与すべきクラスを予測する規則を得ることが可能となる。
【００４０】
特徴視覚化部６は、関数ｈ（ｔ，υ）を視覚化することによって、特徴の視覚化を行う。関数ｈ（ｔ，υ）は、ｔ，υで構成される平面上に広がる値と見ることが可能である。特徴視覚化部６は、たとえば、関数ｈ（ｔ，υ）を、観測時刻および観測された時系列データのデータ値が構成する平面上三次元表示したり、あるいは、この平面上閾値ごとに等高線表示などの手法により特徴領域をその他の領域から識別可能に表示出力する。例えば、公知の技術である、関数の値の大きさに応じて連続的に色彩の変化をさせて図示する手法を用いれば、特徴の現れる平面上の領域を視覚化することが可能となる。その結果、濃淡や等高線の付加された２次元のグラフを得ることができる。
【００４１】
規則学習部５において学習された規則、および特徴視覚化部６において視覚化されたグラフは、分類予測算出部７および理由説明報知部８に送出される。
【００４２】
分類予測算出部７は、学習された規則に基づいて、本実施形態に係る時系列データ分析装置１０に、新たに時系列データが与えられた場合に、どのようなクラスとなるかの予測を算出する。
【００４３】
理由説明報知部８は、例えば学習された規則の決定木を走査することにより、学習された規則を解析し、あるいは視覚化された特徴を解析し、その解析結果を入出力装置を介して、ユーザーに提供する。出力された解析結果を吟味することにより、所望するデータのあり方を考案することができる。
【００４４】
データ制御部９は、分類予測算出部７によって得られたクラスの予測と、理由説明報知部８によって得られた望ましいデータの有り方との双方、あるいはいずれか一方を入力とし、最終的に得られるクラスが望ましくなるように行動するよう、時系列データの操作を行う。その結果、データ制御部９の出力として得られる時系列データは、時系列データ収集部１にフィードバックされる。
【００４５】
データ制御部９は、また、特徴量抽出部４、規則学習部５、特徴視覚化部６、分類予測算出部７、理由説明報知部８などが出力する処理結果を、適宜入出力装置を介して表示ないし印刷出力するための制御を行う。
【００４６】
（３）例題
本実施形態における時系列データ分析処理を、以下例題により説明する。説明の簡単化のため、ここでは２つのクラスＰ，Ｎがあるものとし、Ｐ，Ｎに属する時系列データはそれぞれ１００個ずつであるとする。
【００４７】
図２は、この時系列データの一部をテーブルで示したものである。各時系列データには上から順番にサンプル番号が付与されており、テーブルの横軸は、単位時間を示す。例えば、サンプルＮｏ．１のデータは、単位時間１の時には、データの観測ができなかったため、欠損値となっている。一方、単位時間２の時には、２４．２８８７という観測値が得られている。そして、サンプルＮｏ．１のクラスはＰとなっている。
【００４８】
図２に示される時系列データは、本実施形態に係る時系列データ収集部１によって収集され、その後、分類クラス決定部２によって、Ｐ，Ｎのクラスが付与されたものである。Ｐは特徴を調べたい対象クラスを、Ｎはそれ以外のクラスを示すものとする。ここでは、図２に示される時系列データは、時系列データ決定部３によって、時系列データとして着目すべき６０単位時間分だけ、データが抽出されたものとする。この時系列データが、特徴量抽出部４に入力される。
【００４９】
図３は、特徴量抽出部４に入力される時系列データを全て表示したものであり、Ｐのデータを２点鎖線で、Ｎのデータを破線で示している。横軸が時間を表し、縦軸が観測された時系列データの値を表す。
【００５０】
特徴量抽出部４が用いる関数ｆ（ｔ，υ）として、上記の数式１を用いる。ただし、ｐ_t，ｐ_υは定数とする。
【数４】

【００５１】
図３に示すテーブルのサンプルＮｏ．１のデータの単位時間３について、ｆ（ｔ，υ）は、下記のようになる。
【数５】

【００５２】
図４は、定数ｐ_t，ｐ_υを、ｐ_t＝ｐ_υ＝１とした場合に、ｆ（ｔ，υ）の値を３次元でグラフ化した図である。図４から明らかなように、単位時間３における観測点で最大になるグラフが得られる。
【００５３】
図５は、クラスPが付与されたサンプルＮｏ．１の時系列データ中、時系列データ決定部３によって決定されたすべての単位時間のうち、値が観測されたすべての観測点（例えば、時間１から時間１０。ただし、欠損値である単位時間については処理されない）について、ｆ（ｔ，υ）・ｇ（ｅ）を足し合わせて得られるグラフを示す。図５から明らかなように、特徴のある部分ほど関数値が大きくなる。一方、クラスＮが付与された時系列データ（図５においてはサンプルＮｏ．４）は、関数ｇ（ｅ）がマイナスとなるため、ｆ（ｔ，υ）・ｇ（ｅ）は下方に凸型の関数となる。したがって、クラスPが付与された時系列データとクラスＮが付与された時系列データのｆ（ｔ，υ）・ｇ（ｅ）を足し合わせると、クラスPが付与された時系列データとクラスＮが付与された時系列データとが混在して存在する図５中の領域は関数が打ち消しあう一方で、クラスＰが付与された時系列データＰのみが観測される領域は、クラスＮが付与された時系列データの影響が少なくなり、大きな値となる。
【００５４】
その結果、全てのサンプルについての時系列データの合計を計算する関数であるｈ（ｔ，υ）の値が高い（低い）場所ほど、Ｐ，Ｎの弁別に適した場所となる。この関数ｈ（ｔ，υ）の値をある一定の閾値で切れば、複数の特徴を得ることができる。また、血圧値と脈拍のように、複数の違うデータを保持している場合には、別々に処理を施すことで、多くの特徴を得ることができる。上記の例題の場合は、ある時刻からある時刻の間に、観測値がある値からのある値の間にあるというようなものがクラスＰに属する時系列データの特徴の一つとして、特徴量抽出部４で得られる。
【００５５】
特徴量抽出部４で得られた特徴は、規則学習部５に入力される。規則学習部を構成する手段の一つとして、公知のＣ４．５を例に取ると、特徴量抽出部４によって得られた特徴は、規則学習部５において属性として用いられ、その特徴が対象データから観測できるか否かによって、決定木が作られることになる。
【００５６】
一方、ｈ（ｔ，υ）で計算された結果は、特徴視覚化部６によって、例えば公知の視覚化手法を用いることにより視覚化することが可能である。
【００５７】
図６は、例えば、関数ｈ（ｔ，υ）の大きさを濃淡で表す手法を用いて、特徴量抽出部４で得られたデータを視覚化したグラフの一例を示す。図６において、図中の暗い部分９１は、関数ｈ（ｔ，υ）が所定の閾値以下であった領域を例示的に示すものであって、クラスＮが付与された時系列データの特徴が表れた領域であり、一方、図中の明るい部分は、Ｐの特徴が表れた領域である。
【００５８】
規則学習部５によって得られた決定木などの規則は、分類予測算出部７において時系列データに付与されるクラスの分類予測に用いられる。新たな時系列データが得られた時に、決定木などによる規則を用いることにより、対象の時系列データが、所望する結果が期待されるクラスＰに属するか，それ以外のクラスＮに属するか、を予測可能となる。この分類予測算出部７によるクラス分類の予測結果に基づいて、データ制御部９は、特定の所望する結果をもたらすようなアクションを指示することができる。例えば、薬の効果があるかないかをクラスとするような場合には、効果があると予測すれば、投与すればよいし、効果が無いと予測すれば、副作用を避けるために、投与しなければよい。
【００５９】
一方、規則学習部５によって得られた決定木や、特徴視覚化部６によって視覚化されたグラフは、理由説明報知部８において、ユーザーに対する理由説明を提示する手段として用いられてもよい。ユーザーにとって、ある状況においてどのような行動を取ればいいかの理解も可能になる。この理由説明報知８からの出力を用いて、データ制御部９において、特定の結果をもたらすような行動を提示することができる。例えば、競技がスタートする３分前の心拍数がある一定の範囲にある時に、競技結果が良好なクラスであることが分かれば、３分前にその範囲になるように、競技出場選手がウォーミングアップをすればよいことになる。
【００６０】
（４）本実施形態に係る特徴量抽出処理の処理手順詳細
以下、図７ないし図９を参照して、本実施形態に係る特徴量抽出処理の処理手順詳細を説明する。図７の時系列データが、時系列データ収集部１により収集、記憶されたものとする。図７の時系列データは、例えば図２の時系列データの値を記号化したものである。
【００６１】
図８は、図７の時系列データから特徴量を抽出するための処理手順を示すフローチャートである。図８のフローチャートにおいて使用されているｊ，ｋ，ｌは、それぞれ、特徴を出そうとするクラスの番号、サンプルの番号、単位時間の番号を表すのに使われている。
【００６２】
一つのサンプルｅ_kは、時系列のデータｄ_klを持っている。ここで、変数ｌは、単位時間を表しており、例えばｄ_k5は、ｋ番目の例ｅ_kの時間５の観測値を表している。ｊは、クラスの番号を表している。例えば、２個のクラスがある場合には、ｊは、１か２の値をとることになり、２個のクラスは、Ｃ₁，Ｃ₂となる。
【００６３】
図８のフローチャートにおいては、各サンプルの時系列データとクラスが入力として与えられる。例えば、医療データにおいては、各患者の薬の効果（効いた、効かない）をクラスとし、各患者の、時系列に沿って観測された血圧データが入力に使われる。
【００６４】
図８のフローチャートの出力として得られるものは、各クラスに対する特徴を示す関数ｈ_j（ｔ，υ）である。この関数ｈ_j（ｔ，υ）は、ｊ番目のクラスに対して、時間ｔと値υから構成される関数となる。
【００６５】
まず、ステップＳ５１において、クラスｊを１つずつ順に選択し（ステップＳ５１、ステップＳ５３、ステップＳ５９）、処理対象のクラスに対して、ステップＳ５５からステップＳ６９までの処理を繰り返すことにより、ｈ_j（ｔ，υ）を算出する（ステップＳ７３、ステップＳ７５）。なお、本実施形態においては、必ずしもステップＳ５１、ステップＳ５３およびステップＳ５９に示されるように、１つのクラスとその他のクラスを区別し、１つのクラスごと処理されなくともよい。この場合においては、図８におけるステップＳ５１、ステップＳ５３およびステップＳ５９によって示される処理ループを省略して実行されてよい。
【００６６】
ステップＳ５５において、サンプルｋを１つずつ順に選択し（ステップＳ５５、ステップＳ５７、ステップＳ６５）、各サンプルごとに、ステップＳ５７からステップＳ６９までの処理を繰り返すことにより、全てのサンプルに対して関数ｈの算出を実行する。
【００６７】
ステップＳ６１において、単位時間ｌを１つ順に選択し（ステップＳ６１、ステップＳ６３、ステップＳ６９）、各サンプルに対して、全ての単位時間（時刻）に亘って、

【００６８】
の総和を求める（ステップＳ７１〜ステップＳ７３）。なお、

【００６９】
は、数式１におけるｆ（ｔ，υ）と同じであり、ｔ′にｌを、υ′にｄ_klを代入したものである。図８中、＊で示された箇所（ステップＳ６７Ｎ）は、単位時間中、ｄ_klが欠損していた場合であり、この場合には、何も処理せず、次の単位時間についての処理に進む。データが観測された場合には（ステップＳ６７Ｙ）、サンプルｅ_kが対象クラスＣ_jに属するか否かで、処理が分かれる。サンプルｅ_kが対象クラスＣ_jに属する場合には（ステップＳ７１Ｙ）、ｈ_ｊ（ｔ，ｖ）＝ｈ_ｊ（ｔ，ｖ）＋ｆ_ｌ，ｄ_ｋｌ（ｔ，ｖ）が算出され（ステップＳ７３）、一方、サンプルｅ_kが対象クラスＣ_jに属さない場合には（ステップＳ７１Ｎ）、ｈ_ｊ（ｔ，ｖ）＝ｈ_ｊ（ｔ，ｖ）−ｆ_ｌ，ｄ_ｋｌ（ｔ，ｖ）が算出される（ステップＳ７５）。すなわち、ステップＳ７３およびＳ７５においては、数式２で示した関数ｇ（ｅ）によって場合分けされ、ｈ_j（ｔ，υ）が更新される。
【００７０】
図９は、異なった種類（属性）の時系列データが収集された場合の、時系列データから特徴量を抽出するための処理手順を示すフローチャートであり、図９のフローチャートにおいて使用されているｉは、時系列データの各属性の番号を示す。例えば、医療データの場合には、脈拍や血圧など、異なった属性の複数のデータを収集することができる。このような場合には、図９に示すフローチャートに従った処理を実行することにより、複数の属性から特徴を抽出することができる。なお、属性となる脈拍や血圧のデータは、常に同時刻に取られているのでなくても構わない。
【００７１】
まず、ステップＳ１において、時系列データの属性ｉを１つずつ順に選択し（ステップＳ１、ステップＳ３、ステップＳ９）、すべての属性に対して、各属性ごとに、図８におけるフローチャートの処理（ステップＳ５１からステップＳ６９）を繰り返すことにより、それぞれの属性に対して、関数ｈを算出することにより、特徴を抽出する（ステップＳ５）。
【００７２】
（５）本実施形態に係る時系列データ分析装置のハードウエア構成
図１０は、本実施形態による時系列データ分析装置の構成を示すブロック図である。図１０に示されるコンピュータ装置１００である時系列データ分析装置１０において、ＣＰＵ１０１は、ＲＯＭ１０４および／またはハードディスクドライブ１０６に格納されたプログラムに従い、ＲＡＭ１０５を一次記憶用ワークメモリとして利用して、システム全体を制御する。さらに、ＣＰＵ１０１は、マウス１０２ａまたはキーボード１０２を介して入力されるユーザの指示に従い、ハードディスクドライブ１０６に格納されたプログラムに基づき、本実施形態に係る時系列データ分析処理を実行する。ディスプレイインタフェイス１０３には、ＣＲＴやＬＣＤなどのディスプレイが接続され、ＣＰＵ１０１が実行する時系列データ分析処理の入力待ち受け画面、処理経過や分析結果などが表示される。リムーバブルメディアドライブ１０７は、主に、リムーバブルメディアからハードディスクドライブ１０６へファイルを書き込んだり、ハードディスクドライブ１０６から読み出したファイルをリムーバブルメディアへ書き込む場合に利用される。リムーバブルメディアとしては、フロッピディスク(ＦＤ)、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ、ＤＶＤ−Ｒ／Ｗ、ＤＶＤ−ＲＡＭやＭＯ、あるいはメモリカード、ＣＦカード、スマートメディア、ＳＤカード、メモリスティックなどが利用可能である。
【００７３】
プリンタインタフェイス１０８には、レーザビームプリンタやインクジェットプリンタなどのプリンタが接続される。ネットワークインタフェイス１０９は、コンピュータ装置をネットワーク１２へ接続するためのインターフェースである。
【００７４】
なお、本実施形態に係る時系列データ分析装置における入力部は、マウス１０２ａあるいはキーボード１０２に限定されることなく、任意のポインティングデバイス、例えばトラックボール、トラックパッド、タブレットなどを適宜用いることができる。携帯情報端末を本実施形態に係る画像検索表示装置として用いる場合には、入力部をボタンやモードダイヤル等で構成してもよい。
【００７５】
また、図１０に示した本実施形態に係る時系列データ分析装置のハードウエア構成は一例に過ぎず、その他の任意のハードウエア構成を用いることができることはいうまでもない。
【００７６】
殊に、本実施形態に係る時系列データ分析処理は、上記コンピュータ端末装置１００あるいはＰＤＡ等の携帯情報端末装置等によって実現されてもよく、コンピュータ端末装置等とサーバー装置とをＢｌｕｅｔｏｏｔｈ（登録商標）等の無線、あるいはインターネット（ＴＣＰ／ＩＰ）、公共電話網（ＰＳＴＮ）、統合サービス・ディジタル網（ＩＳＤＮ）等の有線通信回線で相互接続した、インターネットあるいは任意の周知のローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）からなるネットワークシステムによって実現されてもよい。端末装置とサーバー装置とを接続したシステムによって本実施形態に係る時系列データ分析処理を実現する場合には、例えば、時系列データの記憶保持、ならびにこれらへの分析処理（特徴量抽出処理）をサーバー装置において稼動するプログラムが実行し、ユーザーからの情報解析のための指示入力および解析結果のブラウジング処理のみをＷｅｂブラウザを搭載したクライアント装置が実行してもよい。あるいは、サーバー装置上で稼動するポータルサイトプログラムが、本実施形態に係る時系列データ分析処理の全部または一部を実行してもよい。
【００７７】
コンピュータ端末装置１００上で稼動するＷｅｂブラウザ上のフォームを使用して、ユーザーがクラス種別や解析条件等のデータをサーバー装置に送信できる。あるいは、本実施形態に係る時系列データ分析処理の全部または一部を記述するＪａｖａ（登録商標）アプレット等のアプレットを、ネットワークを介してサーバー装置からＷｅｂブラウザ上にダウンロードし、ブラウザのウインドウに埋め込ませて実行させることができる。
【００７８】
以上のとおり、本実施形態によれば、時系列データから、所望の結果が得られる、ないし期待される場合の時系列データの特徴を自動的かつ効率的に抽出することが可能となる。
【００７９】
また、欠損値を含む時系列データを分析対象とした場合にあっても、データが存在する場合と同様の効果が得られるので、特徴抽出の精度を高く維持することができる。
【００８０】
さらに、抽出された時系列データの特徴を直感的かつ識別可能に視覚化することが可能となる等、有利な効果が得られる。
【００８１】
本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらすすべての実施形態をも含む。さらに、本発明の範囲は、請求項１により画される発明の特徴の組み合わせに限定されるものではなく、すべての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。
【図面の簡単な説明】
【００８２】
【図１】本発明の一実施形態に係る時系列データ分析装置の構成を示す機能ブロック図である。
【図２】本発明の一実施形態に係る時系列データ収集部１に入力される時系列データの一例を示す図である。
【図３】本発明の一実施形態に係る特徴量抽出部４に入力されるデータをグラフ表示した一例を示す図である。
【図４】図２におけるサンプルＮｏ．１の時間３の観測データ値を用いた関数ｆ（ｔ、ｖ）の三次元表示の一例を示す図である。
【図５】図２におけるサンプルＮｏ．１の時間１から時間１０の観測データ値を用いた関数ｆ（ｔ、ｖ）の総和の三次元表示の一例を示す図である。
【図６】特徴視覚化部６が出力する、関数ｈ（ｔ、ｖ）の値を濃淡により二次元表示した一例を示す図である。
【図７】図２における時系列データを記号化して得られる時系列データの一例を示す図である。
【図８】本発明の一実施形態に係る時系列データ分析装置１０の特徴量抽出部４が実行する処理手順の一例を示すフローチャートである。
【図９】本発明の一実施形態に係る時系列データ分析装置１０の特徴量抽出部４が、複数の属性を有する時系列データを処理する場合の処理手順の一例を示すフローチャートである。
【図１０】本発明の一実施形態に係る時系列データ分析装置のハードウエア構成の一例を示す図である。
【符号の説明】
【００８３】
時系列データ収集部１
分類クラス決定部２
時系列データ決定部３
特徴量抽出部４
規則学習部５
特徴視覚化部６
分類予測算出部７
理由説明報知部８
データ制御部９
時系列データ記憶部２１

【特許請求の範囲】
【請求項１】
データ要素を時系列に配列した時系列データを収集する時系列データ収集部と、
収集された時系列データ中、特徴を抽出すべき時系列データに、第１のクラスを、それ以外の時系列データに、前記第１のクラスよりその値の小さい第２のクラスを、それぞれ付与するクラス決定部と、
前記第１および第２のクラスが付与された時系列データを記憶する時系列データ記憶部と、
記憶された前記時系列データに対して、前記データ要素の値が観測された時系列上の観測時刻である観測点のそれぞれについて、各観測点にピークを有する凸型関数を、前記第１および第２のクラスを係数として適用し、すべての時系列データの全観測点についての、前記第１および第２のクラスを係数とする前記凸型関数の総和を算出し、算出された値が、所定の閾値以上となる観測点を抽出することにより、前記時系列データの特徴を抽出する特徴抽出部とを具備する
ことを特徴とする時系列データ分析装置。
【請求項２】
前記特徴抽出部は、
各時系列データごとに、すべての時刻に亘り、前記観測点のみについて、前記凸型関数の総和を算出する時系列データ関数値算出手段と、
前記時系列データ関数値算出手段により算出された前記凸型関数の総和に、当該時系列データに付与された前記第１のクラスまたは第２のクラスを係数として掛け合わせるクラス適用手段と、
すべての時系列データについて、前記時系列データ関数値算出手段と前記クラス適用手段とによる計算処理を繰り返す第１繰り返し計算手段と、
すべてのクラスについて、前記時系列データ関数値算出手段、前記クラス適用手段および前記第１繰り返し計算手段による計算処理を繰り返す第２繰り返し計算手段と、
前記第２繰り返し計算手段により算出された値が、所定の閾値以上となる観測点を抽出する観測点抽出手段とを具備する
ことを特徴とする請求項１に記載の時系列データ分析装置。
【請求項３】
前記第１のクラスの値は＋１であり、前記第２のクラスの値は−１である
ことを特徴とする請求項１または２に記載の時系列データ分析装置。
【請求項４】
上記時系列データ分析装置は、さらに、
前記特徴抽出部により抽出された特徴に基づいて、前記時系列データのすべての観測点における前記凸型関数の総和を、観測時刻および観測されたデータ値が構成する平面上三次元表示し、または該平面上閾値ごとに識別可能に二次元表示する特徴視覚化部を具備する
ことを特徴とする請求項１ないし３のいずれか記載の時系列データ分析装置。
【請求項５】
上記時系列データ分析装置は、さらに、
前記特徴抽出部により抽出された特徴に基づいて、規則を生成し、生成された規則に従って、時系列データに付与すべきクラスを予測するクラス予測部を具備する
ことを特徴とする請求項１ないし４のいずれか記載の時系列データ分析装置。
【請求項６】
時系列データ分析処理をコンピュータに実行させるための時系列データ分析プログラムであって、該プログラムは、前記コンピュータに、
データ要素を時系列に配列した時系列データを収集する時系列データ収集処理と、
収集された時系列データ中、特徴を抽出すべき時系列データに、第１のクラスを、それ以外の時系列データに、前記第１のクラスよりその値の小さい第２のクラスを、それぞれ付与するクラス決定処理と、
前記第１および第２のクラスが付与された時系列データを記憶する時系列データ記憶処理と、
記憶された前記時系列データに対して、前記データ要素の値が観測された時系列上の観測時刻である観測点のそれぞれについて、各観測点にピークを有する凸型関数を、前記第１および第２のクラスを係数として適用し、すべての時系列データの全観測点についての、前記第１および第２のクラスを係数とする前記凸型関数の総和を算出し、算出された値が、所定の閾値以上となる観測点を抽出することにより、前記時系列データの特徴を抽出する特徴抽出処理とを含む
処理を実行させるためのものであることを特徴とする時系列データ分析プログラム。
【請求項７】
前記特徴抽出処理は、
各時系列データごとに、すべての時刻に亘り、前記観測点のみについて、前記凸型関数の総和を算出する時系列データ関数値算出処理と、
前記時系列データ関数値算出処理により算出された前記凸型関数の総和に、対象時系列データに付与された前記第１のクラスまたは第２のクラスを係数として掛け合わせるクラス適用処理と、
すべての時系列データについて、前記時系列データ関数値算出処理と前記クラス適用処理とによる計算処理を繰り返す第１繰り返し計算処理と、
すべてのクラスについて、前記時系列データ関数値算出処理、前記クラス適用処理および前記第１繰り返し計算処理による計算処理を繰り返す第２繰り返し計算処理と、
前記第２繰り返し計算処理により算出された値が、所定の閾値以上となる観測点を抽出する観測点抽出処理とを含む
ことを特徴とする請求項６に記載の時系列データ分析プログラム。
【請求項８】
前記第１のクラスの値は＋１であり、前記第２のクラスの値は−１である
ことを特徴とする請求項６または７に記載の時系列データ分析プログラム。
【請求項９】
上記時系列データ分析プログラムは、さらに、
前記特徴抽出処理により抽出された特徴に基づいて、前記時系列データのすべての観測点における前記凸型関数の総和を、観測時刻および観測されたデータ値が構成する平面上三次元表示し、または該平面上閾値ごとに識別可能に二次元表示する特徴視覚化処理を含む
ことを特徴とする請求項６ないし８のいずれか記載の時系列データ分析プログラム。
【請求項１０】
上記時系列データ分析プログラムは、さらに、
前記特徴抽出処理により抽出された特徴に基づいて、規則を生成し、生成された規則に従って、時系列データに付与すべきクラスを予測するクラス予測処理を具備する
ことを特徴とする請求項６ないし９のいずれか記載の時系列データ分析プログラム。

【図１】