行列データ作成装置および行列データ作成方法およびプログラム

【課題】学習期間の時系列データから作成される行列データを基準に、被評価データを主成分分析で評価する評価装置において、学習期間が長くなる場合に、行列データのサイズが大きくなってしまう課題が有った。
【解決手段】行列作成部５０１は、時系列データ２５１からＭ行の行ベクトルである異成分行ベクトル２６１ａを抽出し、Ｍ行の異成分行ベクトル２６１ａから成る行列データ２６２ｂを作成する。追加行ベクトル抽出部２０５は、時系列データ２５１から行列作成部５０１が抽出しなかった行ベクトルである追加行ベクトル２６１ｂを抽出する。判定部５０２は、追加行ベクトル２６１ｂと異成分行ベクトル２６１ａとを比較し類似性を判定する。行列再作成部５０３は、所定の異成分行ベクトル２６１ａと非類似判定された追加行ベクトル２６１ｂとを入れ替え、Ｍ行の行数に固定された行列データ２６２ｅを再作成する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、予め決められた所定のデータ量を超えること無く、行列からなる行列データを作成する行列データ作成装置および行列データ作成方法およびプログラムに関する。
【背景技術】
【０００２】
例えば、企業内への不正アクセスを監視するために、データベースサーバへのアクセス数（接続数）や、ＷＥＢ（ＷｏｒｌｄＷｉｄｅＷｅｂ）サイトへの通信データ量の時系列変化を評価する方法がある。
そして、時系列変化を評価する方法として、以下の方法がある。
例えば通信データ量の時系列変化の評価を行う評価装置は、アクセス数の時系列データについて、学習期間の時系列データをスライディングウィンドウ（後述する）で抽出し、抽出したデータを学習データとして蓄積する。
ここで、学習データは、抽出したデータから構成された行列からなる行列データである。
そして、評価装置は、異常を判定する対象である被評価データを時系列データからスライディングウィンドウ（後述する）で抽出する。更に、評価装置は、学習データと被評価データの類似を主成分分析（ＰＣＡ、ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）で比較し、非類似の場合に被評価データを異常と判断する（例えば、非特許文献１参照）。
【０００３】
また、主成分分析を用いた不正アクセスの監視（検知もしくは評価）方法として、他の方法もある（例えば、特許文献１参照）。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００４−３１２０６４号公報
【非特許文献】
【０００５】
【非特許文献１】標的型攻撃検知システムの評価、北澤他、コンピュータセキュリティシンポジウム２００９
【発明の概要】
【発明が解決しようとする課題】
【０００６】
時系列データ（例えば、通信データ量の時系列変化）を評価する評価装置の学習期間が長くなる場合に、時系列データの増加に伴い、評価装置が蓄積する学習データ（行列データ）のサイズが大きくなってしまう課題が有った。
この発明は、例えば、長期の学習期間における時系列データの中から、時系列データにおける各データの位置づけを反映して、予め決められた所定のサイズを超えない学習データ（行列データ）を時系列データから作成することを目的とする。
【課題を解決するための手段】
【０００７】
この発明に係る行列データ作成装置は、
Ｍ行×Ｎ列の行列（ＭとＮとは、１以上の整数）を示す行列データを作成する行列データ作成装置であって、
時刻に対応した複数のデータを含む時系列データと前記行列データの行数Ｍと列数Ｎとを入力し、入力した前記時系列データから、Ｍ組の行ベクトルであって、前記時系列データが含む複数のデータの内、Ｎ個のデータを成分データとし、前記Ｎ個の成分データの内少なくとも１個の前記成分データの対応する時刻が異なるＭ組の行ベクトルであるＭ組の異成分行ベクトルを抽出し、抽出した前記Ｍ組の異成分行ベクトルを各行とする前記Ｍ行×Ｎ列の前記行列データを作成する行列作成部と、
前記行列作成部が抽出した前記Ｍ組の異成分行ベクトルとは異なる異成分行ベクトルを、前記時系列データから追加行ベクトルとして抽出する追加行ベクトル抽出部と、
前記追加行ベクトル抽出部が抽出した追加行ベクトルが、前記行列データを構成する各行の前記異成分行ベクトルのいずれかに類似するか否かを所定の類似判断基準により判定する判定部と、
前記判定部が前記追加行ベクトルと類似する前記異成分行ベクトルが存在すると判定した場合は、前記追加行ベクトルを廃棄し、前記判定部が前記追加行ベクトルと類似する前記異成分行ベクトルが存在しないと判定した場合は、前記行列データの所定の前記異成分行ベクトルを削除し、削除後の残りの前記異成分行ベクトルと、前記追加行ベクトルとから成る新たなＭ組の前記異成分行ベクトルを各行とする前記行列データを再作成する行列再作成部と
を備えることを特徴とする。
【発明の効果】
【０００８】
この発明に係る行列データ作成装置は、例えば、長期の学習期間における時系列データの中から、時系列データにおける各データの位置づけを反映して、予め決められた所定のサイズを超えない学習データ（行列データ）を時系列データから作成することを可能とする。
そして、この発明に係る行列データ作成装置が作成した学習データ（行列データ）は、例えば評価装置に対して提供される。
【図面の簡単な説明】
【０００９】
【図１】実施の形態１を示す図で、行列データ作成装置の外観の一例を示す図。
【図２】実施の形態１を示す図で、行列データ作成装置１００のハードウェア資源の一例を示す図。
【図３】実施の形態１を示す図で、行列データ作成装置１００の構成を示す図。
【図４】実施の形態１を示す図で、主成分分析を用いたデータ評価の概要を示す図。
【図５】実施の形態１を示す図で、行列作成部５０１の処理を示すフローチャート。
【図６】実施の形態１を示す図で、行列データ作成装置１００が行列データ２６２ｅを作成する処理を示すフローチャート。
【図７】実施の形態２を示す図で、複数の時系列データ２５１と行列データとの例を示す図。
【図８】実施の形態２を示す図で、行列データ作成装置１００の構成を示す図。
【図９】実施の形態３を示す図で、時系列データ２５１とランダムに作成される行列データとの例を示す図。
【図１０】実施の形態４を示す図で、所定の期間において傾向が異なる時系列データ２５１の例を示す図。
【図１１】実施の形態４を示す図で、データ切り出し部２０１の処理を示すフローチャート。
【図１２】実施の形態４を示す図で、データ切り出し部２０１の処理を示すフローチャート。
【発明を実施するための形態】
【００１０】
実施の形態１．
（行列データ作成装置と評価装置との概要）
まず、行列データ作成装置と評価装置との関係を説明する。
行列データ作成装置は、Ｍ行×Ｎ列の行列（ＭとＮとは、１以上の整数）を示す行列データを作成する。そして、行列データ作成装置は、前述のような主成分分析（ＰＣＡ、ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）を用いてデータの評価を行う評価装置に対して、作成した行列データを学習データとして提供する。
この学習データは、評価装置が主成分分析を行う際に、メモリを大量に消費しないように、予め決められた所定のサイズの行列データとなるように、後述する方法により、データが削減されたものである。従って、行列データ作成装置は、学習データ削減システムであるとも言える。
言い換えれば、行列データ作成装置は、評価装置が主成分分析可能な行列データ（学習データ）を作成するとも言える。
【００１１】
ここで、評価装置について簡単に述べる。
評価装置は、前述のように、企業内への不正アクセスを監視するために、データベースサーバへのアクセス数（接続数）や、ＷＥＢ（ＷｏｒｌｄＷｉｄｅＷｅｂ）サイトへの通信データ量の時系列変化を評価する。
その際に、評価装置は、評価対象が正常な状態である所定の期間の時系列データから、予め正常な状態のデータを学習する。この所定の期間を「学習期間」と称し、正常な状態を学習したデータを「学習データ」と称する。
この学習データは、前述のように行列から成り、行列データとも言える。以降、学習データを行列データとも称する。
【００１２】
評価装置は、学習データ（行列データ）を取得後、評価対象となる被評価データと学習データ（行列データ）とを主成分分析により比較し、互いのデータの類似もしくは非類似を分析する。
学習データ（行列データ）の取得方法および、主成分分析によるデータの分析方法は、後述する。
【００１３】
そして、評価装置は、被評価データが学習データ（行列データ）と類似であると分析した場合、被評価データは正常で有ると判断する。一方、評価装置は、被評価データが学習データ（行列データ）と非類似であると分析した場合、被評価データは異常で有ると判断する。
例えば、前述の例のように、評価装置が、データベースサーバへのアクセス数を評価し、異常と判断した場合は、例えば不正なアクセスが行われていると考えられる。
【００１４】
ここで、評価装置の誤評価を低減するために学習期間を長期にとる場合がある。例えば、イントラネットのログ（時系列データ）を分析する場合、週内変動の他に月内変動も見られることがあるため、１週間の学習期間では誤検知が発生してしまう。そこで、評価装置は、１ヶ月単位での学習が必要なケースがある。
学習期間を長期に設定するメリットは、短期間では観測できないデータを学習できることにあり、多様な学習データ（行列データ）のバリエーションが増えるため、すなわち、学習データ（行列データ）のバリエーションが増えるため、結果として誤評価が減ることになる。
【００１５】
ところが、長期の学習データ（行列データ）を使用した場合、評価装置が主成分分析を実行する際の学習データの行列のサイズが大きくなり、評価装置のメモリが大量に消費される。最悪の場合、評価装置は、計算用のメモリを確保できないこともある。
【００１６】
その為に、実施の形態１〜４の行列データ作成装置は、長期の時系列データから学習データ（行列データ）のバリエーションを維持しながらも、評価装置が主成分分析を実行可能なサイズの学習データ（行列データ）を作成し、評価装置に提供する。
そして、評価装置は、行列データ作成装置から提供された学習データ（行列データ）を元に被評価データの評価を行う。
【００１７】
（行列データ作成装置のハードウェア構成の概要）
次に、図１、図２を用いて行列データ作成装置のハードウェア構成の概要を説明する。
図１は、実施の形態１における行列データ作成装置の外観の一例を示す図である。
図１において、行列データ作成装置１００は、システムユニット９１０、ＣＲＴ（Ｃａｔｈｏｄｅ・Ｒａｙ・Ｔｕｂｅ）やＬＣＤ（液晶）の表示画面を有する表示装置９０１、キーボード９０２（Ｋｅｙ・Ｂｏａｒｄ：Ｋ／Ｂ）、マウス９０３、ＦＤＤ９０４（Ｆｌｅｘｉｂｌｅ・Ｄｉｓｋ・Ｄｒｉｖｅ）、コンパクトディスク装置９０５（ＣＤＤ）、プリンタ装置９０６、スキャナ装置９０７などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。
システムユニット９１０は、コンピュータであり、ファクシミリ機９３２、電話器９３１とケーブルで接続され、また、ローカルエリアネットワーク９４２（ＬＡＮ）、ゲートウェイ９４１を介してインターネット９４０に接続されている。
【００１８】
図２は、実施の形態１における行列データ作成装置１００のハードウェア資源の一例を示す図である。
図２において、行列データ作成装置１００は、プログラムを実行するＣＰＵ９１１（Ｃｅｎｔｒａｌ・Ｐｒｏｃｅｓｓｉｎｇ・Ｕｎｉｔ、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう）を備えている。ＣＰＵ９１１は、バス９１２を介してＲＯＭ９１３、ＲＡＭ９１４、通信ボード９１５、表示装置９０１、キーボード９０２、マウス９０３、ＦＤＤ９０４、ＣＤＤ９０５、プリンタ装置９０６、スキャナ装置９０７、磁気ディスク装置９２０と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置９２０の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
ＲＡＭ９１４は、揮発性メモリの一例である。ＲＯＭ９１３、ＦＤＤ９０４、ＣＤＤ９０５、磁気ディスク装置９２０の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部の一例である。
通信ボード９１５、キーボード９０２、スキャナ装置９０７、ＦＤＤ９０４などは、入力部、入力装置の一例である。
また、通信ボード９１５、表示装置９０１、プリンタ装置９０６などは、出力部、出力装置の一例である。
【００１９】
通信ボード９１５は、ファクシミリ機９３２、電話器９３１、ＬＡＮ９４２等に接続されている。通信ボード９１５は、ＬＡＮ９４２に限らず、インターネット９４０、ＩＳＤＮ等のＷＡＮ（ワイドエリアネットワーク）などに接続されていても構わない。インターネット９４０或いはＩＳＤＮ等のＷＡＮに接続されている場合、ゲートウェイ９４１は不用となる。
磁気ディスク装置９２０には、オペレーティングシステム９２１（ＯＳ）、ウィンドウシステム９２２、プログラム群９２３、ファイル群９２４が記憶されている。プログラム群９２３のプログラムは、ＣＰＵ９１１、オペレーティングシステム９２１、ウィンドウシステム９２２により実行される。
【００２０】
上記プログラム群９２３には、以下に述べる実施の形態の説明において「〜部」として説明する機能を実行するプログラムが記憶されている。プログラムは、ＣＰＵ９１１により読み出され実行される。
ファイル群９２４には、以下に述べる実施の形態の説明において、「〜の判定結果」、「〜の計算結果」、「〜の処理結果」として説明する情報やデータや信号値や変数値やパラメータが、「ファイル」や「データベース」の各項目として記憶されている。「ファイル」や「データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してＣＰＵ９１１によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのＣＰＵの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のＣＰＵの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、以下に述べる実施の形態の説明において説明するフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、ＲＡＭ９１４のメモリ、ＦＤＤ９０４のフレキシブルディスク、ＣＤＤ９０５のコンパクトディスク、磁気ディスク装置９２０の磁気ディスク、その他光ディスク、ミニディスク、ＤＶＤ（Ｄｉｇｉｔａｌ・Ｖｅｒｓａｔｉｌｅ・Ｄｉｓｋ）等の記録媒体に記録される。また、データや信号は、バス９１２や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
【００２１】
また、以下に述べる実施の形態の説明において「〜部」として説明するものは、「〜回路」、「〜装置」、「〜機器」、「手段」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」として説明するものは、ＲＯＭ９１３に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等の記録媒体に記憶される。プログラムはＣＰＵ９１１により読み出され、ＣＰＵ９１１により実行される。すなわち、プログラムは、以下に述べる「〜部」としてコンピュータを機能させるものである。あるいは、以下に述べる「〜部」、「〜手段」の手順や方法をコンピュータに実行させるものである。
【００２２】
（行列データ作成装置の構成）
図３は、行列データ作成装置の構成を示す図である。
行列作成部５０１は、時刻に対応した複数のデータを含む時系列データ２５１と、ウィンドウサイズ２５２と、行列上限値２５３とを入力する。
時系列データ２５１は、評価装置の学習期間におけるデータである。
ウィンドウサイズ２５２は、行列データ作成装置が作成する行列データの列数Ｎである（ウィンドウサイズ２５２については、別途後述する）。そして、行列上限値２５３は、行列データ作成装置が作成する行列データの行数Ｍである。
すなわち、評価装置が主成分分析を実行可能な行列データのサイズから、ウィンドウサイズ２５２と行列上限値２５３とは決定される。ウィンドウサイズ２５２が決定されれば、評価装置が主成分分析を実行可能な行列データのサイズから、評価装置が主成分分析を実行可能な行列データ最大行数として、行列上限値２５３は決定されるとも言える。
ウィンドウサイズ２５２と行列上限値２５３とは、主成分分析を行う計算機やソフトウェアの性能で決定される為、例えば評価装置の管理者が予め見積もりを行い、設定される。
【００２３】
時系列データ２５１と、ウィンドウサイズ２５２と、行列上限値２５３とは、例えば評価装置から図１に示すＬＡＮ９４２や、図２に示す通信ボード９１５などを経由し、行列作成部５０１に入力される。あるいは、例えば行列データ作成装置１００の磁気ディスク装置９２０が、時系列データ２５１と、ウィンドウサイズ２５２と、行列上限値２５３とを予め記憶しておくことも可能である。
【００２４】
行列作成部５０１は、データ切り出し部２０１と、行列追加部２０２と、行列上限判定部２０３と、基準カウンタ部２０４とから構成される。
【００２５】
データ切り出し部２０１は、入力した時系列データ２５１から、ウィンドウサイズ２５２に基づき、時系列データ２５１が含む複数のデータの内、Ｎ個のデータを成分データとする異成分行ベクトル２６１ａを抽出する（切り出す）。
異成分行ベクトル２６１ａは、それぞれの異成分行ベクトル２６１のＮ個の成分データの内少なくとも１個の成分データの対応する時刻が異なる複数の行ベクトルである（詳細は後述する）。
【００２６】
行列追加部２０２は、データ切り出し部２０１が抽出した異成分行ベクトル２６１ａを各行とする暫定行列データ２６２ａを作成する。
【００２７】
基準カウンタ部２０４は、行列追加部２０２が作成した暫定行列データ２６２ａの最新の行数を基準カウンタ値２６３として保持する。
【００２８】
行列上限判定部２０３は、基準カウンタ値２６３と行列上限値２５３とを比較し、行列追加部２０２の作成した行列データが行数Ｍに達したかを判定し、行数Ｍに達している場合、Ｍ行×Ｎ列の行列データ２６２ｂを出力する。行数Ｍに達していない場合は、行列上限判定部２０３は、異成分行ベクトル２６１ａの抽出を要求する情報である抽出追加要求８０１をデータ切り出し部２０１に対して出力する。
よって、データ切り出し部２０１は、最終的にＭ組の異成分行ベクトル２６１ａを抽出する。そして、行列追加部２０２はＭ組の異成分行ベクトル２６１ａを各行とするＭ行×Ｎ列の行列データ２６２ｂを作成し、行列上限判定部２０３は、Ｍ組の異成分行ベクトル２６１ａを各行とするＭ行×Ｎ列の行列データ２６２ｂを出力する。
【００２９】
追加行ベクトル抽出部２０５は、行列上限判定部２０３からＭ行×Ｎ列の行列データ２６２ｂの出力を完了したことを示す完了情報８００を入力する。そして、追加行ベクトル抽出部２０５は、完了情報８００を入力した後、データ切り出し部２０１が抽出したＭ組の異成分行ベクトル２６１ａとは異なる異成分行ベクトルを時系列データ２５１から追加行ベクトル２６１ｂとして抽出する。
【００３０】
判定部５０２は、追加行ベクトル抽出部２０５が抽出した追加行ベクトル２６１ｂが、行列データ２６２ｂを構成する各行の異成分行ベクトル２６１ａのいずれかに類似するか否かを所定の類似判断基準により判定する。
判定部５０２は、主成分分析部２０６と、類似判定部２０７とから構成される。
【００３１】
主成分分析部２０６は、行列データ２６２ｂに含まれるＭ組の異成分行ベクトル２６１ａのそれぞれから、Ｌ次元（Ｌは１以上の整数）の特徴量である異成分特徴量２６４ａを、主成分分析を用い、異成分行ベクトル２６１ａのそれぞれに対応付けて算出する（詳細は後述する）。
更に、主成分分析部２０６は、追加行ベクトル抽出部２０５が抽出した追加行ベクトル２６１ｂのＬ次元の特徴量である追加特徴量２６４ｂを算出する（詳細は後述する）。
【００３２】
類似判定部２０７は、主成分分析部２０６が算出したＭ個の異成分特徴量２６４ａが分布する領域を示すＬ次元の異成分特徴量領域を作成する（詳細は後述する）。
そして、類似判定部２０７は、追加特徴量２６４ｂが、異成分特徴量領域から乖離しているか否かを所定の類似判断基準とする。そして、類似判定部２０７は、追加特徴量２６４ｂが異成分特徴量領域から乖離していない場合は、追加行ベクトル２６１ｂと類似する各異成分行ベクトル２６１ａが存在すると判定する。また、類似判定部２０７は、追加特徴量２６４ｂが異成分特徴量領域から乖離している場合は、追加行ベクトル２６１ｂと類似する各異成分行ベクトル２６１ａが存在しないと判定する（詳細は後述する）。
類似判定部２０７は、追加行ベクトル２６１ｂと類似する各異成分行ベクトル２６１ａが存在すると判定した場合に、類似判定２６９を出力する。
類似判定部２０７は、追加行ベクトル２６１ｂと類似する各異成分行ベクトル２６１ａが存在しないと判定した場合に、行列データ２６２ｂから削除する異成分行ベクトル２６１ａを示す削除対象行２６５を出力する。
【００３３】
行列再作成部５０３は、類似データ廃棄部２０８と類似データ削除部２０９と非類似データ追加部２１０とから構成される。
【００３４】
類似データ廃棄部２０８は、判定部５０２が追加行ベクトル２６１ｂと類似する異成分行ベクトル２６１ａが存在すると判定した場合、追加行ベクトル２６１ｂを廃棄する。
【００３５】
類似データ削除部２０９は、判定部５０２が追加行ベクトル２６１ｂと類似する異成分行ベクトル２６１ａが存在しないと判定した場合は、削除対象行２６５で指定される行を構成する異成分行ベクトル２６１ａを削除する。そして、類似データ削除部２０９は、該当の異成分行ベクトル２６１ａが削除された行例データを暫定行列データ２６２ｃとして出力する。
【００３６】
非類似データ追加部２１０は、類似データ削除部２０９が所定の異成分行ベクトル２６１ａを削除した、削除後の残りの異成分行ベクトル２６１ａと、追加行ベクトル２６１ｂとから成る新たなＭ組の異成分行ベクトル２６１ａを各行とする行列データ２６２ｄを再作成する。
【００３７】
追加カウンタ部２１２は、追加行ベクトル抽出部２０５が時系列データ２５１から追加行ベクトル２６１ｂを抽出する毎にカウントし、カウントした回数に基準カウンタ値２６３を加え、追加カウンタ値２６７として出力する。
【００３８】
学習データ最大数計算部２１３は、時系列データ２５１とウィンドウサイズ２５２とから、異成分行ベクトル２６１ａと追加行ベクトル２６１ｂとが抽出される最大数を計算し、学習データ最大数２６８として出力する。
【００３９】
学習完了判定部２１１は、追加カウンタ値２６７と学習データ最大数２６８とを比較し、行列データ２６２ｄの行数が学習データ最大数２６８と同じになった場合に、行列データ２６２ｄを、評価装置に提供する行列データ２６２ｅとして出力する。
【００４０】
（行列作成部５０１の動作説明）
次に、行列作成部５０１が時系列データ２５１から行列データ２６２ｂを抽出するまでの説明を行う。
図４は、主成分分析を用いたデータ評価の概要を示す図である。
図５は、行列作成部５０１の処理を示すフローチャートである。
【００４１】
図４に時系列データ２５１の例を示す。
ここで、時刻ｔにおける観測データ（例えばアクセス数）をｘ（ｔ）とする。例えば、時刻ｔはある時刻からの１０分おきの時刻とする。例えば、時刻ｔは、１２時００分、１２時１０分、１２時２０分、・・・という時刻である。
例えば、１０分間のアクセス数をカウントして時系列にする場合、１２時１０分の観測データは、１２時００分００秒〜１２時０９分５９秒の間に観測された数値の和とすることもある。
いずれにしても、観測データは、時刻ｔをパラメータとする時系列データ２５１となる。
データ切り出し部２０１は、この図４に示すような時系列データ２５１を例えば図２に示す通信ボード９１５を介して、例えば評価装置から入力する。
【００４２】
図５に示すＳ３０１１において、基準カウンタ部２０４は基準カウンタ値２６３を初期化する。ここで基準カウンタ値２６３の初期値は「０」である。
次に図５に示すＳ３０１２において、データ切り出し部２０１は、ウィンドウサイズ２５２に基づき、時系列データ２５１から最初の成分データを抽出し、異成分行ベクトル２６１ａを出力する。ここで最初の成分データとは時系列データ２５１において一番過去のデータ（ここで、一番過去のデータをｘ（ｔ）とする）を含む範囲であり、図４のウィンドウ１０２ａで示す部分である。
ここで、ウィンドウサイズ２５２は、例えば「２４」であるとする。すなわち、ウィンドウ１０２は、時刻ｔを２４時刻分含む範囲となる。
よって、データ切り出し部２０１は、図４のウィンドウ１０２ａによって、２４個のデータ（ｘ（ｔ）〜ｘ（ｔ＋２３））を成分データとした異成分行ベクトル２６１ａ−１を抽出する。
データ切り出し部２０１は、異成分行ベクトル２６１ａを抽出すると、抽出情報８０３を基準カウンタ部２０４に対して出力する。
【００４３】
基準カウンタ部２０４は、データ切り出し部２０１から抽出情報８０３を入力すると、図５に示すＳ３０１３において、基準カウンタ値２６３を一つインクリメントする。つまり、基準カウンタ値２６３は、異成分行ベクトル２６１ａが抽出された回数を示す。
【００４４】
次に図５に示すＳ３０１４において、行列追加部２０２は、抽出された異成分行ベクトル２６１ａを暫定行列データ２６２ａに加える。行列追加部２０２は、ウィンドウ１０２ａによって抽出された最初のデータを、図４に示すように暫定行列データ２６２ａの１行目とする。そして、行列追加部２０２は、異成分行ベクトル２６１ａが抽出される度に、順次、暫定行列データ２６２ａの最後の行に追加する。
すなわち、行列追加部２０２は、異成分行ベクトル２６１ａを暫定行列データ２６２ａの基準カウンタ値２６３が示す値と同じ行に追加するとも言える。よって、行列追加部２０２は、基準カウンタ部２０４から基準カウンタ値２６３を入力し、基準カウンタ値２６３が示す値と同じ行に異成分行ベクトル２６１ａを追加することも出来る。
【００４５】
次に、次に図５に示すＳ３０１５において、行列上限判定部２０３は、行列上限値２５３「Ｍ」と基準カウンタ値２６３とが等しいか判定する。等しい場合（図５のＳ３０１５の「ＹＥＳ」）は、行列上限判定部２０３は、暫定行列データ２６２ａを行列データ２６２ｂとして出力する。
一方、等しく無い場合（図５のＳ３０１５の「ＮＯ」）は、データ切り出し部２０１は、Ｓ３０１２の処理に戻り、異成分行ベクトル２６１ａの抽出を継続する。
【００４６】
ここで、データ切り出し部２０１は、異成分行ベクトル２６１ａの抽出を継続する際に、ウィンドウ１０２の範囲を時刻ｔずつずらしながら、Ｍ組の異成分行ベクトル２６１ａの抽出を行う。
すなわち、データ切り出し部２０１は、前述の通り、図４のウィンドウ１０２ａによって、２４個データ（ｘ（ｔ）〜ｘ（ｔ＋２３））を成分データとした異成分行ベクトル２６１ａ−１を抽出する。
そして、次に、データ切り出し部２０１は、図４のウィンドウ１０２ａから時刻ｔずれたウィンドウ１０２ｂによって、成分データがそれぞれ時刻ｔずれた、すなわちｔ＝ｔ＋１となった２４個データ（ｘ（ｔ＋１）〜ｘ（ｔ＋２４））を成分データとした異成分行ベクトル２６１ａ−２を抽出する。
以降、同様に、データ切り出し部２０１は、図４のウィンドウ１０２を時刻ｔずつずらしながら、成分データがそれぞれ時刻ｔずれた異成分行ベクトル２６１ａを抽出する。
そして、データ切り出し部２０１は、最後に図４のウィンドウ１０２ｃによって、ｘ（ｔ＋Ｍ−１）〜ｘ（ｔ＋Ｍ＋２２）を成分データとしたＭ組目の異成分行ベクトル２６１ａ−３を抽出する。
【００４７】
このようにウィンドウ１０２を時刻ｔずつずらしながら、成分データがそれぞれ時刻ｔずれた異成分行ベクトル２６１ａを抽出する方法を前述のスライディングウィンドウと称する。
【００４８】
ここで、異成分行ベクトル２６１ａ−１である（ｘ（ｔ）〜ｘ（ｔ＋２３））と、異成分行ベクトル２６１ａ−２である（ｘ（ｔ＋１）〜ｘ（ｔ＋２４））とは、２４個（Ｎ個）の成分データの内、最も過去の時刻が「ｔ」から「ｔ＋１」へと連続している。そして、異成分行ベクトル２６１ａの２４個（Ｎ個）の成分データも時刻が連続している。
【００４９】
すなわち、データ切り出し部２０１（行列作成部５０１）は、古い時刻から新しい時刻へと時系列データ２５１内において連続するＮ個のデータを、Ｎ個の成分データとした異成分行ベクトル２６１ａを、Ｎ個の成分データの内、最も過去の時刻が、Ｍ組の異成分行ベクトル２６１ａ間で連続するように時系列データ２５１から順番にＭ組抽出する。
【００５０】
（追加行ベクトル抽出部２０５の動作説明）
図６は、行列データ作成装置１００が行列データ２６２ｅを作成する処理を示すフローチャートである。
図６に示すＳ３０１が、図５に示すＳ３０１１〜Ｓ３０１６の処理に相当する。
【００５１】
行列上限判定部２０３は、行列データ２６２ｂを出力すると共に、行列データ２６２ｂの作成が完了したことを示す完了情報８００を追加行ベクトル抽出部２０５と基準カウンタ部２０４とに対して出力する。
【００５２】
基準カウンタ部２０４は、完了情報８００を入力すると、追加カウンタ部２１２に対して、基準カウンタ値２６３を出力する。
そして、追加カウンタ部２１２は、図６のＳ３０２において、追加カウンタ値２６７「ｉ」を、基準カウンタ値２６３「ｊ」をインクリメントした値に設定する。
【００５３】
そして、図６に示すＳ３０３において、追加行ベクトル抽出部２０５は、完了情報８００を入力すると、時系列データ２５１から追加行ベクトル２６１ｂの抽出を開始する。
ここで、追加行ベクトル抽出部２０５は、データ切り出し部２０１が最後に抽出に用いた図４に示すウィンドウ１０２ｃから時刻ｔずれたウィンドウ１０２ｄによって、ｘ（ｔ＋Ｍ）〜ｘ（ｔ＋Ｍ＋２３）を成分データとした追加行ベクトル２６１ｂを抽出する。
ここで、追加行ベクトル２６１ｂの成分データの内、最も過去の時刻「ｔ＋Ｍ」は、異成分行ベクトル２６１ａ−３ｘの成分データの内、最も過去の時刻「ｔ＋Ｍ−１」に連続する。
追加行ベクトル抽出部２０５は、以降、同様に時刻ｔずらしたウィンドウ１０２を用いて、追加行ベクトル２６１ｂを抽出する。
そして、追加行ベクトル抽出部２０５は、抽出した追加行ベクトル２６１ｂを主成分分析部２０６に対して出力する。
追加行ベクトル抽出部２０５は、追加行ベクトル２６１ｂを出力（抽出）すると、追加カウンタ部２１２に対して追加情報８０５を出力する。
【００５４】
すなわち、追加行ベクトル抽出部２０５は、古い時刻から新しい時刻へと時系列データ２５１内において連続するＮ個のデータを、Ｎ個の成分データとした追加行ベクトル２６１ｂを抽出する。その際、追加行ベクトル抽出部２０５は、追加行ベクトル２６１ｂを、Ｎ個の成分データの内、最も過去の時刻が、行列作成部５０１（データ切り出し部２０１）が最後に抽出した異成分行ベクトル２６１ａの成分データが対応する最も過去の時刻に、連続するように時系列データ２５１から抽出する。
追加行ベクトル抽出部２０５は、抽出した追加行ベクトル２６１ｂに加え、更に、他の追加行ベクトル２６１ｂを、Ｎ個の成分データの内、最も過去の前記時刻が、追加行ベクトル２６１ｂ間で連続するように時系列データ２５１から順番に抽出する。
【００５５】
（主成分分析部２０６の動作説明）
図６に示すＳ３０４において、主成分分析部２０６は、追加行ベクトル２６１ｂを行列データ２６２ｂ（もしくは後述の行列データ２６２ｄ）の最後の行に追加し、追加行ベクトル２６１ｂが追加された行列データに対して主成分分析を実施し、各行の特徴量（主成分）を算出する。
【００５６】
例えば、特徴量（主成分）を２次元（第１主成分と、第２主成分）まで使用してプロットすると、図４のようになる。
【００５７】
ここで、異成分行ベクトル２６１の特徴量を異成分特徴量２６４ａと称し、追加行ベクトル２６１ｂの特徴量を追加特徴量２６４ｂと称する。
【００５８】
行列データの１行目、すなわち図４の異成分行ベクトル２６１ａ−１の特徴量は、異成分特徴量２６４ａ−１となり、行列データのＭ行目、すなわち図４の異成分行ベクトル２６１ａ−３の特徴量は、異成分特徴量２６４ａ−３となる。そして、行列データの最後の行、すなわち図４の追加行ベクトル２６１ｂの特徴量は、追加特徴量２６４ｂとなる。
【００５９】
（類似判定部２０７の動作説明）
図６に示すＳ３０５において、類似判定部２０７は、追加行ベクトル２６１ｂが行列データ２６２ｂの範囲内であるか否かを判定する。ここで、類似判定部２０７（判定部５０２）は、追加行ベクトル抽出部２０５が抽出した順番通りに、追加行ベクトル２６１ｂの判定を行う。
すなわち、類似判定部２０７は、図４に示す追加特徴量２６４ｂがＭ組の異成分行ベクトル２６１のそれぞれの異成分特徴量２６４ａの分布から乖離しているか否かを判定する。
【００６０】
異成分特徴量２６４ａの分布を異成分特徴量領域１１２と称する。
【００６１】
ここで、類似判定部２０７における乖離の判定方法について説明する。
【００６２】
（乖離の第１の判定方法）
まず、類似判定部２０７における乖離の第１の判定方法について説明する。
類似判定部２０７は、Ｍ組の異成分特徴量２６４ａの分布（異成分特徴量領域１１２）における重心１０９を算出する（図４）。
そして、類似判定部２０７は、Ｍ組の異成分特徴量２６４ａの中で重心１０９から最も離れた異成分特徴量２６４ａまでの距離を閾値として設定する。
そして、追加特徴量２６４ｂが、この閾値よりも離れた距離にある場合に、類似判定部２０７は、追加特徴量２６４ｂがＭ組の異成分特徴量２６４ａの分布（異成分特徴量領域１１２）から乖離していると判定する。
なお、これらの距離の計算方法として、分散を考慮したマハラノビス距離がある。
【００６３】
すなわち、類似判定部２０７は、Ｍ個の異成分特徴量２６４ａの内、Ｍ個の異成分特徴量２６４ａの重心１０９からのマハラノビス距離が最大の異成分特徴量２６４ａよりも、追加特徴量２６４ｂと重心１０９とのマハラノビス距離が遠い場合に、追加特徴量２６４ｂは、異成分特徴量領域１１２から乖離していると判定する。
【００６４】
（乖離の第２の判定方法）
次に、類似判定部２０７における乖離の第２の判定方法について説明する。
類似判定部２０７は、追加特徴量２６４ｂが、どれ位の確率で異成分特徴量領域１１２に属するかを算出することが可能である。
ここで、マハラノビス距離の２乗はカイ２乗分布に従うことを利用し、データ分布に対し、特定のマハラノビス距離に位置するデータがどれくらいの確率でデータ分布に属するかを計算する方法が一般的に知られている。
類似判定部２０７における乖離の第２の判定方法は、この計算方法を利用したものである。
そして、類似判定部２０７は、この計算方法を利用し、追加特徴量２６４ｂが、どれ位の確率でＭ組の異成分特徴量２６４の分布（異成分特徴量領域１１２）に属するかを、追加特徴量２６４ｂが乖離しているか否かの判定基準とすることが出来る。
例えば、類似判定部２０７は、「追加特徴量２６４ｂが異成分特徴量領域１１２に属する確率が８０％なので、追加特徴量２６４ｂは、異成分特徴量領域１１２から乖離していない」と判定することが出来る。あるいは、類似判定部２０７は、「追加特徴量２６４ｂが異成分特徴量領域１１２に属する確率が０．１％なので、追加特徴量２６４ｂは、異成分特徴量領域１１２から乖離している」と判定することが出来る。
【００６５】
類似判定部２０７は、前述した乖離の第１の判定方法または、乖離の第２の判定方法のいずれかで、追加特徴量２６４ｂが異成分特徴量領域１１２から乖離しているか否かの判定を行うことが出来る。
【００６６】
ここで、異成分特徴量領域１１２のエッジ（最外周）を図４の点線で示す。
学習データ（行列データ）のサイズを小さくする場合に、例えば、異成分特徴量領域１１２のエッジ（最外周）に沿った異成分特徴量２６４ａに対応する異成分行ベクトル２６１ａのみを残し、他は削除する方法も考えられる。
しかし、その場合、点線の内側の異成分特徴量２６４ａに相当するデータの分布は全く類似判定部２０７における乖離の判定に考慮されない。
一方、乖離の第１の判定方法においては、類似判定部２０７は、異成分特徴量領域１１２内の異成分特徴量２６４ａの分布から重心１０９を算出する。
また、乖離の第２の判定方法においては、類似判定部２０７は、追加特徴量２６４ｂが、どれ位の確率で異成分特徴量領域１１２に属するかを算出する場合に、類似判定部２０７は、同様に異成分特徴量領域１１２内の異成分特徴量２６４ａの分布に基づき確率を算出する。
従って、学習データ（行列データ）のサイズを小さくする為に、異成分特徴量領域１１２のエッジ（最外周）に沿った異成分特徴量２６４ａに対応する異成分行ベクトル２６１ａのみを残し、他は削除することは出来ない。
【００６７】
（類似判定部２０７における乖離判定後の動作説明）
類似判定部２０７は、追加特徴量２６４ｂが異成分特徴量領域１１２から乖離していると判定した場合（図６のＳ３０５の「ＮＯ」）、異成分特徴量領域１１２のエッジ（最外周）に相当する異成分特徴量２６４を抽出する。
類似判定部２０７は、異成分特徴量領域１１２のエッジ（最外周）を例えば、多角形の点包含判定など既存のアルゴリズムを用いて抽出し、異成分特徴量領域１１２のエッジ（最外周）に相当する異成分特徴量２６４を抽出する。（多角形の点包含判定として一般に知られる。）
【００６８】
そして、類似判定部２０７は、異成分特徴量領域１１２のエッジ（最外周）に相当する異成分特徴量２６４以外から、異成分特徴量領域１１２に含まれる異成分特徴量２６４をランダムに１つ選択する。そして、類似判定部２０７は、ランダムに選択した異成分特徴量２６４が対応する異成分行ベクトル２６１ａを削除対象と設定し、削除対象行２６５として、対象の異成分行ベクトル２６１ａの行列データ２６２ｂ（もしくは後述の行列データ２６２ｄ）における行番号を出力する。
【００６９】
（類似データ削除部２０９と非類似データ追加部２１０との動作説明）
類似判定部２０７が、追加特徴量２６４ｂが異成分特徴量領域１１２から乖離していると判定した場合（図６のＳ３０５の「ＮＯ」）に、類似データ削除部２０９と非類似データ追加部２１０とは機能する。
図６に示すＳ３０７において、類似データ削除部２０９は、削除対象行２６５で指定された異成分行ベクトル２６１ａを行列データ２６２ｂ（もしくは後述の行列データ２６２ｄ）から削除する。そして、類似データ削除部２０９は、削除対象行２６５で指定された異成分行ベクトル２６１ａを削除した暫定行列データ２６２ｃを出力する。
【００７０】
すなわち、類似データ削除部２０９は、類似判定部２０７が作成した異成分特徴量領域１１２の最外周に位置する異成分特徴量２６４以外からランダムに選択した異成分特徴量２６４に対応する異成分行ベクトル２６１ａを所定のベクトルとして削除する。
【００７１】
そして、図６に示すＳ３０７において、非類似データ追加部２１０は、暫定行列データ２６２ｃに、類似判定部２０７によって乖離していると判定された追加行ベクトル２６１ｂを追加し、行列データ２６２ｄとして出力する。
【００７２】
（類似データ廃棄部２０８の動作説明）
類似判定部２０７が、追加特徴量２６４ｂが異成分特徴量領域１１２から乖離していないと判定した場合（図６のＳ３０５の「ＹＥＳ」）に、図６に示すＳ３０６において、類似データ廃棄部２０８は、乖離していないと判断された追加行ベクトル２６１ｂを廃棄する。
【００７３】
（学習完了判定部２１１の動作説明）
追加カウンタ部２１２は、追加行ベクトル抽出部２０５から追加情報８０５を入力すると、追加カウンタ値２６７「ｉ」をインクリメントする（図６に示すＳ３０８）。
ここで、追加カウンタ値２６７「ｉ」は、例えば、基準カウンタ値２６３「ｊ」が「ｊ＝５」だとすると、図６に示すＳ３０２において、「ｉ＝６」に設定される。そして、追加カウンタ値２６７「ｉ」は、追加行ベクトル抽出部２０５が追加行ベクトル２６１ｂを１回抽出した後は、インクリメント（図６に示すＳ３０８）され、「ｉ＝７」となる。
すなわち、追加カウンタ値２６７「ｉ」は、基準カウンタ値２６３「ｊ」と追加行ベクトル抽出部２０５が追加行ベクトル２６１ｂを抽出した回数とを加えた値よりも一つ多い値となる。
【００７４】
そして、図６に示すＳ３０９において、学習完了判定部２１１は、追加カウンタ値２６７と、学習データ最大数２６８に１を加えた値とが等しいかを比較する。図６において、学習データ最大数２６８は、「Ｚ」と表記している。すなわち、学習完了判定部２１１は、基準カウンタ値２６３「ｊ」と追加行ベクトル抽出部２０５が追加行ベクトル２６１ｂを抽出した回数とを加えた値が、学習データ最大数２６８と等しいかを比較する。
【００７５】
学習完了判定部２１１は、追加カウンタ値２６７と、学習データ最大数２６８に１を加えた値とが等しい場合（図６のＳ３０９の「ＹＥＳ」）、時系列データ２５１から全ての追加行ベクトル２６１ｂの抽出を完了したと判断する。そして、学習完了判定部２１１は、行列データ２６２ｄを行列データ２６２ｅとして出力する。
学習完了判定部２１１は、追加カウンタ値２６７と、学習データ最大数２６８に１を加えた値とが等しくない場合（図６のＳ３０９の「ＮＯ」）、時系列データ２５１から抽出可能な追加行ベクトル２６１ｂが残っていると判断する。そして、学習完了判定部２１１は、行列データ２６２ｄを主成分分析部２０６に対して出力する。
【００７６】
主成分分析部２０６は、行列データ２６２ｄと新たな追加行ベクトル２６１ｂが追加された行列データに対して、前述と同様に主成分分析を実施し、各行の特徴量（主成分）を算出する。
学習完了判定部２１１が完了を判断するまで、追加行ベクトル抽出部２０５、判定部５０２、行列再作成部５０３は、図６のＳ３０３〜Ｓ３０９のループ処理を繰り返す。
【００７７】
本実施の形態の行列データ作成装置１００は、長期の学習対象の時系列データ２５１から学習可能な全てのデータを学習し、学習データのバリエーションを維持しながらも、主成分分析可能なサイズに収まる学習データ（行列データ）を作成する。
【００７８】
例えば、判定部５０２の判定に基づき、行列再作成部５０３が、図６のＳ３０７を実行すると、行列データ２６２ｄが更新される為、主成分分析部２０６が主成分分析を実施する毎に、重心１０９と異成分特徴量領域１１２のエッジ（最外周）は変化する。
そして、類似判定部２０７は、新たな追加行ベクトル２６１ｂに対する処理を、変化後の重心１０９と異成分特徴量領域１１２のエッジ（最外周）とを用いて行うこととなる。
すなわち、判定部５０２は、更新された行列データ２６２ｄに対して、追加行ベクトル２６１ｂに対する処理を行うので、効果的に学習データのバリエーションを増やすことが可能となる。
【００７９】
実施の形態２．
図７は、複数の時系列データ２５１と行列データとの例を示す図である。
図８は、行列データ作成装置１００の構成を示す図である。
【００８０】
実施の形態２の行列データ作成装置１００は、複数の時系列データ２５１から行列データ（学習データ）を作成する。
複数の時系列データ２５１の例として、ある部屋の、温度、湿度、気圧、在席人数の状況を所定の時刻ｔ毎（例えば１０分毎）に、同時に監視する場合などが考えられる。
【００８１】
ここで、図７の時系列データ２５１を説明する。
時系列データ２５１は、複数の時系列データ２５１ａ「ｘ１」、時系列データ２５１ｂ「ｘ２」・・・、時系列データ２５１ｃ「ｘｐ」から構成される。それぞれの時系列データ２５１は、例えば前述の温度、湿度、気圧、在席人数等の時系列データとなる。
【００８２】
図８において、実施の形態１との相違点は、ウィンドウサイズ２５２の入力が無い点である。その他は、実施の形態１と同様である為、説明を省略する。
【００８３】
図８に示す実施の形態２の行列データ作成装置１００のデータ切り出し部２０１は、ウィンドウ１０２を使用せず、ある時刻における複数（Ｎ種類）の監視項目（例えば、前述の温度、湿度、気圧、在席人数）の状態を異成分行ベクトル２６１ａのＮ個の成分データとする。すなわち、データ切り出し部２０１は、時系列データ２５１の種類数を行列データ作成装置１００が作成する行列データの列数Ｎとして入力する。
【００８４】
そして、データ切り出し部２０１は、例えば、１０分毎の異成分行ベクトル２６１ａをＭ組抽出し、行列作成部５０１は、実施の形態１と同様に、Ｍ行の行列データ２６２ｂを作成する。
ここで、「Ｍ」とは、実施の形態１と同様に、行列上限値２５３が示す値である。そして、行列データ２６２ｂの列数Ｎは、時系列データ２５１の種類数である。よって、行列上限値２５３は、評価装置の性能等により評価装置が主成分分析可能な行列データのサイズと、時系列データ２５１の種類数とから予め決定される。
【００８５】
また、図８に示す追加行ベクトル抽出部２０５は、実施の形態１と同様に、行列作成部５０１が、Ｍ行×Ｎ列の行列データ２６２ｂを作成後、データ切り出し部２０１が抽出した異成分行ベクトル２６１ａに連続するように追加行ベクトル２６１ｂを時刻ｔずつずらして順番に抽出する。
【００８６】
例えば図７に示す異成分行ベクトル２６１ａ−１は、Ｘｐ（ｔ）〜ｘ１（ｔ）までの時刻ｔにおけるＮ種類の監視項目を成分データとする。
そして、行列データ２６２ｂは、異成分行ベクトル２６１ａ−１〜異成分行ベクトル２６１ａ−２までのＭ組の異成分行ベクトル２６１ａを各行とする行列である。
更に、図７に示す追加行ベクトル２６１ｂは、ｘｐ（ｔ＋Ｍ）〜ｘ１（ｔ＋Ｍ）を成分データとし、データ切り出し部２０１が最後に抽出した異成分行ベクトル２６１ａ−２（ｘｐ（ｔ＋Ｍ−１）〜ｘ１（ｔ＋Ｍ−１））の時刻に連続する。
【００８７】
すなわち、行列作成部５０１は、Ｎ種類の時系列データ２５１を入力し、入力したＮ種類の時系列データ２５１それぞれの同じ時刻におけるデータをＮ個の成分データとした異成分行ベクトル２６１ａをＭ組抽出する。その際、行列作成部５０１は、時系列データ２５１内において古い時刻から新しい時刻へと、Ｍ組の異成分行ベクトル２６１ａ間で連続するように順番に異成分行ベクトル２６１ａを抽出する。
そして、追加行ベクトル抽出部２０５は、Ｎ種類の時系列データ２５１それぞれの同じ時刻におけるデータをＮ個の成分データとした追加行ベクトル２６１ｂを、行列作成部５０１が最後に抽出した異成分行ベクトル２６１ａの成分データが対応する時刻に連続するようにＮ種類の時系列データ２５１から抽出する。更に、追加行ベクトル抽出部２０５は、抽出した追加行ベクトル２６１ｂに加え、更に、他の追加行ベクトル２６１ｂを、成分データが対応する時刻が追加行ベクトル２６１ｂ間で連続するようにＮ種類の時系列データ２５１から順番に抽出する。
【００８８】
そして、実施の形態２における学習データ（行列データ）の作成方法においても、類似する行ベクトルが繰り返し出現する可能性が有る。
そこで、実施の形態１と同様に図８に示す判定部５０２は、追加行ベクトル２６１ｂが行列データ２６２ｂ（もしくは行列データ２６２ｄ）を構成する各行の異成分行ベクトル２６１ａのいずれかに類似するか否かを判定する。ここで、判定部５０２は、追加行ベクトル抽出部２０５が抽出した順番通りに、追加行ベクトル２６１ｂの判定を行う。
そして、図８に示す行列再作成部５０３は、実施の形態１と同様に評価装置が主成分分析可能な行列データ２６２ｅを作成する。
【００８９】
本実施の形態の行列データ作成装置１００は、長期の学習対象の複数の時系列データ２５１に対しても、学習可能な全てのデータを学習し、学習データのバリエーションを維持しながらも、主成分分析可能なサイズに収まる学習データ（行列データ）を作成する。
【００９０】
実施の形態３．
図９は、時系列データ２５１とランダムに作成される行列データとの例を示す図である。
実施の形態３の行列データ作成装置１００の構成は、実施の形態１（図３）と同様である。
【００９１】
実施の形態１の行列データ作成装置１００の行列追加部２０２は、データ切り出し部２０１が、Ｍ組の異成分行ベクトル２６１ａを抽出した順番通りに、Ｍ組の異成分行ベクトル２６１ａを行列データ２６２ｂの１行目からＭ行目まで並べて、行列データ２６２ｂを作成する。
【００９２】
つまり、実施の形態１のデータ切り出し部２０１は、時系列データ２５１からウィンドウ１０２を１つずつずらしながら異成分行ベクトル２６１ａを抽出する。そして、行列追加部２０２は、一番古い時刻の異成分行ベクトル２６１ａからはじまり、より新しい時刻の異成分行ベクトル２６１ａを順番に行列データ２６２ｂの行に追加し、最新の異成分行ベクトル２６１ａを行列データ２６２ｂの末行に加える。すなわち、行列データ２６２ｂは、行の上から下にむかって、観測データ（例えばアクセス数）の状態が時系列的に古い方から新しい方へと反映されていることになる。
【００９３】
一方、実施の形態３の行列データ作成装置１００の行列追加部２０２は、データ切り出し部２０１が抽出したＭ組の異成分行ベクトル２６１ａをランダムに行列データ２６２ｂの１行目からＭ行目まで並べて、行列データ２６２ｂを作成する。
【００９４】
つまり、実施の形態３では、異成分行ベクトル２６１ａの抽出方法は実施の形態１と同じで、図３に示すデータ切り出し部２０１は、時系列データ２５１からウィンドウ１０２を１つずつずらしながら異成分行ベクトル２６１ａを抽出する。しかし、図３に示す行列追加部２０２は、行列データ２６２ｂのランダムな行への異成分行ベクトル２６１ａを追加する。
【００９５】
すなわち、実施の形態３では、図６に示すＳ３０１の処理内容が、実施の形態１と異なる。
実施の形態３における図６に示すＳ３０１の処理内容を説明する。
まず、データ切り出し部２０１は、実施の形態１と同様に、ウィンドウサイズ２５２に基づき、時系列データ２５１から異成分行ベクトル２６１ａを抽出する。
【００９６】
行列追加部２０２は、最初の動作において、行列上限値２５３と、ウィンドウサイズ２５２とから、データ部分が空の行列（ダミー行列）を作成する。つまり、行列上限値２５３が「Ｍ」、ウィンドウサイズ２５２が「Ｎ」であれば、Ｍ行×Ｎ列のダミー行列を作成する。図６の例では、ウィンドウサイズ２５２は「２４」としている。
【００９７】
次に、行列追加部２０２は、１〜Ｍの乱数を作成し、作成された乱数を行番号として、異成分行ベクトル２６１ａをダミー行列に加える。例えば、Ｍ＝１０００であれば、行列追加部２０２は、１〜１０００の間の乱数を作成する。そして、行列追加部２０２は、データ切り出し部２０１が図９に示すウィンドウ１０２ａで抽出した異成分行ベクトル２６１ａ−１に対し、作成した乱数が図９に示すように、「５０１」とすると、ダミー行列の５０１番目の行に、異成分行ベクトル２６１ａ−１を追加する。
同様に、行列追加部２０２は、データ切り出し部２０１が図９に示すウィンドウ１０２ｂで抽出した異成分行ベクトル２６１ａ−２に対し、作成した乱数が図９に示すように、「８１１」とすると、ダミー行列の８１１番目の行に、異成分行ベクトル２６１ａ−２を追加する。
既にその行が乱数として作成されており、既に異成分行ベクトル２６１ａが追加されている場合は、行列追加部２０２は、乱数を再作成し、未だ作成されていない乱数が出るまで乱数作成を行う。
そして、例えばＭ＝１０００の場合、データ切り出し部２０１は、図９のウィンドウ１０２ｃにより、Ｍ回目（１０００回目）の異成分行ベクトル２６１ａ−３を抽出する。そして、行列追加部２０２は、異成分行ベクトル２６１ａ−３に対し、作成した乱数が図９に示すように、「４９」とすると、ダミー行列の４９番目の行に、異成分行ベクトル２６１ａ−３を追加する。
【００９８】
行列追加部２０２は、ダミー行列を暫定行列データ２６２ａとして行列上限判定部２０３に出力する。
【００９９】
基準カウンタ部２０４は、データ切り出し部２０１から抽出情報８０３を入力すると、実施の形態１と同様に、基準カウンタ値２６３をインクリメントする。ここで、基準カウンタ値２６３の初期値は０である。従って、基準カウンタ値２６３は異成分行ベクトル２６１ａが抽出された回数を示す。
【０１００】
次に、行列上限判定部２０３は、行列上限値２５３と基準カウンタ値２６３とが等しいか比較する。行列上限値２５３と基準カウンタ値２６３とが等しい場合は、行列上限判定部２０３は、暫定行列データ２６２ａが主成分分析可能な上限のサイズに達したと判定し、暫定行列データ２６２ａを行列データ２６２ｂとして出力する。行列上限値２５３と基準カウンタ値２６３とが等しく無い場合は、データ切り出し部２０１による異成分行ベクトル２６１ａの抽出を継続する。
図６に示すＳ３０２以降の処理は、実施の形態１と同様である為、説明を省略する。
【０１０１】
本実施の形態の行列データ作成装置１００は、行列データ２６２ｂの作成にあたり、行列データ２６２ｂの行の上部から下部に向かって時系列に異成分行ベクトル２６１ａを反映せず、ランダムに異成分行ベクトル２６１ａを並べて行列データ２６２ｂを作成することが出来る。そして、実施の形態１と同様に、本実施の形態の行列データ作成装置１００は、長期の学習対象の複数の時系列データ２５１に対しても、学習可能な全てのデータを学習し、学習データのバリエーションを維持しながらも、主成分分析可能なサイズに収まる学習データ（行列データ）を作成する。
【０１０２】
実施の形態４．
図１０は、所定の期間において傾向が異なる時系列データ２５１の例を示す図である。
図１１は、データ切り出し部２０１の処理を示すフローチャートである。
図１２は、データ切り出し部２０１の処理を示すフローチャートである。
実施の形態４の行列データ作成装置１００の構成は、実施の形態１（図３）の構成と同様であっても良いし、実施の形態２（図８）の構成を同様であっても良い。
【０１０３】
実施の形態１〜３の行列データ作成装置１００は、時系列データ２５１から単純に異成分行ベクトル２６１ａを抽出して行列データ２６２ｂを作成した。
しかし、例えば企業などでは、平日と休日とでは、社員の活動が異なることがあり、ネットワークログや業務ログ等にもその傾向が反映される。
例えば、図１０は月〜金と休日（土日及び祝日）のアクセス数の傾向が異なる状況を示している。また、平日と休日（土日及び祝日）で分類した場合、ぞれぞれの分類の範囲では周期的に類似したデータが含まれる可能性がある。
【０１０４】
そこで、実施の形態４の行列データ作成装置１００は、時系列データ２５１を予め、平日と休日（土日及び祝日）に切り分けて、それぞれに対して、学習データ（行列データ）を作成する。
【０１０５】
すなわち、行列追加部２０２（データ切り出し部２０１）は、入力した時系列データ２５１から所定の期間の時系列データ２５１を抽出し、抽出した所定の期間の時系列データ２５１を対象に異成分行ベクトル２６１ａを抽出する。
【０１０６】
図１１を用いて、平日のデータの分析処理について説明する。
Ｓ８０１において、図３もしくは図８のデータ切り出し部２０１は、時系列データ２５１から平日（月〜金曜日）のデータを全て取り出す。そして、データ切り出し部２０１は、取り出したデータを連結する。
行列データ作成装置１００は、データ切り出し部２０１が連結した時系列データ２５１を用いて、Ｓ８０２において、実施の形態１〜３のいずれかと同様の処理を行い、平日（月〜金曜日）に関わる行列データ２６２ｅを作成する。そして、行列データ作成装置１００は、作成した平日（月〜金曜日）に関わる行列データ２６２ｅを評価装置に提供する（Ｓ８０３）。
評価装置は、行列データ作成装置１００から提供された平日（月〜金曜日）に関わる行列データ２６２ｅを用いて、平日（月〜金曜日）に関わるデータ分析を行う。
【０１０７】
また、図１２を用いて、休日（土日及び祝日）のデータの分析処理について説明する。
Ｓ９０１において、図３もしくは図８のデータ切り出し部２０１は、時系列データ２５１から休日（土日及び祝日）のデータを全て取り出す。そして、データ切り出し部２０１は、取り出したデータを連結する。
行列データ作成装置１００は、データ切り出し部２０１が連結した時系列データ２５１を用いて、Ｓ９０２において、実施の形態１〜３のいずれかと同様の処理を行い、休日（土日及び祝日）に関わる行列データ２６２ｅを作成する。そして、行列データ作成装置１００は、作成した休日（土日及び祝日）に関わる行列データ２６２ｅを評価装置に提供する（Ｓ９０３）。
評価装置は、行列データ作成装置１００から提供された休日（土日及び祝日）に関わる行列データ２６２ｅを用いて、休日（土日及び祝日）に関わるデータ分析を行う。
【０１０８】
つまり、平日と休日で学習データ（行列データ）を分けて、平日と休日のデータを各々分析する場合において、平日、休日の各々の学習データ（行列データ）を実施の形態４の行列データ作成装置１００は作成することが出来る。
【０１０９】
なお、平日、休日（土日及び祝日）という分割だけでなく、曜日や時間帯（午前、午後、朝、昼、夕、夜など）で分割してもよく、同様の方法で実施の形態４の行列データ作成装置１００は主成分分析可能なサイズの学習データ（行列データ）を作成することが可能となる。
例えば、月、火、水、木、金、土、日に分割して分析を行なう場合は、データ切り出し部２０１は、時系列データ２５１から各曜日の時系列データ２５１を取り出し、同じ曜日のデータを連結する。そして、行列データ作成装置１００は、連結した曜日のデータ毎に主成分分析可能なサイズの学習データ（行列データ）を作成する。そして、評価装置も曜日ごとに得られた学習データ（行列データ）で曜日ごとにデータの分析を行う。
【０１１０】
また、例えば、朝（７：００〜１１：００）、昼（１１：００〜１５：００）、夕（１５：００〜１８：００）、夜（１８：００〜７：００）に分けて分析を行なう場合は、データ切り出し部２０１は、時系列データ２５１から毎日の朝、昼、夕、夜の時系列データ２５１を取り出し、同じ時間帯のデータを連結する。そして、行列データ作成装置１００は、連結したデータ毎に主成分分析可能なサイズの学習データ（行列データ）を作成する。そして、評価装置も朝、昼、夕、夜ごとに得られた学習データ（行列データ）で朝、昼、夕、夜ごとにデータの分析を行う。
【０１１１】
時系列データ２５１が平日と休日（土日及び祝日）とで傾向が異なることがわかっており、評価装置が各々別に学習データ（行列データ）を使用して分析する場合において、本実施の形態の行列データ作成装置１００は、平日と休日（土日及び祝日）の各々の主成分分析可能なサイズの学習データ（行列データ）を作成することが可能である。
また、平日、土日祝という分割だけでなく、曜日や時間帯（午前、午後、朝、昼、夕、夜など）でデータの傾向が分かっている場合も同様に、本実施の形態の行列データ作成装置１００は、それぞれに対応した主成分分析可能なサイズの学習データ（行列データ）を作成することが可能である。
【０１１２】
改めて、まとめると、実施の形態１〜４において、
Ｍ行×Ｎ列の行列（ＭとＮとは、１以上の整数）を示す行列データ２６２ｅを作成する行列データ作成装置１００であって、
時刻に対応した複数のデータを含む時系列データ２５１と前記行列データ２６２ｅの行数Ｍと列数Ｎとを入力し、入力した前記時系列データ２５１から、Ｍ組の行ベクトルであって、前記時系列データ２５１が含む複数のデータの内、Ｎ個のデータを成分データとし、前記Ｎ個の成分データの内少なくとも１個の前記成分データの対応する時刻が異なるＭ組の行ベクトルであるＭ組の異成分行ベクトル２６１ａを抽出し、抽出した前記Ｍ組の異成分行ベクトル２６１ａを各行とする前記Ｍ行×Ｎ列の前記行列データ２６２ｂを作成する行列作成部５０１と、
前記行列作成部５０１が抽出した前記Ｍ組の異成分行ベクトル２６１ａとは異なる異成分行ベクトル２６１ａを、前記時系列データ２５１から追加行ベクトル２６１ｂとして抽出する追加行ベクトル抽出部２０５と、
前記追加行ベクトル抽出部２０５が抽出した追加行ベクトル２６１ｂが、前記行列データ２６２ｂを構成する各行の前記異成分行ベクトル２６１ａのいずれかに類似するか否かを所定の類似判断基準により判定する判定部５０２と、
前記判定部５０２が前記追加行ベクトル２６１ｂと類似する前記異成分行ベクトル２６１ａが存在すると判定した場合は、前記追加行ベクトル２６１ｂを廃棄し、前記判定部５０２が前記追加行ベクトル２６１ｂと類似する前記異成分行ベクトル２６１ａが存在しないと判定した場合は、前記行列データ２６２ｂ（もしくは行列データ２６２ｄ）の所定の前記異成分行ベクトル２６１ａを削除し、削除後の残りの前記異成分行ベクトル２６１ａと、前記追加行ベクトル２６１ｂとから成る新たなＭ組の前記異成分行ベクトル２６１ａを各行とする前記行列データ２６２ｄを再作成する行列再作成部５０３と
を備えることを特徴とする行列データ作成装置１００について説明した。
【０１１３】
更に、実施の形態１〜４において、
前記判定部５０２は、
前記行列データ２６２ｂ（もしくは行列データ２６２ｄ）に含まれる前記Ｍ組の前記異成分行ベクトル２６１ａのそれぞれから、Ｌ次元（Ｌは１以上の整数）の特徴量である異成分特徴量２６４ａを、主成分分析を用い、前記異成分行ベクトル２６１ａのそれぞれに対応付けて算出し、
更に、前記追加行ベクトル抽出部２０５が抽出した前記追加行ベクトル２６１ｂの前記Ｌ次元の特徴量である追加特徴量２６４ｂを算出する主成分分析部２０６と、
前記主成分分析部２０６が算出したＭ個の前記異成分特徴量２６４ａが分布する領域を示す前記Ｌ次元の異成分特徴量領域１１２を作成し、
前記追加特徴量２６４ｂが、前記異成分特徴量領域１１２から乖離しているか否かを前記所定の類似判断基準とし、前記追加特徴量２６４ｂが前記異成分特徴量領域１１２から乖離していない場合は、前記追加行ベクトル２６１ｂと類似する前記各異成分行ベクトル２６１ａが存在すると判定し、前記追加特徴量２６４ｂが前記異成分特徴量領域１１２から乖離している場合は、前記追加行ベクトル２６１ｂと類似する前記各異成分行ベクトル２６１ａが存在しないと判定する類似判定部２０７と
を備えることを特徴とする行列データ作成装置１００について説明した。
【０１１４】
更に、実施の形態１〜４において、
前記行列再作成部５０３は、
前記類似判定部２０７が作成した前記異成分特徴量領域１１２の最外周に位置する前記異成分特徴量２６４ａ以外からランダムに選択した前記異成分特徴量２６４ａに対応する前記異成分行ベクトル２６１ａを前記所定のベクトルとして削除する類似データ削除部２０９を備えることを特徴とする行列データ作成装置１００について説明した。
【０１１５】
更に、実施の形態１〜４において、
前記類似判定部２０７は、
前記Ｍ個の異成分特徴量２６４ａの内、前記Ｍ個の異成分特徴量２６４ａの重心１０９からのマハラノビス距離が最大の前記異成分特徴量２６４ａよりも、前記追加特徴量２６４ｂと前記重心１０９とのマハラノビス距離が遠い場合に、前記追加特徴量２６４ｂは、前記異成分特徴量領域１１２から乖離していると判定することを特徴とする行列データ作成装置１００について説明した。
【０１１６】
更に、実施の形態１又は３又は４において、
前記行列作成部５０１は、
古い時刻から新しい時刻へと前記時系列データ２５１内において連続するＮ個のデータを前記Ｎ個の成分データとした前記異成分行ベクトル２６１ａを、前記Ｎ個の成分データの内、最も過去の前記時刻が、前記Ｍ組の異成分行ベクトル２６１ａ間で連続するように前記時系列データ２５１から順番にＭ組抽出し、
前記追加行ベクトル抽出部２０５は、
古い時刻から新しい時刻へと前記時系列データ２５１内において連続するＮ個のデータを前記Ｎ個の成分データとした前記追加行ベクトル２６１ｂを、前記Ｎ個の成分データの内、最も過去の前記時刻が、前記行列作成部５０１が最後に抽出した前記異成分行ベクトル２６１ａの前記成分データが対応する最も過去の前記時刻に、連続するように前記時系列データ２５１から抽出し、抽出した前記追加行ベクトル２６１ｂに加え、更に、他の前追加行ベクトル２６１ｂを、前記Ｎ個の成分データの内、最も過去の前記時刻が、前記追加行ベクトル２６１ｂ間で連続するように前記時系列データ２５１から順番に抽出し、
前記判定部５０２は、
前記追加行ベクトル抽出部２０５が抽出した順番通りに、前記追加行ベクトル２６１ｂの判定を行うことを特徴とする行列データ作成装置１００について説明した。
【０１１７】
更に、実施の形態２において、
前記行列作成部５０１は、
Ｎ種類の前記時系列データ２５１を入力し、入力したＮ種類の前記時系列データ２５１それぞれの同じ時刻におけるデータを前記Ｎ個の成分データとした前記異成分行ベクトル２６１ａを、前記時系列データ２５１内において古い時刻から新しい時刻へと、前記Ｍ組の異成分行ベクトル２６１ａ間で連続するように順番にＭ組抽出し、
前記追加行ベクトル抽出部２０５は、
前記Ｎ種類の時系列データ２５１それぞれの同じ時刻におけるデータを前記Ｎ個の成分データとした前記追加行ベクトル２６１ｂを、前記行列作成部５０１が最後に抽出した前記異成分行ベクトル２６１ａの前記成分データが対応する時刻に連続するように、前記Ｎ種類の時系列データ２５１から抽出し、抽出した前記追加行ベクトル２６１ｂに加え、更に、他の前記追加行ベクトル２６１ｂを、前記成分データが対応する時刻が前記追加行ベクトル２６１ｂ間で連続するように前記Ｎ種類の時系列データ２５１から順番に抽出し、
前記判定部５０２は、
前記追加行ベクトル抽出部２０５が抽出した順番通りに、前記追加行ベクトル２６１ｂの判定を行うことを特徴とする行列データ作成装置１００について説明した。
【０１１８】
更に、実施の形態１又は２又は４において、
前記行列作成部５０１は、
前記Ｍ組の前記異成分行ベクトル２６１ａを抽出した順番通りに、前記Ｍ組の前記異成分行ベクトル２６１ａを前記行列データ２６２ｂの１行目からＭ行目まで並べて、前記行列データ２６２ｂを作成することを特徴とする行列データ作成装置１００について説明した。
【０１１９】
更に、実施の形態３において、
前記行列作成部５０１は、
前記Ｍ組の前記異成分行ベクトル２６１ａをランダムに前記行列データ２６２ｂの１行目からＭ行目まで並べて、前記行列データ２６２ｂを作成することを特徴とする行列データ作成装置１００について説明した。
【０１２０】
更に、実施の形態４において、
前記行列作成部５０１は、
入力した前記時系列データ２５１から所定の期間の前記時系列データ２５１を抽出し、抽出した所定の期間の前記時系列データ２５１を対象に前記異成分行ベクトル２６１ａを抽出することを特徴とする行列データ作成装置１００について説明した。
【０１２１】
更に、言い換えてまとめると、実施の形態１〜４において、
行列データ作成装置１００は、学習データ（行列データ）を蓄積する際に以下の様に学習データ（行列データ）を削減する。
行列データ作成装置１００は、主成分分析を実施可能な学習データ（行列データ）の最大数を基準学習データ（行列データ２６２ｂ）として蓄積し、
残りの複数の学習データ（追加行ベクトル２６１ｂ）については、１つずつ基準学習データ（行列データ２６２ｂ）との類似を比較し、
類似していれば、その学習データ（追加行ベクトル２６１ｂ）を廃棄し、
類似していなければ、その学習データ（追加行ベクトル２６１ｂ）を基準学習データ（行列データ２６２ｂ）に追加し、
代わりに、基準学習データ（行列データ２６２ｂ）のエッジ部分以外からランダムに１つ削除する。
行列データ作成装置１００は、前述の追加と削除とにより、類似したデータは学習データ中に余分に蓄積せず、代わりに非類似のデータを学習データとして取り込み、行列データを作成する。追加と削除とにより学習データの重心１０９は常に更新され、次回の学習データの類似と非類似との判断は、更新された重心１０９を基準に判断する。よって、行列データ作成装置１００は、学習データを適量に保ちながらも、多くの学習パターンを自動で学習可能である。
【０１２２】
なお、既に、説明したように、実施の形態１〜４に示す行列データ作成装置１００は、処理装置たるＣＰＵ、記憶装置たるメモリ、磁気ディスク等、入力装置たるキーボード、マウス、通信ボード等、出力装置たる表示装置、通信ボード等を備えるコンピュータである。
そして、上記したように「〜部」として示された機能をこれら処理装置、記憶装置、入力装置、出力装置を用いて実現するものである。
【符号の説明】
【０１２３】
１００行列データ作成装置、１０２ウィンドウ、１０９重心、１１２異成分特徴量領域、２０１データ切り出し部、２０２行列追加部、２０３行列上限判定部、２０４基準カウンタ部、２０５追加行ベクトル抽出部、２０６主成分分析部、２０７類似判定部、２０８類似データ廃棄部、２０９類似データ削除部、２１０非類似データ追加部、２１１学習完了判定部、２１２追加カウンタ部、２１３学習データ最大数計算部、２５１時系列データ、２５２ウィンドウサイズ、２５３行列上限値、２６１ａ異成分行ベクトル、２６１ｂ追加行ベクトル、２６２ａ暫定行列データ、２６２ｂ行列データ、２６２ｃ暫定行列データ、２６２ｄ行列データ、２６２ｅ行列データ、２６３基準カウンタ値、２６４ａ異成分特徴量、２６４ｂ追加特徴量、２６５削除対象行、２６７追加カウンタ値、２６８学習データ最大数、２６９類似判定、５０１行列作成部、５０２判定部、５０３行列再作成部、８００完了情報、８０１抽出追加要求、８０３抽出情報、８０５追加情報、９０１表示装置、９０２キーボード、９０３マウス、９０４ＦＤＤ、９０５コンパクトディスク装置、９０６プリンタ装置、９０７スキャナ装置、９１０システムユニット、９１１ＣＰＵ、９１２バス、９１３ＲＯＭ、９１４ＲＡＭ、９１５通信ボード、９２０磁気ディスク装置、９２１オペレーティングシステム、９２２ウィンドウシステム、９２３プログラム群、９２４ファイル群、９３１電話器、９３２ファクシミリ機、９４０インターネット、９４１ゲートウェイ、９４２ローカルエリアネットワーク。

【特許請求の範囲】
【請求項１】
Ｍ行×Ｎ列の行列（ＭとＮとは、１以上の整数）を示す行列データを作成する行列データ作成装置であって、
時刻に対応した複数のデータを含む時系列データと前記行列データの行数Ｍと列数Ｎとを入力し、入力した前記時系列データから、Ｍ組の行ベクトルであって、前記時系列データが含む複数のデータの内、Ｎ個のデータを成分データとし、前記Ｎ個の成分データの内少なくとも１個の前記成分データの対応する時刻が異なるＭ組の行ベクトルであるＭ組の異成分行ベクトルを抽出し、抽出した前記Ｍ組の異成分行ベクトルを各行とする前記Ｍ行×Ｎ列の前記行列データを作成する行列作成部と、
前記行列作成部が抽出した前記Ｍ組の異成分行ベクトルとは異なる異成分行ベクトルを、前記時系列データから追加行ベクトルとして抽出する追加行ベクトル抽出部と、
前記追加行ベクトル抽出部が抽出した追加行ベクトルが、前記行列データを構成する各行の前記異成分行ベクトルのいずれかに類似するか否かを所定の類似判断基準により判定する判定部と、
前記判定部が前記追加行ベクトルと類似する前記異成分行ベクトルが存在すると判定した場合は、前記追加行ベクトルを廃棄し、前記判定部が前記追加行ベクトルと類似する前記異成分行ベクトルが存在しないと判定した場合は、前記行列データの所定の前記異成分行ベクトルを削除し、削除後の残りの前記異成分行ベクトルと、前記追加行ベクトルとから成る新たなＭ組の前記異成分行ベクトルを各行とする前記行列データを再作成する行列再作成部と
を備えることを特徴とする行列データ作成装置。
【請求項２】
前記判定部は、
前記行列データに含まれる前記Ｍ組の前記異成分行ベクトルのそれぞれから、Ｌ次元（Ｌは１以上の整数）の特徴量である異成分特徴量を、主成分分析を用い、前記異成分行ベクトルのそれぞれに対応付けて算出し、
更に、前記追加行ベクトル抽出部が抽出した前記追加行ベクトルの前記Ｌ次元の特徴量である追加特徴量を算出する主成分分析部と、
前記主成分分析部が算出したＭ個の前記異成分特徴量が分布する領域を示す前記Ｌ次元の異成分特徴量領域を作成し、
前記追加特徴量が、前記異成分特徴量領域から乖離しているか否かを前記所定の類似判断基準とし、前記追加特徴量が前記異成分特徴量領域から乖離していない場合は、前記追加行ベクトルと類似する前記各異成分行ベクトルが存在すると判定し、前記追加特徴量が前記異成分特徴量領域から乖離している場合は、前記追加行ベクトルと類似する前記各異成分行ベクトルが存在しないと判定する類似判定部と
を備えることを特徴とする請求項１記載の行列データ作成装置。
【請求項３】
前記行列再作成部は、
前記類似判定部が作成した前記異成分特徴量領域の最外周に位置する前記異成分特徴量以外からランダムに選択した前記異成分特徴量に対応する前記異成分行ベクトルを前記所定のベクトルとして削除する類似データ削除部を備えることを特徴とする請求項２記載の行列データ作成装置。
【請求項４】
前記類似判定部は、
前記Ｍ個の異成分特徴量の内、前記Ｍ個の異成分特徴量の重心からのマハラノビス距離が最大の前記異成分特徴量よりも、前記追加特徴量と前記重心とのマハラノビス距離が遠い場合に、前記追加特徴量は、前記異成分特徴量領域から乖離していると判定することを特徴とする請求項２又は３記載の行列データ作成装置。
【請求項５】
前記行列作成部は、
古い時刻から新しい時刻へと前記時系列データ内において連続するＮ個のデータを前記Ｎ個の成分データとした前記異成分行ベクトルを、前記Ｎ個の成分データの内、最も過去の前記時刻が、前記Ｍ組の異成分行ベクトル間で連続するように前記時系列データから順番にＭ組抽出し、
前記追加行ベクトル抽出部は、
古い時刻から新しい時刻へと前記時系列データ内において連続するＮ個のデータを前記Ｎ個の成分データとした前記追加行ベクトルを、前記Ｎ個の成分データの内、最も過去の前記時刻が、前記行列作成部が最後に抽出した前記異成分行ベクトルの前記成分データが対応する最も過去の前記時刻に、連続するように前記時系列データから抽出し、抽出した前記追加行ベクトルに加え、更に、他の前記追加行ベクトルを、前記Ｎ個の成分データの内、最も過去の前記時刻が、前記追加行ベクトル間で連続するように前記時系列データから順番に抽出し、
前記判定部は、
前記追加行ベクトル抽出部が抽出した順番通りに、前記追加行ベクトルの判定を行うことを特徴とする請求項１〜４いずれか記載の行列データ作成装置。
【請求項６】
前記行列作成部は、
Ｎ種類の前記時系列データを入力し、入力したＮ種類の前記時系列データそれぞれの同じ時刻におけるデータを前記Ｎ個の成分データとした前記異成分行ベクトルを、前記時系列データ内において古い時刻から新しい時刻へと、前記Ｍ組の異成分行ベクトル間で連続するように順番にＭ組抽出し、
前記追加行ベクトル抽出部は、
前記Ｎ種類の時系列データそれぞれの同じ時刻におけるデータを前記Ｎ個の成分データとした前記追加行ベクトルを、前記行列作成部が最後に抽出した前記異成分行ベクトルの前記成分データが対応する時刻に連続するように、前記Ｎ種類の時系列データから抽出し、抽出した前記追加行ベクトルに加え、更に、他の前記追加行ベクトルを、前記成分データが対応する時刻が前記追加行ベクトル間で連続するように前記Ｎ種類の時系列データから順番に抽出し、
前記判定部は、
前記追加行ベクトル抽出部が抽出した順番通りに、前記追加行ベクトルの判定を行うことを特徴とする請求項１〜４いずれか記載の行列データ作成装置。
【請求項７】
前記行列作成部は、
前記Ｍ組の前記異成分行ベクトルを抽出した順番通りに、前記Ｍ組の前記異成分行ベクトルを前記行列データの１行目からＭ行目まで並べて、前記行列データを作成することを特徴とする請求項５〜６いずれか記載の行列データ作成装置。
【請求項８】
前記行列作成部は、
前記Ｍ組の前記異成分行ベクトルをランダムに前記行列データの１行目からＭ行目まで並べて、前記行列データを作成することを特徴とする請求項５〜６いずれか記載の行列データ作成装置。
【請求項９】
前記行列作成部は、
入力した前記時系列データから所定の期間の前記時系列データを抽出し、抽出した所定の期間の前記時系列データを対象に前記異成分行ベクトルを抽出することを特徴とする請求項１〜８いずれか記載の行列データ作成装置。
【請求項１０】
Ｍ行×Ｎ列の行列（ＭとＮとは、１以上の整数）を示す行列データを作成する行列データ作成方法であって、
行列作成部が、時刻に対応した複数のデータを含む時系列データと前記行列データの行数Ｍと列数Ｎとを入力し、入力した前記時系列データから、Ｍ組の行ベクトルであって、前記時系列データが含む複数のデータの内、Ｎ個のデータを成分データとし、前記Ｎ個の成分データの内少なくとも１個の前記成分データの対応する時刻が異なるＭ組の行ベクトルであるＭ組の異成分行ベクトルを抽出し、抽出した前記Ｍ組の異成分行ベクトルを各行とする前記Ｍ行×Ｎ列の前記行列データを作成する行列作成ステップと、
追加行ベクトル抽出部が、前記行列作成部が抽出した前記Ｍ組の異成分行ベクトルとは異なる異成分行ベクトルを、前記時系列データから追加行ベクトルとして抽出する追加行ベクトル抽出ステップと、
判定部が、前記追加行ベクトル抽出部が抽出した追加行ベクトルが、前記行列データを構成する各行の前記異成分行ベクトルのいずれかに類似するか否かを所定の類似判断基準により判定する判定ステップと、
行列再作成部が、前記判定部が前記追加行ベクトルと類似する前記異成分行ベクトルが存在すると判定した場合は、前記追加行ベクトルを廃棄し、前記判定部が前記追加行ベクトルと類似する前記異成分行ベクトルが存在しないと判定した場合は、前記行列データの所定の前記異成分行ベクトルを削除し、削除後の残りの前記異成分行ベクトルと、前記追加行ベクトルとから成る新たなＭ組の前記異成分行ベクトルを各行とする前記行列データを再作成する行列再作成ステップと
を備えることを特徴とする行列データ作成方法。
【請求項１１】
コンピュータを、請求項１〜９いずれか記載の行列データ作成装置として機能させることを特徴とするプログラム。

【図１】