データ分析のデータ抽出システム、方法、及びプログラム
【課題】多次元データ分析の際、データから分析目的に合う部分データを抽出する等の前処理の作業に要する利用者の試行錯誤や工数を削減できる技術を提供する。
【解決手段】本システムは、入力部201、表示部203、特徴照合部202、及び分析対象DB300を有し、入力部201は、利用者(100)により特徴情報を入力/選択可能とし、特徴照合部202は、分析対象DB300のテーブルの多次元データから、上記特徴情報との照合処理により、当該特徴を持つ部分データを抽出する処理を行い、表示部203は、利用者に対して多次元データ及び抽出された部分データを含む情報を表示する処理を行う。入力部201では、利用者による特徴情報の入力を、値の変化の傾向または値の範囲の指定により可能とする。
【解決手段】本システムは、入力部201、表示部203、特徴照合部202、及び分析対象DB300を有し、入力部201は、利用者(100)により特徴情報を入力/選択可能とし、特徴照合部202は、分析対象DB300のテーブルの多次元データから、上記特徴情報との照合処理により、当該特徴を持つ部分データを抽出する処理を行い、表示部203は、利用者に対して多次元データ及び抽出された部分データを含む情報を表示する処理を行う。入力部201では、利用者による特徴情報の入力を、値の変化の傾向または値の範囲の指定により可能とする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ分析及びその支援に係わる情報処理システム等の技術に関し、特に、多次元データを対象としたデータ分析に係わる前処理などの技術に関する。
【背景技術】
【0002】
データ分析の前処理として、データ全体から分析目的の部分データを抽出する作業が必要である。
【0003】
例えば、非特許文献1では、データから知識発見を行うプロセスで、実用性の高い知識を求めるために収集データに対する選択/サンプリング処理などの前処理が重要である、という記述がある。このことから、望ましい分析結果を得るために、データ分析の前処理に多くの工数が必要であることが見て取れる。
【0004】
データ分析の前処理の工数を削減することに係わる先行技術例としては、特開2001−216372号公報(特許文献1)などがある。
【0005】
特許文献1では、大量のPOS売上データを有効に活用するために、売上の増減に関する条件を指定し、その条件を満たした商品を抽出する。さらに、抽出した商品と売り上げ傾向が一致もしくは近似している商品を検索し、売り上げ傾向を予測する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2001−216372号公報
【非特許文献】
【0007】
【非特許文献1】河野浩之、“データウェアハウスとデータマイニングの概要”、オペレーションズ・リサーチ、Vol.43,No.12(1998)
【発明の概要】
【発明が解決しようとする課題】
【0008】
前記非特許文献1では、データから知識発見を行うプロセスで、実用性の高い知識を求めるために収集データに対する選択/サンプリング処理などの前処理の重要性は述べられているが、その作業の自動化の技術は示されていない。前処理は多くの試行錯誤を必要とするため、手作業で行う場合は多くの工数を必要とすることが予想される。
【0009】
前記特許文献1では、POS売上データの増減を条件に指定し、その条件を満たした商品(対応するデータ)を抽出し、さらに、その抽出した商品と売上の傾向が一致または近似した商品(対応するデータ)を自動的に抽出する方法が示されているが、データのある部分のみが近似しているデータについては抽出することができない。そのため、データからある傾向を示す一部分のデータ(特徴部分データ)を抽出するという作業ができない。
【0010】
以上を鑑み、本発明の主な目的は、多次元データ分析の際、分析対象データから分析目的に合う部分データを抽出する等の前処理の作業に要する利用者の試行錯誤や工数を削減できる技術の提供である。詳しくは、第一の目的は、データ(分析対象データ)から分析目的に合うデータを抽出する作業を効率化することである。第二の目的は、データ(分析対象データ)全体から分析目的に合う部分のデータ(ある傾向を示す一部分のデータ、特徴部分データ)を抽出することである。
【課題を解決するための手段】
【0011】
本発明のうち代表的な形態は、計算機システムを用いた利用者による多次元データの分析に係わる前処理(データ抽出など)を含む処理作業を支援する処理を行う、データ分析のデータ抽出システム等であって、以下に示す構成を有することを特徴とする。
【0012】
本形態のシステムにおいて、例えば、計算機システムは、入力部、表示部、特徴照合部、及び分析対象データベースを有する。分析対象データベースは、多次元データである分析対象データのテーブルを格納する。入力部は、利用者によりデータに関する特徴を含む情報を入力ないし選択可能とする処理を行う。特徴照合部は、分析対象データベースのテーブルの多次元データから、特徴の情報との照合処理により、当該特徴に適合する部分データを抽出する処理を行う。表示部は、利用者に対して多次元データを含む情報、及び特徴照合部により抽出された部分データを含む情報を表示する処理を行う。入力部では、利用者による特徴の情報の入力を、値の変化の傾向または値の範囲の指定により可能とする。
【発明の効果】
【0013】
本発明のうち代表的な形態によれば、多次元データ分析の際、分析対象データから分析目的に合う部分データを抽出する等の前処理の作業に要する利用者の試行錯誤や工数を削減できる。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施の形態のシステム(データ分析のデータ抽出システム)の構成を示す図である。
【図2】本発明の一実施の形態のシステムの全体の処理フロー図である。
【図3】本発明の一実施の形態のシステムの特徴入力部の処理フロー図である。
【図4】(a),(b)は、本発明の実施の形態1における特徴入力のための画面例を示す図である。
【図5】実施の形態1の特徴照合部の処理フロー図である。
【図6】実施の形態1での部分データの抽出例を示す図であり、(a)は、分析基準列を含むテーブル、(b)は、X軸,Y軸のクラスタリング結果、及び抽出される部分データを示す。
【図7】本発明の一実施の形態における表示部の処理フロー図である。
【図8】実施の形態1の出力画面例を示す図であり、(a)は結果表示画面、(b)は詳細結果表示画面を示す。
【図9】実施の形態1での三行以上の行を抽出する場合の出力画面例を示す図であり、(a)は結果表示画面、(b)は詳細結果表示画面を示す。
【図10】本発明の実施の形態2のシステムにおける特徴入力のための画面例を示す図である。
【図11】実施の形態2の特徴照合部の処理フロー図である。
【図12】実施の形態2での部分データの抽出例を示す図であり、(a)は分析基準列を含むテーブル(テーブルA)、(b)は抽出される部分データを示す。
【図13】本発明の実施の形態3のシステムにおける特徴入力部の処理フロー図である。
【図14】実施の形態3の特徴入力のための画面例を示す図である。
【図15】実施の形態3の特徴照合部の処理フロー図である。
【図16】実施の形態3での照合対象とするテーブルの例を示す図である。
【図17】実施の形態3での部分データの抽出例を示す図であり、(A)はテーブルのデータによるグラフ、(B)は部分データを示す。
【図18】実施の形態3の出力画面例を示す図であり、(a)は結果表示画面、(b)は詳細結果表示画面を示す。
【図19】本発明の実施の形態4のシステムにおける部分データ抽出例を示す図であり、(a)は分析基準列を含むテーブル、(b)は部分データを示す。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態(データ分析のデータ抽出システム等)を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一符号を付し、その繰り返しの説明は省略する。
【0016】
<実施の形態1>
図1〜図9等を用いて、本発明の実施の形態1のシステムについて説明する。実施の形態1では、数値データの格納されている列(以下「数値列」)を対象に、散布図のエリア(後述、図4)を特徴として指定して、そのエリア(範囲)の部分データの抽出を行う。
【0017】
[システム構成]
図1に、本システムの基本構成(各実施の形態で共通の構成)を示している。図1では、データ分析のデータ抽出システムを構成する計算機システム200及びその利用者100を有し、計算機システム200上に配置される、入力部201、特徴照合部202、表示部203、及び分析対象DB300などの相互関係を模式的に示している。計算機システム200は、中央演算処理装置などの計算処理能力を有する1つ以上の計算機により構成される。
【0018】
計算機システム200は、入力部201を介して利用者100から要求・入力情報(特徴入力情報など)を受け取り、特徴照合部202に当該要求・入力情報を送信する。特徴照合部202は、当該利用者100の要求・入力情報と分析対象DB300から受け取ったテーブル(分析対象データ)とを照合して適合した部分データ(抽出する特徴部分データ)とその部分データの列名などの情報とを、表示部203へ送信する。そして表示部203に上記部分データと列名などの情報を表示させる。これにより利用者100は画面で多次元データ分析の分析目的に合うデータ(特徴部分データ)の確認などができる。特徴照合部202等の詳しい処理内容については後述される(図5等)。
【0019】
分析対象DB300は、特徴照合部202が参照する、複数の分析対象データ(多次元データ)のテーブルなどが格納されているDB(データベース)である。また、分析対象DB300には、本システムの処理結果として抽出されたデータ(特徴部分データ)などが格納される。
【0020】
計算機システム200の具体例としては、プロセッサ、メモリ、ディスク、バス、通信インタフェース部、入力装置、及び出力装置などの要素を備えるPCやサーバ等の計算機において、プログラム実行により各処理機能を実現できる。例えばプロセッサがディスク等からメモリに制御プログラム(本実施の形態のプログラムを含む)等をロードして実行することにより、各部(201〜203)の処理が実現される。入力部201及び表示部202は、例えば、計算機によるキーボード、マウス、その他の入力装置の制御処理、ディスプレイ等の出力装置の制御処理、及び所定の情報処理(図3、図7等)により構成できる。入力部201及び表示部203で用いる画面(例えば図4、図8等)では、分析対象データ(全体または一部)、特徴入力情報、抽出された特徴部分データなどの情報が表示される。計算機での入力情報、出力情報、処理情報などの各種データ情報については、メモリやディスクに格納され、あるいはネットワーク上のDBサーバなどに格納されてもよい。また例えば各部(201等)が別の計算機で実現されそれらがネットワークで相互に接続される構成なども可能である。利用者100は、本計算機または本計算機に接続される端末などから上記処理機能を利用する。
【0021】
[全体処理]
図2に、計算機システム200が部分データの抽出を行う際のシステム全体の処理フローを示している。S101等は、計算機システム200の処理(利用者100の操作を伴う場合はその操作も含む)による手順(ステップ)を表す。
【0022】
(S101) まず入力部201は、利用者(100)に抽出する部分データの特徴を入力させるためのダイアログ(画面)を、表示部203に表示させる。本ダイアログに対し、利用者は、抽出する部分データの特徴などの情報を入力し指定することができる。
【0023】
(S102) 次に、入力部201は、上記利用者により入力された特徴などの情報を取得し、特徴照合部202に送信することにより、特徴照合部202は当該情報(特徴入力情報)を取得する。
【0024】
(S103) その後、特徴照合部202は、上記特徴入力特徴と、分析対象DB300のテーブル(多次元データである分析対象データ)との照合を行い、当該照合で適合した部分データ、及びその部分データの列名などの情報を抽出して、表示部203へ送信する。
【0025】
(S104) 最後に、表示部203は、上記特徴照合部202から受け取った部分データ(抽出された特徴部分データ)と列名などの情報の組にランク付けを行い、当該ランキング順に画面に表示する。このランク付けは、抽出された部分データが多い場合に利用者が分析目的に合う部分データを探すことを支援する目的で行う。
【0026】
これにより利用者100は分析目的に合う部分データを確認したり選択したりすることができ、その後、当該部分データを用いることで効果的に多次元データ分析を行うことができる。
【0027】
[入力部(1)]
図3に、入力部201による図2の手順S102(特徴入力情報を取得する処理)の処理例を示す。また図4に、そのダイアログ画面例(特徴入力画面)を示す。図4の画面では、1001に示す「分析基準列」(入力/選択欄)、1002に示す「部分データの抽出エリアの選択」(散布図のエリア)などを有し、利用者100の操作により情報を入力/選択可能である。
【0028】
(S201) まず入力部201は、利用者(100)が図4の画面の1001に入力した列の情報を取得する。この列(データ項目)は、利用者が、抽出する部分データを分析する際に主キーとして利用する列であり、以下「分析基準列」と呼ぶ。分析基準列としては、複数の列を選択してもよい。また、分析基準列は、分析対象DB300から部分データの抽出の対象となるテーブルを抽出するためにも利用する。このとき、分析基準列を含むすべてのテーブルが抽出されるが、分析基準列の選択と同時にテーブル名を選択することにより、上記抽出の対象となるテーブルを限定することもできる。
【0029】
(S202) 次に、入力部201は、抽出(照合)する部分データの範囲を取得する。これは、利用者が図4の画面で入力・選択した情報の取得により行う。利用者は、抽出(照合)する部分データの範囲の選択を、図4の画面の1002のような散布図のエリアで選択することにより行うことができる。1002の散布図において全体を例えば4つに分割したエリア(抽出エリア)から、抽出(照合)する部分データの範囲に対応するエリアを利用者により選択することができる。4つのエリアは、図4(b)のように、「X軸の値が大きくY軸の値が大きいエリア」(a1)、「X軸の値が大きくY軸の値が小さいエリア」(a2)、「X軸の値が小さくY軸の値が大きいエリア」(a3)、「X軸の値が小さくY軸の値が小さいエリア」(a4)から成る。例えば図4(b)では右上のエリア(a1)が選択された場合である。
【0030】
上記散布図のエリア(1002)の分割の閾値(例えばt1,t2)としては、平均値や中央値などが考えられる。ここで、X軸,Y軸は、分析基準列の要素を散布図上にプロットするときに座標を決める数値データのみを含む列である。X軸,Y軸については、図5のS211で抽出したテーブルの数値データのみを含む列から、特徴照合部202が図5のS213で選択することにより決定できる。
【0031】
(S203) 最後に、入力部201は、上記利用者の入力・選択に基づき取得した抽出エリア(範囲)及び分析基準列などの情報を、特徴照合部202に送信する。
【0032】
[特徴照合部(1)]
図5に、特徴照合部202による図2の手順S103(前記S203で受け取ったエリア(範囲)に適合する部分データを抽出する処理)の処理例を示す。
【0033】
(S211) まず特徴照合部202は、分析基準列を含むテーブルを分析対象DB300から抽出する。利用者(100)により抽出対象テーブルが指定されている場合には、そのテーブルのみを抽出する。
【0034】
(S212) 次に、特徴照合部202は、照合を行っていない数値列の組み合わせがあるかを判定する。当該組み合わせが無い場合(N)は処理を終了する。
【0035】
(S213) 特徴照合部202は、上記照合を行っていない数値列の組み合わせがある場合(Y)は、その組み合わせの一つを前述のX軸,Y軸として選択する。
【0036】
(S214) その後、特徴照合部202は、上記選択したX軸,Y軸の値でクラスタリングを行う。クラスタリングの手法には、最短距離法、K-means法などがあるが、ここではクラスタリングを行うことができれば手法は問わない。
【0037】
(S215) 上記クラスタリング後、特徴照合部202は、前記選択されたエリアに存在(該当)するクラスタ(対応する要素)を、抽出する部分データとして選択する。ここで、上記エリアに存在する部分データの定義としては、エリアにすべてのクラスタの要素が含まれること、エリアに一つでもクラスタの要素が含まれること、エリアに半分以上のクラスタの要素が含まれること、等が考えられる。ここでは定義は限定せずにいずれも適用可能である。
【0038】
(S216) 特徴照合部202は、上記X軸,Y軸の列名と上記選択したクラスタ内に含まれる部分データとを含む情報を表示部203に渡す。その後、照合を行っていない数値列の選択処理(S212)に戻る。
【0039】
前記部分データの特徴(特徴入力情報)と分析対象DB300のテーブル(多次元データ)との照合は、テーブルに属する数値列の組に対して行い、これにより部分データを抽出する。これにより、例えば、分析対象データが企業データの場合で、列間で互いに相関が高い「従業員数」「資本金」「今年度売上」「今年度利益」「支店数」などそれぞれに共通の傾向を持つ企業を抽出できるなど、より少ない列数でより稠密なクラスタを得ることができる。
【0040】
[データ例(1)]
図6に、入力(分析基準列を含むテーブル)及び抽出される部分データの例を示す。図6の例は、図4(b)の分析基準列の入力/選択欄(1101)でA列とし、「部分データの抽出エリアの選択」(1102)で「X軸が大きくY軸が大きいエリア」(a1)を選択した場合である。分析基準列を含むテーブルとして図6(a)の1103のテーブルが分析対象DB300から抽出される。ここで、X軸にB列,Y軸にC列が選択された場合、図6(b)の1104のようにクラスタリングされ、1105のような部分データが抽出される(右上のエリア(a1)に対応したクラスタ(1106)の要素が抽出されている)。
【0041】
[表示部(1)]
図7に、表示部203による図2の手順S104(部分データをランキング順に表示する処理)の処理例を示す。なお図7の内容は各実施の形態で共通の処理概要を示しており、実施の形態ごとに異なる処理詳細について説明する。以下は実施の形態1の場合である。
【0042】
(S221) 表示部203は、特徴照合部202から渡された部分データを、抽出されたデータ数の多い方から順に高いランクを付ける。このランク付けは、基準点を決めてその基準点にクラスタの重心が近い方から順に高いランクを付ける方式などを適用してもよい。
【0043】
(S222) 表示部203は、上記ランク付け後、順位、分析基準列、X軸の列名、Y軸の列名などの組を1つのレコードとして、ランクの高い順に画面に表示する。抽出した部分データを確認する場合は、利用者100により上記表示情報の中から確認したいランキングのレコード(行)を選択すると、選択したレコードに対応する部分データを見ることができる。
【0044】
図8に、上記ランキングによる表示画面例を示す。図8(a)の結果表示画面の1201では、順位、分析基準列、X軸の列名、Y軸の列名などを組としたレコードを順位(ランク)の高い順に表示している。図8(b)の詳細結果表示画面の1202では、図8(a)の例えば「順位1」のレコードを利用者100により選択(クリック等)した時に表示される、対応する部分データの例を示している。
【0045】
また、図9に、三以上の列の抽出を行う例を同様に示す。図9(a)の画面の1301の「順位1」の部分データ及び「順位2」の部分データのように、共通する列(例えばB列)が存在し、共通する列の抽出エリアが共通している場合、図9(b)の1302に示すように、同時に三以上の部分データ(例えばB,C,D列)を抽出してくるようにしてもよい。
【0046】
<実施の形態2>
図10〜図12等を用いて、本発明の実施の形態2のシステムについて説明する。前述の実施の形態1では、抽出する部分データの特徴を散布図のエリアで指定した。実施の形態2では、抽出する部分データの特徴を、列の相関係数で指定して、相関の高い部分データの抽出を行う。
【0047】
[入力部(2)]
図10に、実施の形態2での入力部201による図3の手順S202の際に表示するダイアログ画面例を示す。この特徴入力画面では、まず、1401にて分析基準列を利用者100により入力/選択する。次に、1402のラジオボタンで、正の相関のある部分データを抽出するか、負の相関のある部分データを抽出するかを利用者により選択する。その後、相関係数の範囲を指定する。この相関係数の値は、数値(閾値)で指定し、正の相関であればその数値以上、負の相関であればその数値以下となる部分データを抽出するようにする。1403にて相関係数の閾値を利用者により指定(入力)することができる。
【0048】
[特徴照合部(2)]
図11に、実施の形態2で特徴照合部202による図2の手順S103(特徴に適合する部分データを抽出する処理)の処理例を示す。
【0049】
(S301) まず特徴照合部202は、分析基準列を含むテーブルを分析対象DB300から抽出する。
【0050】
(S302) 次に、特徴照合部202は、照合を行っていない数値列の組み合わせがあるかを判定する。数値列の抽出は、S301で抽出されたテーブルから行う。当該組み合わせが無い場合(N)は処理を終了する。
【0051】
(S303) 上記照合していない数値列の組み合わせがある場合(Y)、特徴照合部202は、その数値列の組み合わせをA列,B列として選択する。
【0052】
(S304) 特徴照合部202は、上記のA列,B列の値をそれぞれ配列a,配列bに代入する。
【0053】
(S305) その後、特徴照合部202は、上記の配列aと配列bの相関係数Rを計算する。
【0054】
(S306) 特徴照合部202は、上記相関係数Rを計算した後、相関係数Rの絶対値と、相関係数の範囲の閾値(1403)とで比較を行う(|R|<閾値)。
【0055】
(S307) 特徴照合部202は、上記比較で閾値よりも小さい場合(Y)は、相関係数Rの絶対値を最も下げる配列aのi番目の要素と配列bのj番目の要素とを探し、その値(最も相関の無い値の組)を、配列a,配列bから削除する。一般的には、iとjは等しいと考えられるが、対象とするデータや目的によってはiとjは異なる場合があり得る。削除後、相関係数Rの計算処理(S305)に戻る。
【0056】
(S308) 特徴照合部202は、上記比較で閾値以上である場合(N)は、配列a,配列bを、抽出する部分データとして表示部203へ渡し、S302へ戻る。
【0057】
[データ例(2)]
図12に、実施の形態2で、分析基準列を含むテーブル(テーブルA)と抽出される部分データの列の例を示す。図12では、分析基準列をA列とし、相関を正の相関とし、相関係数Rの閾値を0.75として、分析基準列が含まれるテーブルとして1501が選択されたとする。ここで照合を行う数値列の組み合わせをB列とC列としたとき、抽出される部分データの例が1502である。
【0058】
前記図7を用いて、実施の形態2での表示部203による図2の手順S104の処理例は以下である。
【0059】
(S221) 表示部203は、特徴照合部202から渡された部分データにおいてデータ数が多い方や相関係数(R)の絶対値が大きい方を高いランクとする。このランク付けは、データ数を基準に行うことにしてもよいし、相関係数を基準に行うことにしてもよく、いずれも適用可能である。
【0060】
(S222) 上記ランク付け後、表示部203は、順位、分析基準列、A列の列名、B列の列名などの組を、ランク(順位)の高い順に表示する。部分データの詳細を確認したい場合は、利用者100によりレコードを選択すると、選択したレコードの抽出された部分データすべてを見ることができる。この際の出力画面例は前記図8と同様である。即ち、順位、分析基準列、相関係数を計算した数値列などを組としたレコードを、ランク(順位)順に表示する。ランキングのレコードを選択すれば当該レコードに対応する抽出した部分データの確認ができる。
【0061】
<実施の形態3>
図13〜図18等を用いて、本発明の実施の形態3のシステムについて説明する。実施の形態3では、特に時系列のデータを持つテーブル(分析対象データ)に対して、時系列の変化傾向を特徴として指定し、部分データを抽出する。
【0062】
[入力部(3)]
図13に、実施の形態3での入力部201による図2の手順S102の処理例を示す。また図14に、その際の画面例(特徴入力画面)を示す。
【0063】
(S401) まず入力部201は、図14の画面の1601で利用者100により入力/選択された時間列(時系列)の情報を取得する。
【0064】
(S402) 次に、入力部201は、1602から、分析基準列の情報を取得する。1602では、分析基準列を利用者により選択可能とするための分析基準列の一覧の情報を表示して利用者に選択させる。
【0065】
(S403) その後、入力部201は、1603から、変化の傾向を照合する対象となる期間(区間)の情報を取得する。この期間(区間)は、1603のように、ある日付からある日付までといった形で利用者により入力・選択可能とする。
【0066】
(S404) 次に、入力部201は、抽出する部分データの特徴の情報を取得する。これは、画面の1604で示すグラフの変化の傾向の一覧の中から利用者に選択させて、当該選択された変化の傾向の入力を取得することにより行う。変化の傾向は、1604のように、単調増加(1605)、単調減少(1606)、一定(1607)、山型(1608)、谷型(1609)などがある。その他にも、一定の後に単調減少する、等の変化も考えられ、選択可能としてもよい。
【0067】
(S405) 最後に、入力部201は、上記入力された特徴などの情報を、特徴照合部202に渡す。
【0068】
[特徴照合部(3)]
図15に、実施の形態3での特徴照合部202による図2の手順S103の処理例を示す。
【0069】
(S411) まず、特徴照合部202は、前記指定された分析基準列(1602)及び時間列(1601)を含むテーブルを分析対象DB300から抽出する。
【0070】
図16に、上記分析対象DB300から抽出されるテーブル(照合対象データ)の例を示す。
【0071】
(S412) 次に、特徴照合部202は、上記抽出されたテーブルから、前記指定された期間(1603)内のデータだけを抽出する。
【0072】
(S413) その後、特徴照合部202は、照合していない数値列があるかを判定する。照合していない数値列が無い場合(N)は処理を終了する。
【0073】
(S414) 上記照合していない数値列がある場合(Y)、特徴照合部202は、上記時間列をX軸,上記照合していない数値列をY軸として選択し、平滑化を行うことにより滑らかな曲線とする。平滑化の方法はスプライン補間などの方法が考えられるがここではその方法は問わない。
【0074】
(S415) 次に、特徴照合部202は、上記平滑化された曲線を微分して、極値や変曲点、値の増減などを求め、関数の増減表を作成し、定性的な変化の傾向(特徴)を求める。
【0075】
(S416) 特徴照合部202は、上記求めた変化の傾向(特徴)と、前記S404で指定された変化の傾向(1604)との照合を行う。これにより変化傾向に適合している期間(部分)を調べる。
【0076】
(S417) 特徴照合部202は、上記変化傾向に適合している期間(部分)と、前記Y軸に選択されている列の部分データとを表示部203に渡す。その後、前記判定(S413)に戻る。
【0077】
[データ例(3)]
図17に、実施の形態3での時系列データからの部分データの抽出例を示す。図17では、分析基準列(A列)を含むテーブルとして図16のテーブルとし、入力された時間列を日付列、照合する数値列をB列として、単調増加の部分データを抽出した場合の例を示している。図17(A)、1701は、X軸を日付列、Y軸をB列としたときのグラフを平滑化した例である。aで示す範囲(指定された期間)が、単調増加の傾向を示している期間である。このaの期間によって抽出される部分データが、b1,b2,b3で示す各抽出部分データであり、それぞれのテーブルを図17(B)の1702,1703,1704で示す。
【0078】
[表示部(3)]
前記図7を用いて、実施の形態3での表示部203による図2の手順S104の処理例は以下である。
【0079】
(S221) 表示部203は、特徴照合部202から渡された部分データを、抽出された期間の長い順に高いランクを付ける。
【0080】
(S222) 上記ランク付け後、表示部203は、順位、期間、分析基準列、X軸の列名、Y軸の列名などの組を一つのレコードとして、ランク(順位)の高い順に画面に表示する。抽出した部分データを確認する場合は、利用者100により確認したいランキングのレコードを選択すると、当該レコードに対応する抽出部分データを見ることができる。
【0081】
図18に、上記ランキングの表示画面例を示す。指定期間を2011/1/11〜2011/1/31とした場合である。図18(a)、1801は、順位、期間、分析基準列、X軸の列名、Y軸の列名を組としたレコードをランク(順位)の高い順に表示している。図18(b)、1802は、1801の「順位1」のレコードを選択した時に表示される、対応する部分データの例である。
【0082】
<実施の形態4>
図19を用いて、本発明の実施の形態4のシステムについて説明する。実施の形態4では、数値列以外の列を持つテーブル(分析対象データ)に対して、数値列以外の列を同時に部分データとして抽出する。
【0083】
実施の形態4での特徴照合部202は、前述の図5のS211(実施の形態1)、または図11のS301(実施の形態2)、または図15のS411(実施の形態3)で、分析対象DB300から取得されたテーブルにおいて、分析基準列、数値列、及び時間列以外の列(以下「照合対象外列」)が含まれている場合、抽出処理において抽出された部分データと同じレコードにある照合対象外列の値を併せて抽出してもよい。
【0084】
図19に、実施の形態4の部分データ抽出例を示す。本例では、分析基準列をA列として当該分析基準列を含むテーブル(分析対象データ)として、図19(a)の1901が選択されたとする。1901のテーブルは、数値列以外の列(E列)を持っている。ここで、照合する数値列としてB列とC列が選択されて部分データの抽出を行う場合、実施の形態4では、図19(b)の1902に示すように、B列,C列と同時に、照合対象外列であるE列のデータを抽出することができる。
【0085】
<効果等>
以上説明したように、各実施の形態によれば、多次元データ分析の際、分析対象データ(テーブル)から分析目的に合う部分データを抽出する等の前処理の作業に要する利用者100の試行錯誤や工数を削減でき、効果的なデータ分析の支援を実現できる。特に、データ(多次元データ)から分析目的に合うデータを抽出する作業を自動化により効率化できる。また、データ全体から分析目的に合う部分のデータ(ある傾向を示す一部分のデータ、特徴部分データ)を抽出することができる。
【0086】
従来、利用者によるデータ分析の際、データ全体を対象として分析を行うと、分析したい内容には関係の無いデータが含まれている可能性が高く、望ましい結果が得られない可能性が高い。望ましい結果を得るために、分析内容と関係の無い/小さいデータを取り除くことができるとよい。しかしこの作業は、従来、利用者が分析を行いながらデータの特徴部分を見つけて抽出するといった試行錯誤や工数を要していた。特にデータ量が増えた場合は作業が負担となっていた。一方、本実施の形態によれば、利用者によりデータの特徴を指定(選択等)して、対応する特徴部分データを抽出することができる。例えばデータの値の変化の傾向や基準を指定し、当該傾向や基準に類似する部分データを抽出することができる。
【0087】
特に実施の形態1では、数値列を対象に、利用者により、散布図のエリア(図4)を特徴として指定して、そのエリア(範囲)に該当する部分データを抽出することができる。
【0088】
特に実施の形態2では、利用者により、部分データの特徴を列の相関係数で指定して、相関の高い部分データを抽出することができる。
【0089】
特に実施の形態3では、時系列のデータを持つテーブルに対して、利用者により、時系列の変化傾向を特徴として指定して、対応する部分データを抽出することができる。
【0090】
特に実施の形態4では、数値列以外の列(照合対象外列)をも併せて部分データとして抽出することができる。
【0091】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
【産業上の利用可能性】
【0092】
本発明は、多次元データ分析・支援システム/ソフトウェア、等に利用可能である。
【符号の説明】
【0093】
100…利用者、200…計算機システム、201…入力部、202…特徴照合部、203…表示部、300…分析対象DB。
【技術分野】
【0001】
本発明は、データ分析及びその支援に係わる情報処理システム等の技術に関し、特に、多次元データを対象としたデータ分析に係わる前処理などの技術に関する。
【背景技術】
【0002】
データ分析の前処理として、データ全体から分析目的の部分データを抽出する作業が必要である。
【0003】
例えば、非特許文献1では、データから知識発見を行うプロセスで、実用性の高い知識を求めるために収集データに対する選択/サンプリング処理などの前処理が重要である、という記述がある。このことから、望ましい分析結果を得るために、データ分析の前処理に多くの工数が必要であることが見て取れる。
【0004】
データ分析の前処理の工数を削減することに係わる先行技術例としては、特開2001−216372号公報(特許文献1)などがある。
【0005】
特許文献1では、大量のPOS売上データを有効に活用するために、売上の増減に関する条件を指定し、その条件を満たした商品を抽出する。さらに、抽出した商品と売り上げ傾向が一致もしくは近似している商品を検索し、売り上げ傾向を予測する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2001−216372号公報
【非特許文献】
【0007】
【非特許文献1】河野浩之、“データウェアハウスとデータマイニングの概要”、オペレーションズ・リサーチ、Vol.43,No.12(1998)
【発明の概要】
【発明が解決しようとする課題】
【0008】
前記非特許文献1では、データから知識発見を行うプロセスで、実用性の高い知識を求めるために収集データに対する選択/サンプリング処理などの前処理の重要性は述べられているが、その作業の自動化の技術は示されていない。前処理は多くの試行錯誤を必要とするため、手作業で行う場合は多くの工数を必要とすることが予想される。
【0009】
前記特許文献1では、POS売上データの増減を条件に指定し、その条件を満たした商品(対応するデータ)を抽出し、さらに、その抽出した商品と売上の傾向が一致または近似した商品(対応するデータ)を自動的に抽出する方法が示されているが、データのある部分のみが近似しているデータについては抽出することができない。そのため、データからある傾向を示す一部分のデータ(特徴部分データ)を抽出するという作業ができない。
【0010】
以上を鑑み、本発明の主な目的は、多次元データ分析の際、分析対象データから分析目的に合う部分データを抽出する等の前処理の作業に要する利用者の試行錯誤や工数を削減できる技術の提供である。詳しくは、第一の目的は、データ(分析対象データ)から分析目的に合うデータを抽出する作業を効率化することである。第二の目的は、データ(分析対象データ)全体から分析目的に合う部分のデータ(ある傾向を示す一部分のデータ、特徴部分データ)を抽出することである。
【課題を解決するための手段】
【0011】
本発明のうち代表的な形態は、計算機システムを用いた利用者による多次元データの分析に係わる前処理(データ抽出など)を含む処理作業を支援する処理を行う、データ分析のデータ抽出システム等であって、以下に示す構成を有することを特徴とする。
【0012】
本形態のシステムにおいて、例えば、計算機システムは、入力部、表示部、特徴照合部、及び分析対象データベースを有する。分析対象データベースは、多次元データである分析対象データのテーブルを格納する。入力部は、利用者によりデータに関する特徴を含む情報を入力ないし選択可能とする処理を行う。特徴照合部は、分析対象データベースのテーブルの多次元データから、特徴の情報との照合処理により、当該特徴に適合する部分データを抽出する処理を行う。表示部は、利用者に対して多次元データを含む情報、及び特徴照合部により抽出された部分データを含む情報を表示する処理を行う。入力部では、利用者による特徴の情報の入力を、値の変化の傾向または値の範囲の指定により可能とする。
【発明の効果】
【0013】
本発明のうち代表的な形態によれば、多次元データ分析の際、分析対象データから分析目的に合う部分データを抽出する等の前処理の作業に要する利用者の試行錯誤や工数を削減できる。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施の形態のシステム(データ分析のデータ抽出システム)の構成を示す図である。
【図2】本発明の一実施の形態のシステムの全体の処理フロー図である。
【図3】本発明の一実施の形態のシステムの特徴入力部の処理フロー図である。
【図4】(a),(b)は、本発明の実施の形態1における特徴入力のための画面例を示す図である。
【図5】実施の形態1の特徴照合部の処理フロー図である。
【図6】実施の形態1での部分データの抽出例を示す図であり、(a)は、分析基準列を含むテーブル、(b)は、X軸,Y軸のクラスタリング結果、及び抽出される部分データを示す。
【図7】本発明の一実施の形態における表示部の処理フロー図である。
【図8】実施の形態1の出力画面例を示す図であり、(a)は結果表示画面、(b)は詳細結果表示画面を示す。
【図9】実施の形態1での三行以上の行を抽出する場合の出力画面例を示す図であり、(a)は結果表示画面、(b)は詳細結果表示画面を示す。
【図10】本発明の実施の形態2のシステムにおける特徴入力のための画面例を示す図である。
【図11】実施の形態2の特徴照合部の処理フロー図である。
【図12】実施の形態2での部分データの抽出例を示す図であり、(a)は分析基準列を含むテーブル(テーブルA)、(b)は抽出される部分データを示す。
【図13】本発明の実施の形態3のシステムにおける特徴入力部の処理フロー図である。
【図14】実施の形態3の特徴入力のための画面例を示す図である。
【図15】実施の形態3の特徴照合部の処理フロー図である。
【図16】実施の形態3での照合対象とするテーブルの例を示す図である。
【図17】実施の形態3での部分データの抽出例を示す図であり、(A)はテーブルのデータによるグラフ、(B)は部分データを示す。
【図18】実施の形態3の出力画面例を示す図であり、(a)は結果表示画面、(b)は詳細結果表示画面を示す。
【図19】本発明の実施の形態4のシステムにおける部分データ抽出例を示す図であり、(a)は分析基準列を含むテーブル、(b)は部分データを示す。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態(データ分析のデータ抽出システム等)を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一符号を付し、その繰り返しの説明は省略する。
【0016】
<実施の形態1>
図1〜図9等を用いて、本発明の実施の形態1のシステムについて説明する。実施の形態1では、数値データの格納されている列(以下「数値列」)を対象に、散布図のエリア(後述、図4)を特徴として指定して、そのエリア(範囲)の部分データの抽出を行う。
【0017】
[システム構成]
図1に、本システムの基本構成(各実施の形態で共通の構成)を示している。図1では、データ分析のデータ抽出システムを構成する計算機システム200及びその利用者100を有し、計算機システム200上に配置される、入力部201、特徴照合部202、表示部203、及び分析対象DB300などの相互関係を模式的に示している。計算機システム200は、中央演算処理装置などの計算処理能力を有する1つ以上の計算機により構成される。
【0018】
計算機システム200は、入力部201を介して利用者100から要求・入力情報(特徴入力情報など)を受け取り、特徴照合部202に当該要求・入力情報を送信する。特徴照合部202は、当該利用者100の要求・入力情報と分析対象DB300から受け取ったテーブル(分析対象データ)とを照合して適合した部分データ(抽出する特徴部分データ)とその部分データの列名などの情報とを、表示部203へ送信する。そして表示部203に上記部分データと列名などの情報を表示させる。これにより利用者100は画面で多次元データ分析の分析目的に合うデータ(特徴部分データ)の確認などができる。特徴照合部202等の詳しい処理内容については後述される(図5等)。
【0019】
分析対象DB300は、特徴照合部202が参照する、複数の分析対象データ(多次元データ)のテーブルなどが格納されているDB(データベース)である。また、分析対象DB300には、本システムの処理結果として抽出されたデータ(特徴部分データ)などが格納される。
【0020】
計算機システム200の具体例としては、プロセッサ、メモリ、ディスク、バス、通信インタフェース部、入力装置、及び出力装置などの要素を備えるPCやサーバ等の計算機において、プログラム実行により各処理機能を実現できる。例えばプロセッサがディスク等からメモリに制御プログラム(本実施の形態のプログラムを含む)等をロードして実行することにより、各部(201〜203)の処理が実現される。入力部201及び表示部202は、例えば、計算機によるキーボード、マウス、その他の入力装置の制御処理、ディスプレイ等の出力装置の制御処理、及び所定の情報処理(図3、図7等)により構成できる。入力部201及び表示部203で用いる画面(例えば図4、図8等)では、分析対象データ(全体または一部)、特徴入力情報、抽出された特徴部分データなどの情報が表示される。計算機での入力情報、出力情報、処理情報などの各種データ情報については、メモリやディスクに格納され、あるいはネットワーク上のDBサーバなどに格納されてもよい。また例えば各部(201等)が別の計算機で実現されそれらがネットワークで相互に接続される構成なども可能である。利用者100は、本計算機または本計算機に接続される端末などから上記処理機能を利用する。
【0021】
[全体処理]
図2に、計算機システム200が部分データの抽出を行う際のシステム全体の処理フローを示している。S101等は、計算機システム200の処理(利用者100の操作を伴う場合はその操作も含む)による手順(ステップ)を表す。
【0022】
(S101) まず入力部201は、利用者(100)に抽出する部分データの特徴を入力させるためのダイアログ(画面)を、表示部203に表示させる。本ダイアログに対し、利用者は、抽出する部分データの特徴などの情報を入力し指定することができる。
【0023】
(S102) 次に、入力部201は、上記利用者により入力された特徴などの情報を取得し、特徴照合部202に送信することにより、特徴照合部202は当該情報(特徴入力情報)を取得する。
【0024】
(S103) その後、特徴照合部202は、上記特徴入力特徴と、分析対象DB300のテーブル(多次元データである分析対象データ)との照合を行い、当該照合で適合した部分データ、及びその部分データの列名などの情報を抽出して、表示部203へ送信する。
【0025】
(S104) 最後に、表示部203は、上記特徴照合部202から受け取った部分データ(抽出された特徴部分データ)と列名などの情報の組にランク付けを行い、当該ランキング順に画面に表示する。このランク付けは、抽出された部分データが多い場合に利用者が分析目的に合う部分データを探すことを支援する目的で行う。
【0026】
これにより利用者100は分析目的に合う部分データを確認したり選択したりすることができ、その後、当該部分データを用いることで効果的に多次元データ分析を行うことができる。
【0027】
[入力部(1)]
図3に、入力部201による図2の手順S102(特徴入力情報を取得する処理)の処理例を示す。また図4に、そのダイアログ画面例(特徴入力画面)を示す。図4の画面では、1001に示す「分析基準列」(入力/選択欄)、1002に示す「部分データの抽出エリアの選択」(散布図のエリア)などを有し、利用者100の操作により情報を入力/選択可能である。
【0028】
(S201) まず入力部201は、利用者(100)が図4の画面の1001に入力した列の情報を取得する。この列(データ項目)は、利用者が、抽出する部分データを分析する際に主キーとして利用する列であり、以下「分析基準列」と呼ぶ。分析基準列としては、複数の列を選択してもよい。また、分析基準列は、分析対象DB300から部分データの抽出の対象となるテーブルを抽出するためにも利用する。このとき、分析基準列を含むすべてのテーブルが抽出されるが、分析基準列の選択と同時にテーブル名を選択することにより、上記抽出の対象となるテーブルを限定することもできる。
【0029】
(S202) 次に、入力部201は、抽出(照合)する部分データの範囲を取得する。これは、利用者が図4の画面で入力・選択した情報の取得により行う。利用者は、抽出(照合)する部分データの範囲の選択を、図4の画面の1002のような散布図のエリアで選択することにより行うことができる。1002の散布図において全体を例えば4つに分割したエリア(抽出エリア)から、抽出(照合)する部分データの範囲に対応するエリアを利用者により選択することができる。4つのエリアは、図4(b)のように、「X軸の値が大きくY軸の値が大きいエリア」(a1)、「X軸の値が大きくY軸の値が小さいエリア」(a2)、「X軸の値が小さくY軸の値が大きいエリア」(a3)、「X軸の値が小さくY軸の値が小さいエリア」(a4)から成る。例えば図4(b)では右上のエリア(a1)が選択された場合である。
【0030】
上記散布図のエリア(1002)の分割の閾値(例えばt1,t2)としては、平均値や中央値などが考えられる。ここで、X軸,Y軸は、分析基準列の要素を散布図上にプロットするときに座標を決める数値データのみを含む列である。X軸,Y軸については、図5のS211で抽出したテーブルの数値データのみを含む列から、特徴照合部202が図5のS213で選択することにより決定できる。
【0031】
(S203) 最後に、入力部201は、上記利用者の入力・選択に基づき取得した抽出エリア(範囲)及び分析基準列などの情報を、特徴照合部202に送信する。
【0032】
[特徴照合部(1)]
図5に、特徴照合部202による図2の手順S103(前記S203で受け取ったエリア(範囲)に適合する部分データを抽出する処理)の処理例を示す。
【0033】
(S211) まず特徴照合部202は、分析基準列を含むテーブルを分析対象DB300から抽出する。利用者(100)により抽出対象テーブルが指定されている場合には、そのテーブルのみを抽出する。
【0034】
(S212) 次に、特徴照合部202は、照合を行っていない数値列の組み合わせがあるかを判定する。当該組み合わせが無い場合(N)は処理を終了する。
【0035】
(S213) 特徴照合部202は、上記照合を行っていない数値列の組み合わせがある場合(Y)は、その組み合わせの一つを前述のX軸,Y軸として選択する。
【0036】
(S214) その後、特徴照合部202は、上記選択したX軸,Y軸の値でクラスタリングを行う。クラスタリングの手法には、最短距離法、K-means法などがあるが、ここではクラスタリングを行うことができれば手法は問わない。
【0037】
(S215) 上記クラスタリング後、特徴照合部202は、前記選択されたエリアに存在(該当)するクラスタ(対応する要素)を、抽出する部分データとして選択する。ここで、上記エリアに存在する部分データの定義としては、エリアにすべてのクラスタの要素が含まれること、エリアに一つでもクラスタの要素が含まれること、エリアに半分以上のクラスタの要素が含まれること、等が考えられる。ここでは定義は限定せずにいずれも適用可能である。
【0038】
(S216) 特徴照合部202は、上記X軸,Y軸の列名と上記選択したクラスタ内に含まれる部分データとを含む情報を表示部203に渡す。その後、照合を行っていない数値列の選択処理(S212)に戻る。
【0039】
前記部分データの特徴(特徴入力情報)と分析対象DB300のテーブル(多次元データ)との照合は、テーブルに属する数値列の組に対して行い、これにより部分データを抽出する。これにより、例えば、分析対象データが企業データの場合で、列間で互いに相関が高い「従業員数」「資本金」「今年度売上」「今年度利益」「支店数」などそれぞれに共通の傾向を持つ企業を抽出できるなど、より少ない列数でより稠密なクラスタを得ることができる。
【0040】
[データ例(1)]
図6に、入力(分析基準列を含むテーブル)及び抽出される部分データの例を示す。図6の例は、図4(b)の分析基準列の入力/選択欄(1101)でA列とし、「部分データの抽出エリアの選択」(1102)で「X軸が大きくY軸が大きいエリア」(a1)を選択した場合である。分析基準列を含むテーブルとして図6(a)の1103のテーブルが分析対象DB300から抽出される。ここで、X軸にB列,Y軸にC列が選択された場合、図6(b)の1104のようにクラスタリングされ、1105のような部分データが抽出される(右上のエリア(a1)に対応したクラスタ(1106)の要素が抽出されている)。
【0041】
[表示部(1)]
図7に、表示部203による図2の手順S104(部分データをランキング順に表示する処理)の処理例を示す。なお図7の内容は各実施の形態で共通の処理概要を示しており、実施の形態ごとに異なる処理詳細について説明する。以下は実施の形態1の場合である。
【0042】
(S221) 表示部203は、特徴照合部202から渡された部分データを、抽出されたデータ数の多い方から順に高いランクを付ける。このランク付けは、基準点を決めてその基準点にクラスタの重心が近い方から順に高いランクを付ける方式などを適用してもよい。
【0043】
(S222) 表示部203は、上記ランク付け後、順位、分析基準列、X軸の列名、Y軸の列名などの組を1つのレコードとして、ランクの高い順に画面に表示する。抽出した部分データを確認する場合は、利用者100により上記表示情報の中から確認したいランキングのレコード(行)を選択すると、選択したレコードに対応する部分データを見ることができる。
【0044】
図8に、上記ランキングによる表示画面例を示す。図8(a)の結果表示画面の1201では、順位、分析基準列、X軸の列名、Y軸の列名などを組としたレコードを順位(ランク)の高い順に表示している。図8(b)の詳細結果表示画面の1202では、図8(a)の例えば「順位1」のレコードを利用者100により選択(クリック等)した時に表示される、対応する部分データの例を示している。
【0045】
また、図9に、三以上の列の抽出を行う例を同様に示す。図9(a)の画面の1301の「順位1」の部分データ及び「順位2」の部分データのように、共通する列(例えばB列)が存在し、共通する列の抽出エリアが共通している場合、図9(b)の1302に示すように、同時に三以上の部分データ(例えばB,C,D列)を抽出してくるようにしてもよい。
【0046】
<実施の形態2>
図10〜図12等を用いて、本発明の実施の形態2のシステムについて説明する。前述の実施の形態1では、抽出する部分データの特徴を散布図のエリアで指定した。実施の形態2では、抽出する部分データの特徴を、列の相関係数で指定して、相関の高い部分データの抽出を行う。
【0047】
[入力部(2)]
図10に、実施の形態2での入力部201による図3の手順S202の際に表示するダイアログ画面例を示す。この特徴入力画面では、まず、1401にて分析基準列を利用者100により入力/選択する。次に、1402のラジオボタンで、正の相関のある部分データを抽出するか、負の相関のある部分データを抽出するかを利用者により選択する。その後、相関係数の範囲を指定する。この相関係数の値は、数値(閾値)で指定し、正の相関であればその数値以上、負の相関であればその数値以下となる部分データを抽出するようにする。1403にて相関係数の閾値を利用者により指定(入力)することができる。
【0048】
[特徴照合部(2)]
図11に、実施の形態2で特徴照合部202による図2の手順S103(特徴に適合する部分データを抽出する処理)の処理例を示す。
【0049】
(S301) まず特徴照合部202は、分析基準列を含むテーブルを分析対象DB300から抽出する。
【0050】
(S302) 次に、特徴照合部202は、照合を行っていない数値列の組み合わせがあるかを判定する。数値列の抽出は、S301で抽出されたテーブルから行う。当該組み合わせが無い場合(N)は処理を終了する。
【0051】
(S303) 上記照合していない数値列の組み合わせがある場合(Y)、特徴照合部202は、その数値列の組み合わせをA列,B列として選択する。
【0052】
(S304) 特徴照合部202は、上記のA列,B列の値をそれぞれ配列a,配列bに代入する。
【0053】
(S305) その後、特徴照合部202は、上記の配列aと配列bの相関係数Rを計算する。
【0054】
(S306) 特徴照合部202は、上記相関係数Rを計算した後、相関係数Rの絶対値と、相関係数の範囲の閾値(1403)とで比較を行う(|R|<閾値)。
【0055】
(S307) 特徴照合部202は、上記比較で閾値よりも小さい場合(Y)は、相関係数Rの絶対値を最も下げる配列aのi番目の要素と配列bのj番目の要素とを探し、その値(最も相関の無い値の組)を、配列a,配列bから削除する。一般的には、iとjは等しいと考えられるが、対象とするデータや目的によってはiとjは異なる場合があり得る。削除後、相関係数Rの計算処理(S305)に戻る。
【0056】
(S308) 特徴照合部202は、上記比較で閾値以上である場合(N)は、配列a,配列bを、抽出する部分データとして表示部203へ渡し、S302へ戻る。
【0057】
[データ例(2)]
図12に、実施の形態2で、分析基準列を含むテーブル(テーブルA)と抽出される部分データの列の例を示す。図12では、分析基準列をA列とし、相関を正の相関とし、相関係数Rの閾値を0.75として、分析基準列が含まれるテーブルとして1501が選択されたとする。ここで照合を行う数値列の組み合わせをB列とC列としたとき、抽出される部分データの例が1502である。
【0058】
前記図7を用いて、実施の形態2での表示部203による図2の手順S104の処理例は以下である。
【0059】
(S221) 表示部203は、特徴照合部202から渡された部分データにおいてデータ数が多い方や相関係数(R)の絶対値が大きい方を高いランクとする。このランク付けは、データ数を基準に行うことにしてもよいし、相関係数を基準に行うことにしてもよく、いずれも適用可能である。
【0060】
(S222) 上記ランク付け後、表示部203は、順位、分析基準列、A列の列名、B列の列名などの組を、ランク(順位)の高い順に表示する。部分データの詳細を確認したい場合は、利用者100によりレコードを選択すると、選択したレコードの抽出された部分データすべてを見ることができる。この際の出力画面例は前記図8と同様である。即ち、順位、分析基準列、相関係数を計算した数値列などを組としたレコードを、ランク(順位)順に表示する。ランキングのレコードを選択すれば当該レコードに対応する抽出した部分データの確認ができる。
【0061】
<実施の形態3>
図13〜図18等を用いて、本発明の実施の形態3のシステムについて説明する。実施の形態3では、特に時系列のデータを持つテーブル(分析対象データ)に対して、時系列の変化傾向を特徴として指定し、部分データを抽出する。
【0062】
[入力部(3)]
図13に、実施の形態3での入力部201による図2の手順S102の処理例を示す。また図14に、その際の画面例(特徴入力画面)を示す。
【0063】
(S401) まず入力部201は、図14の画面の1601で利用者100により入力/選択された時間列(時系列)の情報を取得する。
【0064】
(S402) 次に、入力部201は、1602から、分析基準列の情報を取得する。1602では、分析基準列を利用者により選択可能とするための分析基準列の一覧の情報を表示して利用者に選択させる。
【0065】
(S403) その後、入力部201は、1603から、変化の傾向を照合する対象となる期間(区間)の情報を取得する。この期間(区間)は、1603のように、ある日付からある日付までといった形で利用者により入力・選択可能とする。
【0066】
(S404) 次に、入力部201は、抽出する部分データの特徴の情報を取得する。これは、画面の1604で示すグラフの変化の傾向の一覧の中から利用者に選択させて、当該選択された変化の傾向の入力を取得することにより行う。変化の傾向は、1604のように、単調増加(1605)、単調減少(1606)、一定(1607)、山型(1608)、谷型(1609)などがある。その他にも、一定の後に単調減少する、等の変化も考えられ、選択可能としてもよい。
【0067】
(S405) 最後に、入力部201は、上記入力された特徴などの情報を、特徴照合部202に渡す。
【0068】
[特徴照合部(3)]
図15に、実施の形態3での特徴照合部202による図2の手順S103の処理例を示す。
【0069】
(S411) まず、特徴照合部202は、前記指定された分析基準列(1602)及び時間列(1601)を含むテーブルを分析対象DB300から抽出する。
【0070】
図16に、上記分析対象DB300から抽出されるテーブル(照合対象データ)の例を示す。
【0071】
(S412) 次に、特徴照合部202は、上記抽出されたテーブルから、前記指定された期間(1603)内のデータだけを抽出する。
【0072】
(S413) その後、特徴照合部202は、照合していない数値列があるかを判定する。照合していない数値列が無い場合(N)は処理を終了する。
【0073】
(S414) 上記照合していない数値列がある場合(Y)、特徴照合部202は、上記時間列をX軸,上記照合していない数値列をY軸として選択し、平滑化を行うことにより滑らかな曲線とする。平滑化の方法はスプライン補間などの方法が考えられるがここではその方法は問わない。
【0074】
(S415) 次に、特徴照合部202は、上記平滑化された曲線を微分して、極値や変曲点、値の増減などを求め、関数の増減表を作成し、定性的な変化の傾向(特徴)を求める。
【0075】
(S416) 特徴照合部202は、上記求めた変化の傾向(特徴)と、前記S404で指定された変化の傾向(1604)との照合を行う。これにより変化傾向に適合している期間(部分)を調べる。
【0076】
(S417) 特徴照合部202は、上記変化傾向に適合している期間(部分)と、前記Y軸に選択されている列の部分データとを表示部203に渡す。その後、前記判定(S413)に戻る。
【0077】
[データ例(3)]
図17に、実施の形態3での時系列データからの部分データの抽出例を示す。図17では、分析基準列(A列)を含むテーブルとして図16のテーブルとし、入力された時間列を日付列、照合する数値列をB列として、単調増加の部分データを抽出した場合の例を示している。図17(A)、1701は、X軸を日付列、Y軸をB列としたときのグラフを平滑化した例である。aで示す範囲(指定された期間)が、単調増加の傾向を示している期間である。このaの期間によって抽出される部分データが、b1,b2,b3で示す各抽出部分データであり、それぞれのテーブルを図17(B)の1702,1703,1704で示す。
【0078】
[表示部(3)]
前記図7を用いて、実施の形態3での表示部203による図2の手順S104の処理例は以下である。
【0079】
(S221) 表示部203は、特徴照合部202から渡された部分データを、抽出された期間の長い順に高いランクを付ける。
【0080】
(S222) 上記ランク付け後、表示部203は、順位、期間、分析基準列、X軸の列名、Y軸の列名などの組を一つのレコードとして、ランク(順位)の高い順に画面に表示する。抽出した部分データを確認する場合は、利用者100により確認したいランキングのレコードを選択すると、当該レコードに対応する抽出部分データを見ることができる。
【0081】
図18に、上記ランキングの表示画面例を示す。指定期間を2011/1/11〜2011/1/31とした場合である。図18(a)、1801は、順位、期間、分析基準列、X軸の列名、Y軸の列名を組としたレコードをランク(順位)の高い順に表示している。図18(b)、1802は、1801の「順位1」のレコードを選択した時に表示される、対応する部分データの例である。
【0082】
<実施の形態4>
図19を用いて、本発明の実施の形態4のシステムについて説明する。実施の形態4では、数値列以外の列を持つテーブル(分析対象データ)に対して、数値列以外の列を同時に部分データとして抽出する。
【0083】
実施の形態4での特徴照合部202は、前述の図5のS211(実施の形態1)、または図11のS301(実施の形態2)、または図15のS411(実施の形態3)で、分析対象DB300から取得されたテーブルにおいて、分析基準列、数値列、及び時間列以外の列(以下「照合対象外列」)が含まれている場合、抽出処理において抽出された部分データと同じレコードにある照合対象外列の値を併せて抽出してもよい。
【0084】
図19に、実施の形態4の部分データ抽出例を示す。本例では、分析基準列をA列として当該分析基準列を含むテーブル(分析対象データ)として、図19(a)の1901が選択されたとする。1901のテーブルは、数値列以外の列(E列)を持っている。ここで、照合する数値列としてB列とC列が選択されて部分データの抽出を行う場合、実施の形態4では、図19(b)の1902に示すように、B列,C列と同時に、照合対象外列であるE列のデータを抽出することができる。
【0085】
<効果等>
以上説明したように、各実施の形態によれば、多次元データ分析の際、分析対象データ(テーブル)から分析目的に合う部分データを抽出する等の前処理の作業に要する利用者100の試行錯誤や工数を削減でき、効果的なデータ分析の支援を実現できる。特に、データ(多次元データ)から分析目的に合うデータを抽出する作業を自動化により効率化できる。また、データ全体から分析目的に合う部分のデータ(ある傾向を示す一部分のデータ、特徴部分データ)を抽出することができる。
【0086】
従来、利用者によるデータ分析の際、データ全体を対象として分析を行うと、分析したい内容には関係の無いデータが含まれている可能性が高く、望ましい結果が得られない可能性が高い。望ましい結果を得るために、分析内容と関係の無い/小さいデータを取り除くことができるとよい。しかしこの作業は、従来、利用者が分析を行いながらデータの特徴部分を見つけて抽出するといった試行錯誤や工数を要していた。特にデータ量が増えた場合は作業が負担となっていた。一方、本実施の形態によれば、利用者によりデータの特徴を指定(選択等)して、対応する特徴部分データを抽出することができる。例えばデータの値の変化の傾向や基準を指定し、当該傾向や基準に類似する部分データを抽出することができる。
【0087】
特に実施の形態1では、数値列を対象に、利用者により、散布図のエリア(図4)を特徴として指定して、そのエリア(範囲)に該当する部分データを抽出することができる。
【0088】
特に実施の形態2では、利用者により、部分データの特徴を列の相関係数で指定して、相関の高い部分データを抽出することができる。
【0089】
特に実施の形態3では、時系列のデータを持つテーブルに対して、利用者により、時系列の変化傾向を特徴として指定して、対応する部分データを抽出することができる。
【0090】
特に実施の形態4では、数値列以外の列(照合対象外列)をも併せて部分データとして抽出することができる。
【0091】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
【産業上の利用可能性】
【0092】
本発明は、多次元データ分析・支援システム/ソフトウェア、等に利用可能である。
【符号の説明】
【0093】
100…利用者、200…計算機システム、201…入力部、202…特徴照合部、203…表示部、300…分析対象DB。
【特許請求の範囲】
【請求項1】
計算機システムを用いて利用者による多次元データの分析に係わる処理作業を支援する処理を行う、データ分析のデータ抽出システムであって、
前記計算機システムは、入力部、表示部、特徴照合部、及び分析対象データベースを有し、
前記分析対象データベースは、前記多次元データである分析対象データのテーブルを格納し、
前記入力部は、前記利用者によりデータに関する特徴を含む情報を入力ないし選択可能とする処理を行い、
前記特徴照合部は、前記分析対象データベースのテーブルの前記多次元データから、前記特徴の情報との照合処理により、当該特徴に適合する部分データを抽出する処理を行い、
前記表示部は、前記利用者に対して前記多次元データを含む情報、及び前記特徴照合部により抽出された部分データを含む情報を表示する処理を行い、
前記入力部では、前記利用者による特徴の情報の入力を、値の変化の傾向または値の範囲の指定により可能であること、を特徴とする、データ分析のデータ抽出システム。
【請求項2】
請求項1記載のデータ分析のデータ抽出システムにおいて、
前記多次元データである分析対象データのテーブルは、数値列を含み、
前記入力部は、前記利用者による前記抽出する部分データの特徴の情報の入力において、表示画面での散布図のエリアの指定を可能とし、
前記特徴照合部は、上記指定されたエリアに対応する範囲のデータを取得することにより、前記特徴に適合した部分データを抽出すること、を特徴とする、データ分析のデータ抽出システム。
【請求項3】
請求項1記載のデータ分析のデータ抽出システムにおいて、
前記入力部は、前記利用者による前記抽出する部分データの特徴の情報の入力において、表示画面での前記多次元データの列における相関係数の閾値の指定を可能とし、
前記特徴照合部は、前記多次元データの列における相関係数の計算を行い、当該相関係数が上記閾値以上である相関の高いデータを取得することにより、前記特徴に適合した部分データを抽出すること、を特徴とする、データ分析のデータ抽出システム。
【請求項4】
請求項1記載のデータ分析のデータ抽出システムにおいて、
前記多次元データである分析対象データのテーブルは、数値列及び時系列のデータを含み、
前記入力部は、前記利用者による前記抽出する部分データの特徴の情報の入力において、表示画面での前記多次元データにおける時系列のグラフの変化傾向の選択を可能とし、
前記特徴照合部は、前記時系列のデータを含むテーブルに対して、上記変化傾向に応じたデータを取得することより、前記特徴に適合した部分データを抽出すること、を特徴とする、データ分析のデータ抽出システム。
【請求項5】
請求項2記載のデータ分析のデータ抽出システムにおいて、
前記特徴照合部は、前記利用者により指定された分析基準列を含んだテーブルを前記分析対象データベースから取得し、前記特徴の情報と前記取得したテーブルとで照合し、数値列の組み合わせ毎にX軸,Y軸としてクラスタリングして、前記利用者により指定された散布図のエリアに対応するクラスタのデータを前記抽出する部分データとする処理を行うこと、を特徴とする、データ分析のデータ抽出システム。
【請求項6】
請求項3記載のデータ分析のデータ抽出システムにおいて、
前記特徴照合部は、前記利用者により指定された分析基準列を含んだテーブルを前記分析対象データベースから取得し、前記特徴の情報と前記取得したテーブルとで照合し、数値列の組み合わせ毎に前記相関係数を計算して、前記利用者により指定された相関係数の閾値と比較し、当該相関係数が閾値以上となる相関の高いデータを前記抽出する部分データとする処理を行うこと、を特徴とする、データ分析のデータ抽出システム。
【請求項7】
請求項4記載のデータ分析のデータ抽出システムにおいて、
前記特徴照合部は、前記利用者により指定された分析基準列と時間列とを含んだテーブルを前記分析対象データベースから取得し、前記利用者により指定された期間のデータを抽出し、前記特徴の情報と前記取得したテーブルとで照合し、数値列毎に、時間列をX軸,数値列をY軸として滑らかな曲線となるように平滑化し、当該曲線を微分して定性的な傾向を特徴として求め、前記利用者により指定された変化傾向に適合している期間を調べ、当該適合している期間に対応するデータを前記抽出する部分データとする処理を行うこと、を特徴とする、データ分析のデータ抽出システム。
【請求項8】
請求項1記載のデータ分析のデータ抽出システムにおいて、
前記多次元データである分析対象データのテーブルは、数値列及び数値列以外の列を含み、
前記特徴照合部は、前記照合処理により抽出した当該特徴を持つ部分データと同じレコードに、分析基準列、数値列、及び時間列以外の列が含まれている場合、当該列の値を併せて前記部分データとして抽出する処理を行うこと、を特徴とする、データ分析のデータ抽出システム。
【請求項9】
計算機システムを用いて利用者による多次元データの分析に係わる処理作業を支援する処理を行う、データ分析のデータ抽出方法であって、
前記計算機システムは、入力部、表示部、特徴照合部、及び分析対象データベースを有し、
前記分析対象データベースは、前記多次元データである分析対象データのテーブルを格納し、
前記入力部で、前記利用者によりデータに関する特徴を含む情報を入力ないし選択可能とする処理を行うステップと、
前記特徴照合部で、前記分析対象データベースのテーブルの前記多次元データから、前記特徴の情報との照合処理により、当該特徴に適合する部分データを抽出する処理を行うステップと、
前記表示部で、前記利用者に対して前記多次元データを含む情報、及び前記特徴照合部により抽出された部分データを含む情報を表示する処理を行うステップと、を有し、
前記入力部のステップでは、前記利用者による特徴の情報の入力を、値の変化の傾向または値の範囲の指定により可能であること、を特徴とする、データ分析のデータ抽出方法。
【請求項10】
計算機システムを用いて利用者による多次元データの分析に係わる処理作業を支援する処理を行わせる、データ分析のデータ抽出プログラムであって、
前記計算機システムは、入力部、表示部、特徴照合部、及び分析対象データベースを有し、
前記分析対象データベースは、前記多次元データである分析対象データのテーブルを格納し、
前記入力部に、前記利用者によりデータに関する特徴を含む情報を入力ないし選択可能とする処理を行わせるプログラムと、
前記特徴照合部に、前記分析対象データベースのテーブルの前記多次元データから、前記特徴の情報との照合処理により、当該特徴に適合する部分データを抽出する処理を行わせるプログラムと、
前記表示部に、前記利用者に対して前記多次元データを含む情報、及び前記特徴照合部により抽出された部分データを含む情報を表示する処理を行わせるプログラムと、を有し、
前記入力部のプログラムでは、前記利用者による特徴の情報の入力を、値の変化の傾向または値の範囲の指定により可能であること、を特徴とする、データ分析のデータ抽出プログラム。
【請求項1】
計算機システムを用いて利用者による多次元データの分析に係わる処理作業を支援する処理を行う、データ分析のデータ抽出システムであって、
前記計算機システムは、入力部、表示部、特徴照合部、及び分析対象データベースを有し、
前記分析対象データベースは、前記多次元データである分析対象データのテーブルを格納し、
前記入力部は、前記利用者によりデータに関する特徴を含む情報を入力ないし選択可能とする処理を行い、
前記特徴照合部は、前記分析対象データベースのテーブルの前記多次元データから、前記特徴の情報との照合処理により、当該特徴に適合する部分データを抽出する処理を行い、
前記表示部は、前記利用者に対して前記多次元データを含む情報、及び前記特徴照合部により抽出された部分データを含む情報を表示する処理を行い、
前記入力部では、前記利用者による特徴の情報の入力を、値の変化の傾向または値の範囲の指定により可能であること、を特徴とする、データ分析のデータ抽出システム。
【請求項2】
請求項1記載のデータ分析のデータ抽出システムにおいて、
前記多次元データである分析対象データのテーブルは、数値列を含み、
前記入力部は、前記利用者による前記抽出する部分データの特徴の情報の入力において、表示画面での散布図のエリアの指定を可能とし、
前記特徴照合部は、上記指定されたエリアに対応する範囲のデータを取得することにより、前記特徴に適合した部分データを抽出すること、を特徴とする、データ分析のデータ抽出システム。
【請求項3】
請求項1記載のデータ分析のデータ抽出システムにおいて、
前記入力部は、前記利用者による前記抽出する部分データの特徴の情報の入力において、表示画面での前記多次元データの列における相関係数の閾値の指定を可能とし、
前記特徴照合部は、前記多次元データの列における相関係数の計算を行い、当該相関係数が上記閾値以上である相関の高いデータを取得することにより、前記特徴に適合した部分データを抽出すること、を特徴とする、データ分析のデータ抽出システム。
【請求項4】
請求項1記載のデータ分析のデータ抽出システムにおいて、
前記多次元データである分析対象データのテーブルは、数値列及び時系列のデータを含み、
前記入力部は、前記利用者による前記抽出する部分データの特徴の情報の入力において、表示画面での前記多次元データにおける時系列のグラフの変化傾向の選択を可能とし、
前記特徴照合部は、前記時系列のデータを含むテーブルに対して、上記変化傾向に応じたデータを取得することより、前記特徴に適合した部分データを抽出すること、を特徴とする、データ分析のデータ抽出システム。
【請求項5】
請求項2記載のデータ分析のデータ抽出システムにおいて、
前記特徴照合部は、前記利用者により指定された分析基準列を含んだテーブルを前記分析対象データベースから取得し、前記特徴の情報と前記取得したテーブルとで照合し、数値列の組み合わせ毎にX軸,Y軸としてクラスタリングして、前記利用者により指定された散布図のエリアに対応するクラスタのデータを前記抽出する部分データとする処理を行うこと、を特徴とする、データ分析のデータ抽出システム。
【請求項6】
請求項3記載のデータ分析のデータ抽出システムにおいて、
前記特徴照合部は、前記利用者により指定された分析基準列を含んだテーブルを前記分析対象データベースから取得し、前記特徴の情報と前記取得したテーブルとで照合し、数値列の組み合わせ毎に前記相関係数を計算して、前記利用者により指定された相関係数の閾値と比較し、当該相関係数が閾値以上となる相関の高いデータを前記抽出する部分データとする処理を行うこと、を特徴とする、データ分析のデータ抽出システム。
【請求項7】
請求項4記載のデータ分析のデータ抽出システムにおいて、
前記特徴照合部は、前記利用者により指定された分析基準列と時間列とを含んだテーブルを前記分析対象データベースから取得し、前記利用者により指定された期間のデータを抽出し、前記特徴の情報と前記取得したテーブルとで照合し、数値列毎に、時間列をX軸,数値列をY軸として滑らかな曲線となるように平滑化し、当該曲線を微分して定性的な傾向を特徴として求め、前記利用者により指定された変化傾向に適合している期間を調べ、当該適合している期間に対応するデータを前記抽出する部分データとする処理を行うこと、を特徴とする、データ分析のデータ抽出システム。
【請求項8】
請求項1記載のデータ分析のデータ抽出システムにおいて、
前記多次元データである分析対象データのテーブルは、数値列及び数値列以外の列を含み、
前記特徴照合部は、前記照合処理により抽出した当該特徴を持つ部分データと同じレコードに、分析基準列、数値列、及び時間列以外の列が含まれている場合、当該列の値を併せて前記部分データとして抽出する処理を行うこと、を特徴とする、データ分析のデータ抽出システム。
【請求項9】
計算機システムを用いて利用者による多次元データの分析に係わる処理作業を支援する処理を行う、データ分析のデータ抽出方法であって、
前記計算機システムは、入力部、表示部、特徴照合部、及び分析対象データベースを有し、
前記分析対象データベースは、前記多次元データである分析対象データのテーブルを格納し、
前記入力部で、前記利用者によりデータに関する特徴を含む情報を入力ないし選択可能とする処理を行うステップと、
前記特徴照合部で、前記分析対象データベースのテーブルの前記多次元データから、前記特徴の情報との照合処理により、当該特徴に適合する部分データを抽出する処理を行うステップと、
前記表示部で、前記利用者に対して前記多次元データを含む情報、及び前記特徴照合部により抽出された部分データを含む情報を表示する処理を行うステップと、を有し、
前記入力部のステップでは、前記利用者による特徴の情報の入力を、値の変化の傾向または値の範囲の指定により可能であること、を特徴とする、データ分析のデータ抽出方法。
【請求項10】
計算機システムを用いて利用者による多次元データの分析に係わる処理作業を支援する処理を行わせる、データ分析のデータ抽出プログラムであって、
前記計算機システムは、入力部、表示部、特徴照合部、及び分析対象データベースを有し、
前記分析対象データベースは、前記多次元データである分析対象データのテーブルを格納し、
前記入力部に、前記利用者によりデータに関する特徴を含む情報を入力ないし選択可能とする処理を行わせるプログラムと、
前記特徴照合部に、前記分析対象データベースのテーブルの前記多次元データから、前記特徴の情報との照合処理により、当該特徴に適合する部分データを抽出する処理を行わせるプログラムと、
前記表示部に、前記利用者に対して前記多次元データを含む情報、及び前記特徴照合部により抽出された部分データを含む情報を表示する処理を行わせるプログラムと、を有し、
前記入力部のプログラムでは、前記利用者による特徴の情報の入力を、値の変化の傾向または値の範囲の指定により可能であること、を特徴とする、データ分析のデータ抽出プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【公開番号】特開2012−243013(P2012−243013A)
【公開日】平成24年12月10日(2012.12.10)
【国際特許分類】
【出願番号】特願2011−111351(P2011−111351)
【出願日】平成23年5月18日(2011.5.18)
【出願人】(000233491)株式会社日立システムズ (394)
【公開日】平成24年12月10日(2012.12.10)
【国際特許分類】
【出願日】平成23年5月18日(2011.5.18)
【出願人】(000233491)株式会社日立システムズ (394)
[ Back to top ]