データ分析の分析軸推薦方法、システム、及びプログラム
【課題】多次元データ分析における利用者(分析担当者)による分析対象とするデータ項目の組の選定に要する試行錯誤の削減などを可能とする技術を提供する。
【解決手段】本システム(101)では、多次元データ分析の分析軸を推薦する処理機能を有し、多次元データのデータ項目間のデータの関連度を算出する処理(11)と、上記関連度に基づいて、分析対象に適するデータ項目の組を抽出する処理(12)と、多次元データ分析の際、上記抽出したデータ項目の組を、分析者に対して推薦する分析軸として提示する処理(13)とを行う。上記構成により、分析対象とするデータ項目の組(分析軸)の選定を支援する。
【解決手段】本システム(101)では、多次元データ分析の分析軸を推薦する処理機能を有し、多次元データのデータ項目間のデータの関連度を算出する処理(11)と、上記関連度に基づいて、分析対象に適するデータ項目の組を抽出する処理(12)と、多次元データ分析の際、上記抽出したデータ項目の組を、分析者に対して推薦する分析軸として提示する処理(13)とを行う。上記構成により、分析対象とするデータ項目の組(分析軸)の選定を支援する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ分析の情報処理技術に関し、特に、多次元データを対象としたデータ分析及び分析支援を実現する技術に関する。
【背景技術】
【0002】
データ分析を行う技術には様々なものがあり、先行技術例として以下が挙げられる。
【0003】
特開平6−89305号公報(特許文献1)では、データ項目の関連箇所を視覚的に明示し、相互に関連するデータ項目やプログラムの一括修正の自動化を行う。
【0004】
特開2000−39999号公報(特許文献2)では、データベースに格納された複数のデータ項目に基づいて、項目間の関係を特徴づけるIF−THENルールを生成する。
【0005】
特開2001−312573号公報(特許文献3)では、分析対象データを分析する際に、当該データと関連する幾つかのデータを用いることで、原因の解明や分析結果の裏付けを行う。
【0006】
特開2001−188796号公報(特許文献4)では、分析対象データに因子分析を適用し、因子ごとにデータ項目と因子負荷量の組合せを表示することで、データ分析結果をユーザが把握しやすい形式で表示する。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平6−89305号公報
【特許文献2】特開2000−39999号公報
【特許文献3】特開2001−312573号公報
【特許文献4】特開2001−188796号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
多次元データを分析する際には、入力の候補となるデータ項目が多いため、データ項目を様々に組合せながら望む分析を実施できる項目の組(以下、分析軸ともいう)を見つける。この作業は、OLAP(Online Analytical Processing)ツールを利用して行われることが一般的である。OLAPツールは、高速処理、可視化という面でこの作業を支援することが可能である。
【0009】
しかし、分析軸の選定のための試行錯誤は利用者(分析担当者)が行わなければならない。一般にデータ項目が増えるほどこの作業は重要かつ負担が増大する。例えばデータ項目数が50のデータから2つの分析軸を選択する場合、その組合せ数は2450通りあり、全てを試行することは難しい。これに関し、従来は、分析担当者の知識や経験で候補数を削減して分析軸を選定している。そのため、分析結果が分析担当者の能力に依存してしまうという問題がある。
【0010】
以上を鑑み、本発明の主な目的は、多次元データ分析の際における利用者(分析担当者)による分析対象とするデータ項目の組(分析軸)の選定に要する試行錯誤の削減及び分析担当者の能力に依存しない選定を可能とする技術を提供することである。
【課題を解決するための手段】
【0011】
本発明の代表的な形態は、計算処理能力を有する一つ以上の計算機及びネットワーク等で構成される計算機システムを用いて、多次元データ分析に係わる処理(分析支援などの処理)を行うデータ分析の分析軸推薦方法、システム、及びプログラム等であって、多次元データ分析の分析軸を推薦する処理を含む方法等であり、以下に示す構成を有することを特徴とする。
【0012】
本発明の方法及びシステム等では、多次元データのそれぞれのデータ項目間のデータの関連度を算出する第1の処理手順及び処理部と、前記多次元データのそれぞれのデータ項目間のデータの関連度に基づいて、分析対象に適するデータ項目の組を抽出する第2の処理手順及び処理部と、前記多次元データ分析の際、上記抽出したデータ項目の組を、分析者に対して推薦する分析軸として提示または出力する第3の処理手順及び処理部と、を有する。上記構成により、分析対象とするデータ項目の組(分析軸)の選定を支援する。
【発明の効果】
【0013】
本発明の代表的な形態によれば、多次元データ分析の際における利用者(分析担当者)による分析対象とするデータ項目の組(分析軸)の選定に要する試行錯誤の削減及び分析担当者の能力に依存しない選定が可能となる。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施の形態の方法(データ分析の分析軸推薦方法)及びシステムデータ分析の分析軸推薦システム)におけるシステム構成例を示す図である。
【図2】本実施の形態の方法及びシステムで、予備分析などを実行する際の全体の手順を示す図である。
【図3】本発明の実施の形態1の方法及びシステムにおける、データ予備分析部が図2の手順S130のデータ予備分析を実行する際の処理フロー図である。
【図4】実施の形態1で、関連度を算出する図3の手順S202の詳細な処理フロー図である。
【図5】本実施の形態の方法及びシステムで、分析対象DBに格納される分析対象データの構造及びデータ例を示す図である。
【図6】実施の形態1で、予備分析の関連度算出結果の例を示す図である。
【図7】実施の形態1で、予備分析の分析軸候補の例を示す図である。
【図8】(a),(b)は、実施の形態1の方法及びシステムで、分析候補の活用例を示す図であり、(a)は予備分析前、(b)は予備分析後の画面表示例を示す。
【図9】本実施の形態の方法及びシステムで、一般的なOLAPツールに予備分析機能を加えた使用例を示す処理フロー図である。
【図10】本実施の形態の方法及びシステムで、設定ファイルの例を示す図である。
【図11】本実施の形態の方法及びシステムで、分析用設定ファイルの例を示す図である。
【図12】本発明の実施の形態2の方法及びシステムにおける、データ予備分析部が図2の手順S130のデータ予備分析を実行する際の処理フロー図である。
【図13】実施の形態2で、関連度を算出する図12の手順S502の詳細な処理フロー図である。
【図14】実施の形態2で、分析軸データ項目数N=3の場合の分析軸活用例を示す図であり、予備分析後の画面表示例を示す。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一符号を付し、その繰り返しの説明は省略する。なお、多次元データである複数のデータ項目のうちi番目のデータ項目をデータ項目i、といったように同じ記号で表すものとする。
【0016】
図1等に示される本実施の形態のデータ分析の分析軸推薦方法、システム、及びプログラムは、多次元データ分析の際に分析者に対して多次元データ分析の分析軸を推薦する処理機能(11〜13等による)を備える。
【0017】
<実施の形態1>
図1〜図11を用いて、本発明の実施の形態1の方法及びシステムについて説明する。実施の形態1は、多次元データにおける2つのデータ項目の組を分析軸として提示する場合の形態である。
【0018】
[システム構成]
図1は、本システムの基本構成を示している。本システムは、計算機システム101上に構成されている。計算機システム101は、中央演算処理装置などの計算処理能力を有する一つ以上の計算機及びネットワークで構成される。計算機システム101上には、分析管理サブシステム200、予備分析サブシステム300、分析対象DB500、及び予備分析結果DB600、等が配置されており、図1ではこれら相互の関係を模式的に示している。
【0019】
計算機システム101の具体例としては、プロセッサ、メモリ、バス、通信インタフェース部、キーボード、ディスプレイなどを備える構成の一般的なPC等の計算機においてソフトウェアプログラム(本実施の形態のプログラム)を実行することにより、各処理機能・サブシステム等を実現する。利用者は例えば計算機システム101に対してキーボード等によりデータ情報を入力し、ディスプレイの画面に表示された情報を閲覧することにより、データ分析作業が可能である。計算機システム101は、例えば、ネットワーク上で複数の計算機が接続される構成でもよい。例えば、各サブシステム(200,300)が計算機で実現されネットワークで接続される構成である。利用者は各計算機または当該計算機に接続される端末から当該計算機の処理機能を利用する。また例えば、各サブシステム(200,300)がサーバで実現されネットワークで接続される構成である。利用者は端末からネットワークを介してサーバ(例えば分析管理サブシステム200)によるサービスにアクセスして利用する。また各種データ(500等)については、メモリやディスク、あるいはネットワークのDBサーバなどに格納される。
【0020】
分析管理サブシステム200は、入力部201、表示部202、設定ファイル203、OLAPツール10などを有する。特にOLAPツール10による画面で利用者(分析者)に対して多次元データ分析支援情報を提示する(後述)。
【0021】
分析管理サブシステム200は、入力部201を介して得た利用者からの要求に応じて、必要なデータを分析対象DB500から抽出し、予備分析サブシステム300にデータ予備分析要求を送信し、表示部202に予備分析結果を表示する処理などを行う。
【0022】
予備分析サブシステム300は、予備分析処理などを行う。予備分析とは、分析対象データから分析に適したデータ項目(分析軸)を抽出する分析を意味する。予備分析サブシステム300は、データ抽出部301、データ予備分析部302、分析用設定ファイル303などを有する。データ抽出部301は、分析対象DB500から分析対象データ(D)を抽出する機能を有する。データ予備分析部302は、特徴的な予備分析機能(多次元データ分析の分析軸を推薦する処理機能)を有する。データ予備分析部302の予備分析機能を構成する処理部として、関連度算出部11、分析軸抽出部12、分析軸推薦部13などを有する。なお例えば分析軸推薦部13が分析管理サブシステム200内にあってもよい。
【0023】
関連度算出部11は、多次元データのそれぞれのデータ項目間のデータの関連度(後述)を算出する処理を行う。分析軸抽出部12は、関連度算出部11により算出した、多次元データのそれぞれのデータ項目間のデータの関連度に基づいて、分析対象に適するデータ項目の組を抽出する処理を行う。分析軸推薦部13は、OLAPツール10を用いた多次元データ分析の際、上記分析軸抽出部12により抽出したデータ項目の組を、分析者に対して推薦する分析軸として提示または出力する処理を行う。各部(11〜13)の処理詳細は後述する。
【0024】
上記システム構成により、利用者(分析者)による多次元データ分析の際に、分析対象とするデータ項目の組(分析軸)の選定を支援する。即ち、分析対象とするデータ項目の組(分析軸)の選定に要する試行錯誤の削減及び分析者の能力に依存しない選定を可能とする。
【0025】
[データ情報]
分析対象DB500は、予備分析サブシステム300のデータ抽出部301が参照する複数の分析対象データ(D)が格納されているDB(データベース)である。
【0026】
図5は、分析対象データ(D)の例を示す。複数のデータ項目A〜Gがあり、各レコード(行)において各データ項目のデータ値を有する。
【0027】
予備分析結果DB600は、予備分析サブシステム300のデータ予備分析部302が実行する予備分析の結果情報を格納するDBである。
【0028】
図6は、予備分析の結果情報の例である、関連度R(m1|m2)(後述)の算出結果の例を示す。図5の分析対象データ(D)に関する異なる2つのデータ項目の組のすべてについて関連度の値を有する。
【0029】
図7は、予備分析の結果情報の例である、予備分析の分析軸候補の例を示す。例えば、閾値Th01=0.6,Th2=0.8の場合、図示する網掛け部分が分析軸候補のデータ項目を示す。
【0030】
図10は設定ファイル203の例を示す。設定ファイル203には、利用者の権限、予備分析サブシステム300のIPアドレス、通信方式、分析対象DB500のIPアドレス、ユーザID、パスワード、通信方式など、予備分析結果DB600のIPアドレス、ユーザID、パスワード、通信方式などの情報が記載されている。
【0031】
図11は分析用設定ファイル303の例を示す。分析用設定ファイル303には、分析管理サブシステム200のIPアドレス、予備分析で用いる閾値(Th1,Th2)(後述)などの情報が記載されている。
【0032】
なお、計算機システム101の各部(200,300,500,600)間の通信には、上記設定ファイル203等に記載のIPアドレス、ユーザID、パスワード、及び通信方式などを用いる。
【0033】
[予備分析]
図2は、計算機システム101において予備分析などを実行する際のシステム全体の手順を示している。S101等は手順を表す。以下、前述の各データ情報(図5〜図7,図10,図11等)の例と対応している。
【0034】
分析管理サブシステム200は、入力部201を介して、利用者のデータ抽出要求(S101)を、予備分析サブシステム300のデータ抽出部301に送付する。データ抽出要求(S101)を受けたデータ抽出部301は、分析対象DB500から分析対象データ候補を抽出して表示部202に返戻し、表示部202において当該データを表示する(S102〜S104)。
【0035】
利用者は、入力部201を介して分析対象データ(D)を選択し(S110)、データ予備分析要求及び選択した分析対象データ(D)を、分析管理サブシステム200から予備分析サブシステム300へ送付する(S111)。データ予備分析部302は、当該要求及び分析対象データ(D)を受け取ると、当該分析対象データ(D)がすでに予備分析されていないかどうかを予備分析結果DB600に対して問い合わせる(S112〜S114)。予備分析結果DB600では、当該問い合わせに対し検索し(S113)、結果を返戻する(S114)。
【0036】
上記問合せの結果、データ予備分析部302は、すでに当該分析対象データ(D)が予備分析されている場合(検索結果が空ではない場合)は、S113で抽出された予備分析結果を、表示部202に返戻(S120)して表示部202で表示(S121)させ、終了する。また、まだ予備分析されていない場合(検索結果が空の場合)は、データ予備分析部302は、当該分析対象データ(D)に対する予備分析を実行し(S130)、当該予備分析結果を、表示部202に返戻(S131)して表示部202で表示(S132)させると共に、予備分析結果DB600に登録要求(S133)して登録(S134)する。
【0037】
分析対象データ(D)候補が複数存在する場合、利用者が選択した一つの分析対象データ(D)に対して予備分析を行うか、または、全ての分析対象データ(D)候補に対して予備分析を行う。図2の手順S110〜S134では、一つの分析対象データ(D)に対して予備分析を行う手順について記載しているが、全ての分析対象データ(D)候補に対して予備分析を行う場合には、S110〜S134の手順を分析対象データ(D)候補の数分繰り返せばよい。
【0038】
[データ予備分析]
図3は、データ予備分析部302が図2の手順S130の予備分析を実行する際の処理手順を示す。まず、分析対象データDのデータ項目数Mを抽出し、分析用設定ファイル303から閾値Th1,Th2(Th1<Th2)を取得する(S201)。
【0039】
次に、2つのデータ項目(データ項目の組)である、m1番目のデータ項目m1(1≦m1≦M)とm2番目のデータ項目m2(1≦m2≦M)(m1≠m2)とにおける関連度R(m1|m2)を算出する(S202)。
【0040】
上記関連度R(m1|m2)が、Th1<R(m1|m2)<Th2である場合(S203−Y)、当該データ項目の組{m1,m2}を、分析軸候補として出力し(S204)、また、Th1<R(m1|m2)<Th2ではない場合(S203−N)、当該データ項目の組{m1,m2}を分析軸候補としない(S205)。
【0041】
上記処理を分析対象データDにおける全てのデータ項目の組に対して実行する(S202〜S206)。
【0042】
[関連度算出]
図4は、上記関連度R(m1|m2)を算出する手順S202の詳細な処理手順を示す。まず、分析対象データDのレコード数Hを抽出し(S301)、h=1,Q=0,Lを空のリストとする(S302)。データ項目m1,m2のh番目のデータの組{m1h,m2h}がリストLに含まれない場合(S303−Y)、リストLに、当該データの組{m1h,m2h}を追加し、Q=Q+1とする(S304)。この処理を、h≧Hとなるまで繰り返す(S301〜S305)。
【0043】
次に、データ項目m1,m2のq番目(1≦q≦Q)のデータm1q,m2qの条件付確率P(m1q|m2q)=P(m1q∩m2q)/P(m2q)を算出する(S307〜S309)。なお、P(A|B)は条件付確率、P(A∩B)は同時確率、P(A)は周辺確率を表す(一般的な条件付確率の定義による)。
【0044】
最後に、関連度R(m1|m2)を条件付確率P(m1q|m2q)の相加平均として算出する(S310)。
【0045】
また、R(m1|m2)と同様に、R(m2|m1)に関しても、P(m2q|m1q)の相加平均として算出する。
【0046】
上記S307〜S309の処理では、データの関連度(R)を算出する式(手法)として、関連度R(m1|m2),R(m2|m1)を条件付確率の相加平均としているが、これに限らなくてもよい。例えば、データ項目値の共起頻度を関連度とする場合は、同時確率を関連度とし、同時確率や条件付確率のばらつき具合を関連度とする場合には、同時確率や条件付確率の分散や変動係数を算出する式を関連度とする。あるいは、同じm2qの値に対するm1qの頻度のばらつきをエントロピで表したものを、すべてのm2qの値の種類で平均したものも考えられる。このように目的に応じて関連度を算出する式を変更しても構わない。
【0047】
[分析軸候補の活用例]
図8は、分析軸候補の活用例を示す。前記OLAPツール10を用いて画面に情報を表示する。
【0048】
図8(a)は、分析前のOLAPツール10の様子である。OLAPツール10では、2つ以上のデータ項目を指定し(利用者が列・行のデータ項目を選択可能)、その関係を画面で可視化することで、指定したデータ項目の組の特徴を抽出する。
【0049】
図8(b)は、予備分析後のOLAPツール10の様子である。データ項目リスト中で、予備分析結果の分析軸候補が例えば色分け等により強調表示される。利用者は所望の分析軸候補を選択するだけで、試行錯誤なく分析(当該分析軸を用いた分析)を開始することができる。
【0050】
[使用例]
図9の処理フローには、一般的なOLAPツール10に予備分析機能を加えた使用例における処理手順を示す。まず図8の「データ項目リスト」に、使用できるデータ項目一覧を表示する(S401)。次に、予備分析結果の分析軸候補に含まれるデータ項目の組を色分けする(S402)。この一覧から、利用者により、図8の「行のデータ項目」「列のデータ項目」を選択する(S402)。「行のデータ項目」は縦軸方向のデータ、「列のデータ項目」は横軸方向のデータである。選択した「行のデータ項目」と「列のデータ項目」の関係を図8の「データ表示部分」(セル)に表示する(S403)。望ましい結果が得られた場合、利用者は分析を終了する。望ましい結果が得られない場合、利用者は次の組合せを試すことができる(S403〜S406)。
【0051】
上記S402では色分けによって強調表示しているが、これに限らず、分析軸候補が点滅する、分析軸候補をリスト表示する等、利用者にとってわかりやすい表示方法であればどのような方法でも構わない。
【0052】
[効果等]
以上のように、実施の形態1によれば、多次元データのデータ項目の組をデータの関連度を表す指標で評価し、望ましい分析結果が出る可能性が高い分析軸候補を抽出することにより、分析軸の選定に要する試行錯誤の削減及び分析者の能力に依存しない選定が可能となる。
【0053】
<実施の形態2>
次に、図12〜図14を用いて、本発明の実施の形態2について説明する。実施の形態2は、3つ以上のデータ項目の組を分析軸として提示する場合の形態である。なお、実施の形態2の基本的な構成は実施の形態1(図1等)と同様であり、処理内容が異なる。
【0054】
[予備分析(2)]
図12は、実施の形態2のデータ予備分析部302が図2の手順S130の予備分析などを実行する際の処理手順を示す。まず、分析対象データDのデータ項目数Mを抽出し、分析用設定ファイル303から閾値Th1,Th2(Th1<Th2)、及び分析軸データ項目数N(N≧3)を取得する(S501)。
【0055】
次に、N個のデータ項目m1(1≦m1≦M),……,mk(1≦mk≦M),……,mN(1≦mN≦M)(m1≠……≠mk≠……≠mN)の関連度R(m1,…,mk|m(k+1),…,mN)(1≦k≦N−1)を算出する(S502)。
【0056】
なお関連度の表記として、例えばデータ項目の組d1,…,diとd(i+1),…,dkの関連度の場合は“R(d1,…,di|d(i+1),…,dk)”、等としている。
【0057】
S503で、Th1<R(m1,…,mk|m(k+1),…,mN)<Th2、を満たす場合(Y)、m1〜mN番目のデータ項目の組{m1,……,mk,m(k+1),……,mN}を分析軸候補として出力し(S504)、上記を満たさない場合(N)、当該データ項目の組(同上)を分析軸候補としない(S505)。
【0058】
上記処理を分析対象データDの全てのデータ項目の組に対して実行する(全てのデータ項目を評価する)(S502〜S506)。
【0059】
[関連度算出(2)]
図13は、実施の形態2における関連度R(m1,…,mk|m(k+1),…,mN)を算出する手順S502の詳細な処理手順を示す。まず分析対象データDのレコード数Hを抽出し(S601)、h=1,Q=0,k=1,Lを空のリストとする(S602)。データ項目m1,m2,……,mNのh番目のデータの組{m1h,m2h,……,mNh}がリストLに含まれない場合(S603−Y)、リストLに当該データの組{m1h,m2h,……,mNh}を追加し、Q=Q+1とする(S604)。この処理をh≧Hとなるまで繰り返す(S603〜S606)。
【0060】
次に、データ項目m1,……,mNのq番目(1≦q≦Q)のデータm1q,……,mNqのk番目(1≦k≦N−1)の条件付確率P(m1q,……,mkq|m(k+1)q,……,mNq)=P(m1q∩……∩mNq)/P(m(k+1)q∩……∩mNq)を算出する(S607)。
【0061】
関連度R(m1,…,mk|m(k+1),…,mN)を、条件付確率P(m1q,……,mkq|m(k+1)q,……,mNq)の相加平均として算出する(S610)。また、R(m(k+1),…,mN|m1,…,mk)に関しても同様にP(m(k+1)q,……,mNq|m1q,……,mkq)の相加平均として算出する。上記の処理をk>Nまで繰り返す(S607〜S612)。
【0062】
分析軸候補とするかどうかの判断については、実施の形態1(図3)と同様に関連度と閾値の比較で行う。
【0063】
[分析軸活用例(2)]
図14は、実施の形態2における分析軸データ項目数N=3の場合の分析軸活用例を示す。予備分析前の状態は図8(a)と同様であり、予備分析後の状態を示す。このとき、関連度R(C|DE)がTh1<R(C|DE)<Th2を満たしているものとする。行及び列のデータ項目を指定する指針は、R(C|DE)の場合、条件付確率の条件を表す部分D,Eを行のデータ項目とし、Cを列のデータ項目とする、等が考えられる。この際、列のデータ項目がD,Eで、行のデータ項目がCであっても構わないが、行のデータ項目をC,Dとするなど、条件付確率の条件を表す部分D,EとCとを混在させることは望ましくない。
【0064】
上記の指針は、関連度の算出に条件付確率などのデータ項目を2つに分類できる基準を採用している場合に有効なものである。
【0065】
[効果等(2)]
以上のように、実施の形態2によれば、多次元データの3つ以上のデータ項目の組をデータの関連度を表す指標で評価し、望ましい分析結果が出る可能性が高い分析軸候補を抽出することにより、分析軸の選定に要する試行錯誤の削減及び分析者の能力に依存しない選定が可能となる。
【0066】
以上、本発明のデータ分析の分析軸推薦方法等を実施の形態に基づき具体的に説明したが、本発明では分析に有用な分析軸を推薦することが目的であるため、上述した方法に限らず有用な分析軸を抽出できる方法であればどのような方法でも適用可能である。
【0067】
本発明によれば、多次元データ分析における分析軸の選定のための推薦を含む、データ分析の効率的な支援が実現できる。
【産業上の利用可能性】
【0068】
本発明は、多次元データ分析システム、データ分析支援システム、OLAPツールなどに利用可能である。
【符号の説明】
【0069】
10…OLAPツール、11…関連度算出部、12…分析軸抽出部、13…分析軸推薦部、101…計算機システム、200…分析管理サブシステム、201…入力部、202…表示部、203…設定ファイル、300…予備分析サブシステム、301…データ抽出部、302…データ予備分析部、303…分析用設定ファイル、500…分析対象DB、600…予備分析結果DB。
【技術分野】
【0001】
本発明は、データ分析の情報処理技術に関し、特に、多次元データを対象としたデータ分析及び分析支援を実現する技術に関する。
【背景技術】
【0002】
データ分析を行う技術には様々なものがあり、先行技術例として以下が挙げられる。
【0003】
特開平6−89305号公報(特許文献1)では、データ項目の関連箇所を視覚的に明示し、相互に関連するデータ項目やプログラムの一括修正の自動化を行う。
【0004】
特開2000−39999号公報(特許文献2)では、データベースに格納された複数のデータ項目に基づいて、項目間の関係を特徴づけるIF−THENルールを生成する。
【0005】
特開2001−312573号公報(特許文献3)では、分析対象データを分析する際に、当該データと関連する幾つかのデータを用いることで、原因の解明や分析結果の裏付けを行う。
【0006】
特開2001−188796号公報(特許文献4)では、分析対象データに因子分析を適用し、因子ごとにデータ項目と因子負荷量の組合せを表示することで、データ分析結果をユーザが把握しやすい形式で表示する。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平6−89305号公報
【特許文献2】特開2000−39999号公報
【特許文献3】特開2001−312573号公報
【特許文献4】特開2001−188796号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
多次元データを分析する際には、入力の候補となるデータ項目が多いため、データ項目を様々に組合せながら望む分析を実施できる項目の組(以下、分析軸ともいう)を見つける。この作業は、OLAP(Online Analytical Processing)ツールを利用して行われることが一般的である。OLAPツールは、高速処理、可視化という面でこの作業を支援することが可能である。
【0009】
しかし、分析軸の選定のための試行錯誤は利用者(分析担当者)が行わなければならない。一般にデータ項目が増えるほどこの作業は重要かつ負担が増大する。例えばデータ項目数が50のデータから2つの分析軸を選択する場合、その組合せ数は2450通りあり、全てを試行することは難しい。これに関し、従来は、分析担当者の知識や経験で候補数を削減して分析軸を選定している。そのため、分析結果が分析担当者の能力に依存してしまうという問題がある。
【0010】
以上を鑑み、本発明の主な目的は、多次元データ分析の際における利用者(分析担当者)による分析対象とするデータ項目の組(分析軸)の選定に要する試行錯誤の削減及び分析担当者の能力に依存しない選定を可能とする技術を提供することである。
【課題を解決するための手段】
【0011】
本発明の代表的な形態は、計算処理能力を有する一つ以上の計算機及びネットワーク等で構成される計算機システムを用いて、多次元データ分析に係わる処理(分析支援などの処理)を行うデータ分析の分析軸推薦方法、システム、及びプログラム等であって、多次元データ分析の分析軸を推薦する処理を含む方法等であり、以下に示す構成を有することを特徴とする。
【0012】
本発明の方法及びシステム等では、多次元データのそれぞれのデータ項目間のデータの関連度を算出する第1の処理手順及び処理部と、前記多次元データのそれぞれのデータ項目間のデータの関連度に基づいて、分析対象に適するデータ項目の組を抽出する第2の処理手順及び処理部と、前記多次元データ分析の際、上記抽出したデータ項目の組を、分析者に対して推薦する分析軸として提示または出力する第3の処理手順及び処理部と、を有する。上記構成により、分析対象とするデータ項目の組(分析軸)の選定を支援する。
【発明の効果】
【0013】
本発明の代表的な形態によれば、多次元データ分析の際における利用者(分析担当者)による分析対象とするデータ項目の組(分析軸)の選定に要する試行錯誤の削減及び分析担当者の能力に依存しない選定が可能となる。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施の形態の方法(データ分析の分析軸推薦方法)及びシステムデータ分析の分析軸推薦システム)におけるシステム構成例を示す図である。
【図2】本実施の形態の方法及びシステムで、予備分析などを実行する際の全体の手順を示す図である。
【図3】本発明の実施の形態1の方法及びシステムにおける、データ予備分析部が図2の手順S130のデータ予備分析を実行する際の処理フロー図である。
【図4】実施の形態1で、関連度を算出する図3の手順S202の詳細な処理フロー図である。
【図5】本実施の形態の方法及びシステムで、分析対象DBに格納される分析対象データの構造及びデータ例を示す図である。
【図6】実施の形態1で、予備分析の関連度算出結果の例を示す図である。
【図7】実施の形態1で、予備分析の分析軸候補の例を示す図である。
【図8】(a),(b)は、実施の形態1の方法及びシステムで、分析候補の活用例を示す図であり、(a)は予備分析前、(b)は予備分析後の画面表示例を示す。
【図9】本実施の形態の方法及びシステムで、一般的なOLAPツールに予備分析機能を加えた使用例を示す処理フロー図である。
【図10】本実施の形態の方法及びシステムで、設定ファイルの例を示す図である。
【図11】本実施の形態の方法及びシステムで、分析用設定ファイルの例を示す図である。
【図12】本発明の実施の形態2の方法及びシステムにおける、データ予備分析部が図2の手順S130のデータ予備分析を実行する際の処理フロー図である。
【図13】実施の形態2で、関連度を算出する図12の手順S502の詳細な処理フロー図である。
【図14】実施の形態2で、分析軸データ項目数N=3の場合の分析軸活用例を示す図であり、予備分析後の画面表示例を示す。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一符号を付し、その繰り返しの説明は省略する。なお、多次元データである複数のデータ項目のうちi番目のデータ項目をデータ項目i、といったように同じ記号で表すものとする。
【0016】
図1等に示される本実施の形態のデータ分析の分析軸推薦方法、システム、及びプログラムは、多次元データ分析の際に分析者に対して多次元データ分析の分析軸を推薦する処理機能(11〜13等による)を備える。
【0017】
<実施の形態1>
図1〜図11を用いて、本発明の実施の形態1の方法及びシステムについて説明する。実施の形態1は、多次元データにおける2つのデータ項目の組を分析軸として提示する場合の形態である。
【0018】
[システム構成]
図1は、本システムの基本構成を示している。本システムは、計算機システム101上に構成されている。計算機システム101は、中央演算処理装置などの計算処理能力を有する一つ以上の計算機及びネットワークで構成される。計算機システム101上には、分析管理サブシステム200、予備分析サブシステム300、分析対象DB500、及び予備分析結果DB600、等が配置されており、図1ではこれら相互の関係を模式的に示している。
【0019】
計算機システム101の具体例としては、プロセッサ、メモリ、バス、通信インタフェース部、キーボード、ディスプレイなどを備える構成の一般的なPC等の計算機においてソフトウェアプログラム(本実施の形態のプログラム)を実行することにより、各処理機能・サブシステム等を実現する。利用者は例えば計算機システム101に対してキーボード等によりデータ情報を入力し、ディスプレイの画面に表示された情報を閲覧することにより、データ分析作業が可能である。計算機システム101は、例えば、ネットワーク上で複数の計算機が接続される構成でもよい。例えば、各サブシステム(200,300)が計算機で実現されネットワークで接続される構成である。利用者は各計算機または当該計算機に接続される端末から当該計算機の処理機能を利用する。また例えば、各サブシステム(200,300)がサーバで実現されネットワークで接続される構成である。利用者は端末からネットワークを介してサーバ(例えば分析管理サブシステム200)によるサービスにアクセスして利用する。また各種データ(500等)については、メモリやディスク、あるいはネットワークのDBサーバなどに格納される。
【0020】
分析管理サブシステム200は、入力部201、表示部202、設定ファイル203、OLAPツール10などを有する。特にOLAPツール10による画面で利用者(分析者)に対して多次元データ分析支援情報を提示する(後述)。
【0021】
分析管理サブシステム200は、入力部201を介して得た利用者からの要求に応じて、必要なデータを分析対象DB500から抽出し、予備分析サブシステム300にデータ予備分析要求を送信し、表示部202に予備分析結果を表示する処理などを行う。
【0022】
予備分析サブシステム300は、予備分析処理などを行う。予備分析とは、分析対象データから分析に適したデータ項目(分析軸)を抽出する分析を意味する。予備分析サブシステム300は、データ抽出部301、データ予備分析部302、分析用設定ファイル303などを有する。データ抽出部301は、分析対象DB500から分析対象データ(D)を抽出する機能を有する。データ予備分析部302は、特徴的な予備分析機能(多次元データ分析の分析軸を推薦する処理機能)を有する。データ予備分析部302の予備分析機能を構成する処理部として、関連度算出部11、分析軸抽出部12、分析軸推薦部13などを有する。なお例えば分析軸推薦部13が分析管理サブシステム200内にあってもよい。
【0023】
関連度算出部11は、多次元データのそれぞれのデータ項目間のデータの関連度(後述)を算出する処理を行う。分析軸抽出部12は、関連度算出部11により算出した、多次元データのそれぞれのデータ項目間のデータの関連度に基づいて、分析対象に適するデータ項目の組を抽出する処理を行う。分析軸推薦部13は、OLAPツール10を用いた多次元データ分析の際、上記分析軸抽出部12により抽出したデータ項目の組を、分析者に対して推薦する分析軸として提示または出力する処理を行う。各部(11〜13)の処理詳細は後述する。
【0024】
上記システム構成により、利用者(分析者)による多次元データ分析の際に、分析対象とするデータ項目の組(分析軸)の選定を支援する。即ち、分析対象とするデータ項目の組(分析軸)の選定に要する試行錯誤の削減及び分析者の能力に依存しない選定を可能とする。
【0025】
[データ情報]
分析対象DB500は、予備分析サブシステム300のデータ抽出部301が参照する複数の分析対象データ(D)が格納されているDB(データベース)である。
【0026】
図5は、分析対象データ(D)の例を示す。複数のデータ項目A〜Gがあり、各レコード(行)において各データ項目のデータ値を有する。
【0027】
予備分析結果DB600は、予備分析サブシステム300のデータ予備分析部302が実行する予備分析の結果情報を格納するDBである。
【0028】
図6は、予備分析の結果情報の例である、関連度R(m1|m2)(後述)の算出結果の例を示す。図5の分析対象データ(D)に関する異なる2つのデータ項目の組のすべてについて関連度の値を有する。
【0029】
図7は、予備分析の結果情報の例である、予備分析の分析軸候補の例を示す。例えば、閾値Th01=0.6,Th2=0.8の場合、図示する網掛け部分が分析軸候補のデータ項目を示す。
【0030】
図10は設定ファイル203の例を示す。設定ファイル203には、利用者の権限、予備分析サブシステム300のIPアドレス、通信方式、分析対象DB500のIPアドレス、ユーザID、パスワード、通信方式など、予備分析結果DB600のIPアドレス、ユーザID、パスワード、通信方式などの情報が記載されている。
【0031】
図11は分析用設定ファイル303の例を示す。分析用設定ファイル303には、分析管理サブシステム200のIPアドレス、予備分析で用いる閾値(Th1,Th2)(後述)などの情報が記載されている。
【0032】
なお、計算機システム101の各部(200,300,500,600)間の通信には、上記設定ファイル203等に記載のIPアドレス、ユーザID、パスワード、及び通信方式などを用いる。
【0033】
[予備分析]
図2は、計算機システム101において予備分析などを実行する際のシステム全体の手順を示している。S101等は手順を表す。以下、前述の各データ情報(図5〜図7,図10,図11等)の例と対応している。
【0034】
分析管理サブシステム200は、入力部201を介して、利用者のデータ抽出要求(S101)を、予備分析サブシステム300のデータ抽出部301に送付する。データ抽出要求(S101)を受けたデータ抽出部301は、分析対象DB500から分析対象データ候補を抽出して表示部202に返戻し、表示部202において当該データを表示する(S102〜S104)。
【0035】
利用者は、入力部201を介して分析対象データ(D)を選択し(S110)、データ予備分析要求及び選択した分析対象データ(D)を、分析管理サブシステム200から予備分析サブシステム300へ送付する(S111)。データ予備分析部302は、当該要求及び分析対象データ(D)を受け取ると、当該分析対象データ(D)がすでに予備分析されていないかどうかを予備分析結果DB600に対して問い合わせる(S112〜S114)。予備分析結果DB600では、当該問い合わせに対し検索し(S113)、結果を返戻する(S114)。
【0036】
上記問合せの結果、データ予備分析部302は、すでに当該分析対象データ(D)が予備分析されている場合(検索結果が空ではない場合)は、S113で抽出された予備分析結果を、表示部202に返戻(S120)して表示部202で表示(S121)させ、終了する。また、まだ予備分析されていない場合(検索結果が空の場合)は、データ予備分析部302は、当該分析対象データ(D)に対する予備分析を実行し(S130)、当該予備分析結果を、表示部202に返戻(S131)して表示部202で表示(S132)させると共に、予備分析結果DB600に登録要求(S133)して登録(S134)する。
【0037】
分析対象データ(D)候補が複数存在する場合、利用者が選択した一つの分析対象データ(D)に対して予備分析を行うか、または、全ての分析対象データ(D)候補に対して予備分析を行う。図2の手順S110〜S134では、一つの分析対象データ(D)に対して予備分析を行う手順について記載しているが、全ての分析対象データ(D)候補に対して予備分析を行う場合には、S110〜S134の手順を分析対象データ(D)候補の数分繰り返せばよい。
【0038】
[データ予備分析]
図3は、データ予備分析部302が図2の手順S130の予備分析を実行する際の処理手順を示す。まず、分析対象データDのデータ項目数Mを抽出し、分析用設定ファイル303から閾値Th1,Th2(Th1<Th2)を取得する(S201)。
【0039】
次に、2つのデータ項目(データ項目の組)である、m1番目のデータ項目m1(1≦m1≦M)とm2番目のデータ項目m2(1≦m2≦M)(m1≠m2)とにおける関連度R(m1|m2)を算出する(S202)。
【0040】
上記関連度R(m1|m2)が、Th1<R(m1|m2)<Th2である場合(S203−Y)、当該データ項目の組{m1,m2}を、分析軸候補として出力し(S204)、また、Th1<R(m1|m2)<Th2ではない場合(S203−N)、当該データ項目の組{m1,m2}を分析軸候補としない(S205)。
【0041】
上記処理を分析対象データDにおける全てのデータ項目の組に対して実行する(S202〜S206)。
【0042】
[関連度算出]
図4は、上記関連度R(m1|m2)を算出する手順S202の詳細な処理手順を示す。まず、分析対象データDのレコード数Hを抽出し(S301)、h=1,Q=0,Lを空のリストとする(S302)。データ項目m1,m2のh番目のデータの組{m1h,m2h}がリストLに含まれない場合(S303−Y)、リストLに、当該データの組{m1h,m2h}を追加し、Q=Q+1とする(S304)。この処理を、h≧Hとなるまで繰り返す(S301〜S305)。
【0043】
次に、データ項目m1,m2のq番目(1≦q≦Q)のデータm1q,m2qの条件付確率P(m1q|m2q)=P(m1q∩m2q)/P(m2q)を算出する(S307〜S309)。なお、P(A|B)は条件付確率、P(A∩B)は同時確率、P(A)は周辺確率を表す(一般的な条件付確率の定義による)。
【0044】
最後に、関連度R(m1|m2)を条件付確率P(m1q|m2q)の相加平均として算出する(S310)。
【0045】
また、R(m1|m2)と同様に、R(m2|m1)に関しても、P(m2q|m1q)の相加平均として算出する。
【0046】
上記S307〜S309の処理では、データの関連度(R)を算出する式(手法)として、関連度R(m1|m2),R(m2|m1)を条件付確率の相加平均としているが、これに限らなくてもよい。例えば、データ項目値の共起頻度を関連度とする場合は、同時確率を関連度とし、同時確率や条件付確率のばらつき具合を関連度とする場合には、同時確率や条件付確率の分散や変動係数を算出する式を関連度とする。あるいは、同じm2qの値に対するm1qの頻度のばらつきをエントロピで表したものを、すべてのm2qの値の種類で平均したものも考えられる。このように目的に応じて関連度を算出する式を変更しても構わない。
【0047】
[分析軸候補の活用例]
図8は、分析軸候補の活用例を示す。前記OLAPツール10を用いて画面に情報を表示する。
【0048】
図8(a)は、分析前のOLAPツール10の様子である。OLAPツール10では、2つ以上のデータ項目を指定し(利用者が列・行のデータ項目を選択可能)、その関係を画面で可視化することで、指定したデータ項目の組の特徴を抽出する。
【0049】
図8(b)は、予備分析後のOLAPツール10の様子である。データ項目リスト中で、予備分析結果の分析軸候補が例えば色分け等により強調表示される。利用者は所望の分析軸候補を選択するだけで、試行錯誤なく分析(当該分析軸を用いた分析)を開始することができる。
【0050】
[使用例]
図9の処理フローには、一般的なOLAPツール10に予備分析機能を加えた使用例における処理手順を示す。まず図8の「データ項目リスト」に、使用できるデータ項目一覧を表示する(S401)。次に、予備分析結果の分析軸候補に含まれるデータ項目の組を色分けする(S402)。この一覧から、利用者により、図8の「行のデータ項目」「列のデータ項目」を選択する(S402)。「行のデータ項目」は縦軸方向のデータ、「列のデータ項目」は横軸方向のデータである。選択した「行のデータ項目」と「列のデータ項目」の関係を図8の「データ表示部分」(セル)に表示する(S403)。望ましい結果が得られた場合、利用者は分析を終了する。望ましい結果が得られない場合、利用者は次の組合せを試すことができる(S403〜S406)。
【0051】
上記S402では色分けによって強調表示しているが、これに限らず、分析軸候補が点滅する、分析軸候補をリスト表示する等、利用者にとってわかりやすい表示方法であればどのような方法でも構わない。
【0052】
[効果等]
以上のように、実施の形態1によれば、多次元データのデータ項目の組をデータの関連度を表す指標で評価し、望ましい分析結果が出る可能性が高い分析軸候補を抽出することにより、分析軸の選定に要する試行錯誤の削減及び分析者の能力に依存しない選定が可能となる。
【0053】
<実施の形態2>
次に、図12〜図14を用いて、本発明の実施の形態2について説明する。実施の形態2は、3つ以上のデータ項目の組を分析軸として提示する場合の形態である。なお、実施の形態2の基本的な構成は実施の形態1(図1等)と同様であり、処理内容が異なる。
【0054】
[予備分析(2)]
図12は、実施の形態2のデータ予備分析部302が図2の手順S130の予備分析などを実行する際の処理手順を示す。まず、分析対象データDのデータ項目数Mを抽出し、分析用設定ファイル303から閾値Th1,Th2(Th1<Th2)、及び分析軸データ項目数N(N≧3)を取得する(S501)。
【0055】
次に、N個のデータ項目m1(1≦m1≦M),……,mk(1≦mk≦M),……,mN(1≦mN≦M)(m1≠……≠mk≠……≠mN)の関連度R(m1,…,mk|m(k+1),…,mN)(1≦k≦N−1)を算出する(S502)。
【0056】
なお関連度の表記として、例えばデータ項目の組d1,…,diとd(i+1),…,dkの関連度の場合は“R(d1,…,di|d(i+1),…,dk)”、等としている。
【0057】
S503で、Th1<R(m1,…,mk|m(k+1),…,mN)<Th2、を満たす場合(Y)、m1〜mN番目のデータ項目の組{m1,……,mk,m(k+1),……,mN}を分析軸候補として出力し(S504)、上記を満たさない場合(N)、当該データ項目の組(同上)を分析軸候補としない(S505)。
【0058】
上記処理を分析対象データDの全てのデータ項目の組に対して実行する(全てのデータ項目を評価する)(S502〜S506)。
【0059】
[関連度算出(2)]
図13は、実施の形態2における関連度R(m1,…,mk|m(k+1),…,mN)を算出する手順S502の詳細な処理手順を示す。まず分析対象データDのレコード数Hを抽出し(S601)、h=1,Q=0,k=1,Lを空のリストとする(S602)。データ項目m1,m2,……,mNのh番目のデータの組{m1h,m2h,……,mNh}がリストLに含まれない場合(S603−Y)、リストLに当該データの組{m1h,m2h,……,mNh}を追加し、Q=Q+1とする(S604)。この処理をh≧Hとなるまで繰り返す(S603〜S606)。
【0060】
次に、データ項目m1,……,mNのq番目(1≦q≦Q)のデータm1q,……,mNqのk番目(1≦k≦N−1)の条件付確率P(m1q,……,mkq|m(k+1)q,……,mNq)=P(m1q∩……∩mNq)/P(m(k+1)q∩……∩mNq)を算出する(S607)。
【0061】
関連度R(m1,…,mk|m(k+1),…,mN)を、条件付確率P(m1q,……,mkq|m(k+1)q,……,mNq)の相加平均として算出する(S610)。また、R(m(k+1),…,mN|m1,…,mk)に関しても同様にP(m(k+1)q,……,mNq|m1q,……,mkq)の相加平均として算出する。上記の処理をk>Nまで繰り返す(S607〜S612)。
【0062】
分析軸候補とするかどうかの判断については、実施の形態1(図3)と同様に関連度と閾値の比較で行う。
【0063】
[分析軸活用例(2)]
図14は、実施の形態2における分析軸データ項目数N=3の場合の分析軸活用例を示す。予備分析前の状態は図8(a)と同様であり、予備分析後の状態を示す。このとき、関連度R(C|DE)がTh1<R(C|DE)<Th2を満たしているものとする。行及び列のデータ項目を指定する指針は、R(C|DE)の場合、条件付確率の条件を表す部分D,Eを行のデータ項目とし、Cを列のデータ項目とする、等が考えられる。この際、列のデータ項目がD,Eで、行のデータ項目がCであっても構わないが、行のデータ項目をC,Dとするなど、条件付確率の条件を表す部分D,EとCとを混在させることは望ましくない。
【0064】
上記の指針は、関連度の算出に条件付確率などのデータ項目を2つに分類できる基準を採用している場合に有効なものである。
【0065】
[効果等(2)]
以上のように、実施の形態2によれば、多次元データの3つ以上のデータ項目の組をデータの関連度を表す指標で評価し、望ましい分析結果が出る可能性が高い分析軸候補を抽出することにより、分析軸の選定に要する試行錯誤の削減及び分析者の能力に依存しない選定が可能となる。
【0066】
以上、本発明のデータ分析の分析軸推薦方法等を実施の形態に基づき具体的に説明したが、本発明では分析に有用な分析軸を推薦することが目的であるため、上述した方法に限らず有用な分析軸を抽出できる方法であればどのような方法でも適用可能である。
【0067】
本発明によれば、多次元データ分析における分析軸の選定のための推薦を含む、データ分析の効率的な支援が実現できる。
【産業上の利用可能性】
【0068】
本発明は、多次元データ分析システム、データ分析支援システム、OLAPツールなどに利用可能である。
【符号の説明】
【0069】
10…OLAPツール、11…関連度算出部、12…分析軸抽出部、13…分析軸推薦部、101…計算機システム、200…分析管理サブシステム、201…入力部、202…表示部、203…設定ファイル、300…予備分析サブシステム、301…データ抽出部、302…データ予備分析部、303…分析用設定ファイル、500…分析対象DB、600…予備分析結果DB。
【特許請求の範囲】
【請求項1】
計算機システムを用いて、多次元データ分析に係わる処理を行う方法であって、
前記多次元データ分析の分析軸を推薦する処理を含む方法であり、
多次元データのそれぞれのデータ項目間のデータの関連度を算出する第1の処理手順と、
前記多次元データのそれぞれのデータ項目間のデータの関連度に基づいて、分析対象に適するデータ項目の組を抽出する第2の処理手順と、
前記多次元データ分析の際、上記抽出したデータ項目の組を、分析者に対して推薦する分析軸の候補として提示または出力する第3の処理手順と、を有し、
上記構成により、分析対象とするデータ項目の組の選定を支援することを特徴とするデータ分析の分析軸推薦方法。
【請求項2】
請求項1記載のデータ分析の分析軸推薦方法において、
前記第1、第2、第3の処理手順を含む予備分析の処理において、
(1)分析対象データDのデータ項目数Mを抽出し、分析用設定ファイルから閾値Th1,Th2(Th1<Th2)を取得する処理手順と、
(2)第1のデータ項目m1(1≦m1≦M)と第2のデータ項目m2(1≦m2≦M)(m1≠m2)との関連度R(m1|m2)を算出する処理手順と、
(3)上記関連度R(m1|m2)が、Th1<R(m1|m2)<Th2である場合、当該第1、第2のデータ項目の組{m1,m2}を前記分析軸の候補にし、Th1<R(m1|m2)<Th2ではない場合、当該第1、第2のデータ項目の組{m1,m2}を前記分析軸の候補にしないようにする処理手順と、
上記(1)〜(3)の処理手順を前記分析対象データDの全てのデータ項目の組に対して実行する処理手順と、を有することを特徴とするデータ分析の分析軸推薦方法。
【請求項3】
請求項1記載のデータ分析の分析軸推薦方法において、
前記第3の処理手順では、前記分析者に対して前記多次元データである複数のデータ項目の関係を画面で表示するOLAPツールの画面に前記分析軸の候補の情報を表示して、当該分析軸の候補から前記分析者による選択により当該分析軸を用いたデータ分析を開始可能とし、
前記OLAPツールの画面のデータ項目リストに前記複数のデータ項目の一覧を表示する処理手順と、
上記リスト中で前記分析軸の候補であるデータ項目の組を強調表示する処理手順と、
上記リストから前記分析者により行及び列のデータ項目を選択可能とする処理手順と、
上記選択された行・列のデータ項目を縦軸・横軸にして交差するセルに、当該行・列のデータ項目の組の関係を示す値を表示する処理手順と、を有することを特徴とするデータ分析の分析軸推薦方法。
【請求項4】
請求項2記載のデータ分析の分析軸推薦方法において、
前記第1の処理手順では、前記第1、第2のデータ項目m1,m2の各q番目のデータm1q,m2qの条件付確率Pを算出し、当該条件付確率Pの全qでの相加平均を算出することにより、前記関連度R(m1|m2)を算出すること、を特徴とするデータ分析の分析軸推薦方法。
【請求項5】
請求項1記載のデータ分析の分析軸推薦方法において、
前記多次元データにおける3つ以上のデータ項目の組を前記分析軸として推薦する方法であり、
前記第1、第2、第3の処理手順を含む予備分析の処理において、
(1)分析対象データDのデータ項目数Mを抽出し、分析用設定ファイルから閾値Th1,Th2(Th1<Th2)、及び分析軸データ項目数N(N≧3)を取得する処理手順と、
(2)N個のデータ項目m1(1≦m1≦M),……,mN(1≦mN≦M)(m1≠……≠mN)の関連度R(m1,…,mk|m(k+1),…,mN)(1≦k≦N−1)を算出する処理手順と、
(3)上記関連度が、Th1<R(m1,…,mk|m(k+1),…,mN)<Th2である場合、当該データ項目の組{m1,……,mk,m(k+1),……,mN}を前記分析軸の候補にし、Th1<R(m1,…,mk|m(k+1),…,mN)<Th2ではない場合、当該データ項目の組{m1,……,mk,m(k+1),……,mN}を前記分析軸の候補にしないようにする処理手順と、
上記(1)〜(3)の処理手順を前記分析対象データDの全てのデータ項目の組に対して実行する処理手順と、を有することを特徴とするデータ分析の分析軸推薦方法。
【請求項6】
請求項5記載のデータ分析の分析軸推薦方法において、
前記第3の処理手順では、前記分析者に対して前記多次元データである複数のデータ項目の関係を画面で表示するOLAPツールの画面に前記分析軸の候補の情報を表示して、当該分析軸の候補から前記分析者による選択により当該分析軸を用いたデータ分析を開始可能とし、
前記OLAPツールの画面のデータ項目リストに前記複数のデータ項目の一覧を表示する処理手順と、
上記リスト中で前記分析軸の候補である3つ以上のデータ項目の組を強調表示する処理手順と、
上記リストから前記分析者により行及び列とする3つ以上のデータ項目を選択可能とする処理手順と、
上記選択された行とする1つ以上の各データ項目を縦軸、列とする1つ以上の各データ項目を横軸にして、交差するセルに、当該行・列の3つ以上のデータ項目の組の関係を示す値を表示する処理手順と、を有することを特徴とするデータ分析の分析軸推薦方法。
【請求項7】
請求項5記載のデータ分析の分析軸推薦方法において、
前記第1の処理手順では、前記複数(N)のデータ項目m1〜mNの各q番目のデータm1q〜mNqのk番目までの条件付確率Pを算出し、当該k番目までの条件付確率Pの全qでの相加平均を算出することにより当該k番目までのデータに関する前記関連度を算出し、同様に上記kを変えて各k番目までのデータに関する前記関連度を算出すること、を特徴とするデータ分析の分析軸推薦方法。
【請求項8】
計算機システムを用いて、多次元データ分析に係わる処理を行うシステムであって、
前記多次元データ分析の分析軸を推薦する処理機能を含むデータ予備分析部を有し、
前記データ予備分析部は、
多次元データのそれぞれのデータ項目間のデータの関連度を算出する第1の処理部と、
前記多次元データのそれぞれのデータ項目間のデータの関連度に基づいて、分析対象に適するデータ項目の組を抽出する第2の処理部と、
前記多次元データ分析の際、上記抽出したデータ項目の組を、分析者に対して推薦する分析軸の候補として提示または出力する第3の処理部と、を有し、
上記構成により、分析対象とするデータ項目の組の選定を支援することを特徴とするデータ分析の分析軸推薦システム。
【請求項9】
請求項8記載のデータ分析の分析軸推薦システムにおいて、
前記データ予備分析部は、
(1)分析対象データDのデータ項目数Mを抽出し、分析用設定ファイルから閾値Th1,Th2(Th1<Th2)を取得する処理と、
(2)第1のデータ項目m1(1≦m1≦M)と第2のデータ項目m2(1≦m2≦M)(m1≠m2)との関連度R(m1|m2)を算出する処理と、
(3)上記関連度R(m1|m2)が、Th1<R(m1|m2)<Th2である場合、当該第1、第2のデータ項目の組{m1,m2}を前記分析軸の候補にし、Th1<R(m1|m2)<Th2ではない場合、当該第1、第2のデータ項目の組{m1,m2}を前記分析軸の候補にしないようにする処理と、
上記(1)〜(3)の処理を前記分析対象データDの全てのデータ項目の組に対して実行する処理と、を行うことを特徴とするデータ分析の分析軸推薦システム。
【請求項10】
請求項8記載のデータ分析の分析軸推薦システムにおいて、
前記分析者に対して前記多次元データである複数のデータ項目の関係を画面で表示するOLAPツールを有し、
前記第3の処理部による前記分析軸の候補を提示または出力する処理では、前記OLAPツールの画面に前記分析軸の候補の情報を表示して、当該分析軸の候補から前記分析者による選択により当該分析軸を用いたデータ分析を開始可能とし、
前記OLAPツールの画面のデータ項目リストに前記複数のデータ項目の一覧を表示する処理と、
上記リスト中で前記分析軸の候補であるデータ項目の組を強調表示する処理と、
上記リストから前記分析者により行及び列のデータ項目を選択可能とする処理と、
上記選択された行・列のデータ項目を縦軸・横軸にして交差するセルに、当該行・列のデータ項目の組の関係を示す値を表示する処理と、を行うことを特徴とするデータ分析の分析軸推薦システム。
【請求項11】
請求項8記載のデータ分析の分析軸推薦システムにおいて、
前記分析者に対するデータ情報の入出力処理を行う分析管理サブシステムと、
前記分析管理システムからの要求に応じて前記データ予備分析部による予備分析の処理を行う予備分析サブシステムと、
前記多次元データである分析対象データまたはその候補データを格納する分析対象データベースと、
前記予備分析の結果情報を格納する予備分析データベースと、を有し、
前記分析管理サブシステムにおいて、前記分析対象データベースから分析対象データ候補を抽出して前記分析者により分析対象データを選択する処理と、
前記分析管理サブシステムから前記予備分析サブシステムへ上記分析対象データに対する予備分析を要求し、前記予備分析サブシステムは、前記予備分析結果データベースから該当の予備分析結果情報がある場合は取得して前記分析者に対して出力し、無い場合は、上記分析対象データに対する予備分析の処理を実行し、当該予備分析結果情報を分析者に対して出力すると共に前記予備分析結果データベースに格納する処理と、を行うことを特徴とするデータ分析の分析軸推薦システム。
【請求項12】
計算機システムを用いて、多次元データ分析に係わる処理を実行させるプログラムであって、
前記多次元データ分析の分析軸を推薦する処理機能を実現するプログラムを含み、
多次元データのそれぞれのデータ項目間のデータの関連度を算出する第1の処理と、
前記多次元データのそれぞれのデータ項目間のデータの関連度に基づいて、分析対象に適するデータ項目の組を抽出する第2の処理と、
前記多次元データ分析の際、上記抽出したデータ項目の組を、分析者に対して推薦する分析軸の候補として提示または出力する第3の処理と、を実行させ、
上記構成により、分析対象とするデータ項目の組の選定を支援することを特徴とするデータ分析の分析軸推薦プログラム。
【請求項13】
請求項12記載のデータ分析の分析軸推薦プログラムにおいて、
(1)分析対象データDのデータ項目数Mを抽出し、分析用設定ファイルから閾値Th1,Th2(Th1<Th2)を取得する処理と、
(2)第1のデータ項目m1(1≦m1≦M)と第2のデータ項目m2(1≦m2≦M)(m1≠m2)との関連度R(m1|m2)を算出する処理と、
(3)上記関連度R(m1|m2)が、Th1<R(m1|m2)<Th2である場合、当該第1、第2のデータ項目の組{m1,m2}を前記分析軸の候補にし、Th1<R(m1|m2)<Th2ではない場合、当該第1、第2のデータ項目の組{m1,m2}を前記分析軸の候補にしないようにする処理と、
上記(1)〜(3)の処理を前記分析対象データDの全てのデータ項目の組に対して実行する処理と、を実行させることを特徴とするデータ分析の分析軸推薦プログラム。
【請求項14】
請求項12記載のデータ分析の分析軸推薦プログラムにおいて、
前記第3の処理による前記分析軸の候補を提示または出力する処理では、前記分析者に対して前記多次元データである複数のデータ項目の関係を画面で表示するOLAPツールの画面に前記分析軸の候補の情報を表示して、当該分析軸の候補から前記分析者による選択により当該分析軸を用いたデータ分析を開始可能とし、
前記OLAPツールの画面のデータ項目リストに前記複数のデータ項目の一覧を表示する処理と、
上記リスト中で前記分析軸の候補であるデータ項目の組を強調表示する処理と、
上記リストから前記分析者により行及び列のデータ項目を選択可能とする処理と、
上記選択された行・列のデータ項目を縦軸・横軸にして交差するセルに、当該行・列のデータ項目の組の関係を示す値を表示する処理と、を実行させることを特徴とするデータ分析の分析軸推薦プログラム。
【請求項1】
計算機システムを用いて、多次元データ分析に係わる処理を行う方法であって、
前記多次元データ分析の分析軸を推薦する処理を含む方法であり、
多次元データのそれぞれのデータ項目間のデータの関連度を算出する第1の処理手順と、
前記多次元データのそれぞれのデータ項目間のデータの関連度に基づいて、分析対象に適するデータ項目の組を抽出する第2の処理手順と、
前記多次元データ分析の際、上記抽出したデータ項目の組を、分析者に対して推薦する分析軸の候補として提示または出力する第3の処理手順と、を有し、
上記構成により、分析対象とするデータ項目の組の選定を支援することを特徴とするデータ分析の分析軸推薦方法。
【請求項2】
請求項1記載のデータ分析の分析軸推薦方法において、
前記第1、第2、第3の処理手順を含む予備分析の処理において、
(1)分析対象データDのデータ項目数Mを抽出し、分析用設定ファイルから閾値Th1,Th2(Th1<Th2)を取得する処理手順と、
(2)第1のデータ項目m1(1≦m1≦M)と第2のデータ項目m2(1≦m2≦M)(m1≠m2)との関連度R(m1|m2)を算出する処理手順と、
(3)上記関連度R(m1|m2)が、Th1<R(m1|m2)<Th2である場合、当該第1、第2のデータ項目の組{m1,m2}を前記分析軸の候補にし、Th1<R(m1|m2)<Th2ではない場合、当該第1、第2のデータ項目の組{m1,m2}を前記分析軸の候補にしないようにする処理手順と、
上記(1)〜(3)の処理手順を前記分析対象データDの全てのデータ項目の組に対して実行する処理手順と、を有することを特徴とするデータ分析の分析軸推薦方法。
【請求項3】
請求項1記載のデータ分析の分析軸推薦方法において、
前記第3の処理手順では、前記分析者に対して前記多次元データである複数のデータ項目の関係を画面で表示するOLAPツールの画面に前記分析軸の候補の情報を表示して、当該分析軸の候補から前記分析者による選択により当該分析軸を用いたデータ分析を開始可能とし、
前記OLAPツールの画面のデータ項目リストに前記複数のデータ項目の一覧を表示する処理手順と、
上記リスト中で前記分析軸の候補であるデータ項目の組を強調表示する処理手順と、
上記リストから前記分析者により行及び列のデータ項目を選択可能とする処理手順と、
上記選択された行・列のデータ項目を縦軸・横軸にして交差するセルに、当該行・列のデータ項目の組の関係を示す値を表示する処理手順と、を有することを特徴とするデータ分析の分析軸推薦方法。
【請求項4】
請求項2記載のデータ分析の分析軸推薦方法において、
前記第1の処理手順では、前記第1、第2のデータ項目m1,m2の各q番目のデータm1q,m2qの条件付確率Pを算出し、当該条件付確率Pの全qでの相加平均を算出することにより、前記関連度R(m1|m2)を算出すること、を特徴とするデータ分析の分析軸推薦方法。
【請求項5】
請求項1記載のデータ分析の分析軸推薦方法において、
前記多次元データにおける3つ以上のデータ項目の組を前記分析軸として推薦する方法であり、
前記第1、第2、第3の処理手順を含む予備分析の処理において、
(1)分析対象データDのデータ項目数Mを抽出し、分析用設定ファイルから閾値Th1,Th2(Th1<Th2)、及び分析軸データ項目数N(N≧3)を取得する処理手順と、
(2)N個のデータ項目m1(1≦m1≦M),……,mN(1≦mN≦M)(m1≠……≠mN)の関連度R(m1,…,mk|m(k+1),…,mN)(1≦k≦N−1)を算出する処理手順と、
(3)上記関連度が、Th1<R(m1,…,mk|m(k+1),…,mN)<Th2である場合、当該データ項目の組{m1,……,mk,m(k+1),……,mN}を前記分析軸の候補にし、Th1<R(m1,…,mk|m(k+1),…,mN)<Th2ではない場合、当該データ項目の組{m1,……,mk,m(k+1),……,mN}を前記分析軸の候補にしないようにする処理手順と、
上記(1)〜(3)の処理手順を前記分析対象データDの全てのデータ項目の組に対して実行する処理手順と、を有することを特徴とするデータ分析の分析軸推薦方法。
【請求項6】
請求項5記載のデータ分析の分析軸推薦方法において、
前記第3の処理手順では、前記分析者に対して前記多次元データである複数のデータ項目の関係を画面で表示するOLAPツールの画面に前記分析軸の候補の情報を表示して、当該分析軸の候補から前記分析者による選択により当該分析軸を用いたデータ分析を開始可能とし、
前記OLAPツールの画面のデータ項目リストに前記複数のデータ項目の一覧を表示する処理手順と、
上記リスト中で前記分析軸の候補である3つ以上のデータ項目の組を強調表示する処理手順と、
上記リストから前記分析者により行及び列とする3つ以上のデータ項目を選択可能とする処理手順と、
上記選択された行とする1つ以上の各データ項目を縦軸、列とする1つ以上の各データ項目を横軸にして、交差するセルに、当該行・列の3つ以上のデータ項目の組の関係を示す値を表示する処理手順と、を有することを特徴とするデータ分析の分析軸推薦方法。
【請求項7】
請求項5記載のデータ分析の分析軸推薦方法において、
前記第1の処理手順では、前記複数(N)のデータ項目m1〜mNの各q番目のデータm1q〜mNqのk番目までの条件付確率Pを算出し、当該k番目までの条件付確率Pの全qでの相加平均を算出することにより当該k番目までのデータに関する前記関連度を算出し、同様に上記kを変えて各k番目までのデータに関する前記関連度を算出すること、を特徴とするデータ分析の分析軸推薦方法。
【請求項8】
計算機システムを用いて、多次元データ分析に係わる処理を行うシステムであって、
前記多次元データ分析の分析軸を推薦する処理機能を含むデータ予備分析部を有し、
前記データ予備分析部は、
多次元データのそれぞれのデータ項目間のデータの関連度を算出する第1の処理部と、
前記多次元データのそれぞれのデータ項目間のデータの関連度に基づいて、分析対象に適するデータ項目の組を抽出する第2の処理部と、
前記多次元データ分析の際、上記抽出したデータ項目の組を、分析者に対して推薦する分析軸の候補として提示または出力する第3の処理部と、を有し、
上記構成により、分析対象とするデータ項目の組の選定を支援することを特徴とするデータ分析の分析軸推薦システム。
【請求項9】
請求項8記載のデータ分析の分析軸推薦システムにおいて、
前記データ予備分析部は、
(1)分析対象データDのデータ項目数Mを抽出し、分析用設定ファイルから閾値Th1,Th2(Th1<Th2)を取得する処理と、
(2)第1のデータ項目m1(1≦m1≦M)と第2のデータ項目m2(1≦m2≦M)(m1≠m2)との関連度R(m1|m2)を算出する処理と、
(3)上記関連度R(m1|m2)が、Th1<R(m1|m2)<Th2である場合、当該第1、第2のデータ項目の組{m1,m2}を前記分析軸の候補にし、Th1<R(m1|m2)<Th2ではない場合、当該第1、第2のデータ項目の組{m1,m2}を前記分析軸の候補にしないようにする処理と、
上記(1)〜(3)の処理を前記分析対象データDの全てのデータ項目の組に対して実行する処理と、を行うことを特徴とするデータ分析の分析軸推薦システム。
【請求項10】
請求項8記載のデータ分析の分析軸推薦システムにおいて、
前記分析者に対して前記多次元データである複数のデータ項目の関係を画面で表示するOLAPツールを有し、
前記第3の処理部による前記分析軸の候補を提示または出力する処理では、前記OLAPツールの画面に前記分析軸の候補の情報を表示して、当該分析軸の候補から前記分析者による選択により当該分析軸を用いたデータ分析を開始可能とし、
前記OLAPツールの画面のデータ項目リストに前記複数のデータ項目の一覧を表示する処理と、
上記リスト中で前記分析軸の候補であるデータ項目の組を強調表示する処理と、
上記リストから前記分析者により行及び列のデータ項目を選択可能とする処理と、
上記選択された行・列のデータ項目を縦軸・横軸にして交差するセルに、当該行・列のデータ項目の組の関係を示す値を表示する処理と、を行うことを特徴とするデータ分析の分析軸推薦システム。
【請求項11】
請求項8記載のデータ分析の分析軸推薦システムにおいて、
前記分析者に対するデータ情報の入出力処理を行う分析管理サブシステムと、
前記分析管理システムからの要求に応じて前記データ予備分析部による予備分析の処理を行う予備分析サブシステムと、
前記多次元データである分析対象データまたはその候補データを格納する分析対象データベースと、
前記予備分析の結果情報を格納する予備分析データベースと、を有し、
前記分析管理サブシステムにおいて、前記分析対象データベースから分析対象データ候補を抽出して前記分析者により分析対象データを選択する処理と、
前記分析管理サブシステムから前記予備分析サブシステムへ上記分析対象データに対する予備分析を要求し、前記予備分析サブシステムは、前記予備分析結果データベースから該当の予備分析結果情報がある場合は取得して前記分析者に対して出力し、無い場合は、上記分析対象データに対する予備分析の処理を実行し、当該予備分析結果情報を分析者に対して出力すると共に前記予備分析結果データベースに格納する処理と、を行うことを特徴とするデータ分析の分析軸推薦システム。
【請求項12】
計算機システムを用いて、多次元データ分析に係わる処理を実行させるプログラムであって、
前記多次元データ分析の分析軸を推薦する処理機能を実現するプログラムを含み、
多次元データのそれぞれのデータ項目間のデータの関連度を算出する第1の処理と、
前記多次元データのそれぞれのデータ項目間のデータの関連度に基づいて、分析対象に適するデータ項目の組を抽出する第2の処理と、
前記多次元データ分析の際、上記抽出したデータ項目の組を、分析者に対して推薦する分析軸の候補として提示または出力する第3の処理と、を実行させ、
上記構成により、分析対象とするデータ項目の組の選定を支援することを特徴とするデータ分析の分析軸推薦プログラム。
【請求項13】
請求項12記載のデータ分析の分析軸推薦プログラムにおいて、
(1)分析対象データDのデータ項目数Mを抽出し、分析用設定ファイルから閾値Th1,Th2(Th1<Th2)を取得する処理と、
(2)第1のデータ項目m1(1≦m1≦M)と第2のデータ項目m2(1≦m2≦M)(m1≠m2)との関連度R(m1|m2)を算出する処理と、
(3)上記関連度R(m1|m2)が、Th1<R(m1|m2)<Th2である場合、当該第1、第2のデータ項目の組{m1,m2}を前記分析軸の候補にし、Th1<R(m1|m2)<Th2ではない場合、当該第1、第2のデータ項目の組{m1,m2}を前記分析軸の候補にしないようにする処理と、
上記(1)〜(3)の処理を前記分析対象データDの全てのデータ項目の組に対して実行する処理と、を実行させることを特徴とするデータ分析の分析軸推薦プログラム。
【請求項14】
請求項12記載のデータ分析の分析軸推薦プログラムにおいて、
前記第3の処理による前記分析軸の候補を提示または出力する処理では、前記分析者に対して前記多次元データである複数のデータ項目の関係を画面で表示するOLAPツールの画面に前記分析軸の候補の情報を表示して、当該分析軸の候補から前記分析者による選択により当該分析軸を用いたデータ分析を開始可能とし、
前記OLAPツールの画面のデータ項目リストに前記複数のデータ項目の一覧を表示する処理と、
上記リスト中で前記分析軸の候補であるデータ項目の組を強調表示する処理と、
上記リストから前記分析者により行及び列のデータ項目を選択可能とする処理と、
上記選択された行・列のデータ項目を縦軸・横軸にして交差するセルに、当該行・列のデータ項目の組の関係を示す値を表示する処理と、を実行させることを特徴とするデータ分析の分析軸推薦プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2012−103841(P2012−103841A)
【公開日】平成24年5月31日(2012.5.31)
【国際特許分類】
【出願番号】特願2010−250715(P2010−250715)
【出願日】平成22年11月9日(2010.11.9)
【出願人】(000233491)株式会社日立システムズ (394)
【Fターム(参考)】
【公開日】平成24年5月31日(2012.5.31)
【国際特許分類】
【出願日】平成22年11月9日(2010.11.9)
【出願人】(000233491)株式会社日立システムズ (394)
【Fターム(参考)】
[ Back to top ]