説明

データ分析支援システム及び方法

【課題】 分析開始前に、入力されたデータに対する様々なレコードの単位でのレコード数及び該データから得られるパターンとルールを提示することによって、求めたい分析結果に結び付く分析が可能となるレコードの単位の設定を支援するシステム及び方法を提供する。
【解決手段】 システムを構成するコンピュータ100のプロセッサ101は、メモリ102に記憶されたプログラムを実行し、元データから作成可能な粒度のデータに対して、該データ粒度の属性の組合せとデータ規模の範囲と得られるパターンとルールとその評価値の範囲を算出し、データ分析処理の開始前にデータ粒度に関する情報として提示する。更に、元データに対する頻出パターンマイニングの結果を利用し、頻出パターンの頻度の差分から、該データ規模の範囲、得られるパターンとルールとその評価値の範囲を算出することによって、元データに対する検索と走査処理を回避する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データベース、データウェアハウス、及びデータファイルを対象としたデータ分析システム及び方法に関し、特に詳細なデータ分析に利用するデータレコードを作成するためにデータのレコードを分析してレコードに含まれるデータの規則性を明らかにするシステム、及びその方法、プログラムに関する。
【背景技術】
【0002】
データ収集技術の発展と普及により、実世界の様々な場面で大量のデータを収集、蓄積することが可能となっている。それらデータを分析し、その中に埋もれた有用な情報を抽出し、マーケティングなどに応用したいというニーズがある。データ分析に関しては、統計ツール、データマイニングツール、BIツールなど、種々の分析を行うためのソフトウェアやシステムが存在している。従来のデータ分析の手順は、はじめにユーザが分析したい内容を決定し(ステップ1)、次に、その分析に適したデータを作成(ステップ2)する。そして、作成したデータに対して分析ツールを用いて分析処理を行い(ステップ3)、分析結果を獲得する(ステップ4)という流れになる。期待した分析結果をステップ4にて獲得出来なかった場合には、ステップ3とステップ4を再び行うことによって分析条件を変更した分析処理を行う。または、ステップ2に戻って新たなデータを作成し、ステップ3とステップ4を再び行うことによって新たなデータに対する分析をやり直す。期待した分析結果を得るまで再分析処理、再データ作成から分析処理が繰り返される。
【0003】
一般的に分析ツールは、与えられたデータに対する多種の分析手法を提供することが出来る。しかし、分析したい内容が予め決まっていること、及び分析に適したデータが存在することが前提となっている。つまり、従来の分析ツールは前記データ分析の手順のステップ3とステップ4を行うためのツールである。
【0004】
一方、分析対象のデータに対して網羅的な分析を行うことによって予め分析したい内容を詳細に決定することなく分析を行う技術として、データマイニングがある(非特許文献1)。しかし、データマイニングにおいても分析対象となるデータが予め与えられることが前提となっている。例えば、データマイニングの最も代表的な技術である頻出パターンマイニングでは、与えられたデータに対して所定のレコード数以上のレコードに含まれる項目の組合せを抽出する。1レコードの単位は与えられたデータに従う。異なるレコードの単位で頻出パターンマイニングを行いたい場合には、1レコードの単位が異なるデータを作成する必要がある。
【0005】
データ分析に関して、複数の面からのデータ分析を支援する発明として、例えば特許文献1、2、3に記載の装置がある。特許文献1に記載の装置では、項目を離散値からなるITEMキーと日時や更新回数など反復を表す反復キーとに分類し、ユーザが指定したITEMキーや反復キーを軸としたときのデータの統計値を表やグラフで表示することが出来る。また、特許文献2に記載のシステムでは、データマイニングによる分析において、データの属性値のグルーピング(連続値の離散化、複数項目のグループ化など)条件、データクレンジング条件、データ絞り込み条件を変更しながら繰り返し分析処理を行うことが出来る。また、特許文献3に記載のシステムでは、ユーザが指定した切り口に対応するデータの集計値について、ユーザが指定したセルに対応するデータのクロス集計やグラフなど特定のデータについての詳細な情報を表示することによって、ユーザが直感的にデータの分析作業を行うことが出来る。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2007-11468号公報
【特許文献2】特開平11-250084号公報
【特許文献3】特開平11-15897号公報
【非特許文献】
【0007】
【非特許文献1】R.Agrawal, R.Srikant, "Fast Algorithm for Mining Association Rules in Large Databases", in proceedings of International Conference on Very Large Data Bases, 1994
【発明の概要】
【発明が解決しようとする課題】
【0008】
従来のデータ分析システムは多種の分析アルゴリズムを提供することが目的であり、また、データ分析支援システムはユーザが繰り返し分析処理を行うための条件設定とデータ加工を容易化することが目的であった。いずれのシステムにおいても分析したい内容が予め決定していること、及び、分析対象となるデータのレコードの単位を分析者が指定することが前提となっている。しかし、実際のデータ分析では、前記の前提を満たすことは困難である。データ分析の開始時点では、分析したい内容が不明確であることが多く、また、分析対象とするデータのレコード単位(データ粒度と呼ぶ)を決定することが出来ないことが多い。元となるデータが同一でも、データ粒度によって分析処理を行うデータの規模、各レコードの内容が異なり、また、得られる分析結果も異なる。例えば、頻出パターンマイニングで得られる結果においては、項目の組合せが等しいパターンでもデータ粒度によって評価値が異なる。保持しているデータに対してどのようなデータ粒度を設定することが出来るのか、該データからどのような分析結果を得ることが出来るのか、該データに対してどのようなデータ粒度で分析対象データを作成したときに、どのような分析結果を得ることが出来るのかを知ることは困難である。データ分析を開始するためには分析対象とするデータ粒度の設定が必要となる。もし、分析の開始前に元となるデータに対するデータ粒度について、レコードの単位とした属性、及び、データ粒度毎のデータ規模や内容と得られる分析結果に関する情報を提示することができれば、どのようなデータ粒度を設定でき、またそのデータ粒度設定でどのような分析結果となるかを予測出来る。つまりデータ粒度を予め設定するのではなく、提示されたデータ粒度に関連する情報から、開始するデータ分析のためのデータ粒度を選択し、該選択されたデータ粒度のデータを作成することによってデータ分析を開始することによって、獲得したい分析結果に結び付く分析を開始することが出来る。
【0009】
前述の特許文献1、2、3は、単一のデータ粒度のデータに対する分析処理を繰り返す際の条件設定の支援と、指定された条件での分析処理結果の表示が可能である。しかし、分析を開始するための情報提示とデータのレコードの単位設定に関しては考慮されていなかった。
【0010】
分析開始前に元データから作成可能なデータ粒度に関する情報を提示するためには、単純には、元データが登録された時点で、元データからあるデータ粒度でのデータを作成し、データ分析を行い、分析結果を獲得することを、設定可能なデータ粒度の範囲で繰り返し実行すればよい。これによって、データ分析の開始前に複数のデータ粒度に関する情報を提示することが出来る。しかし、元データが大規模となる場合には、データ粒度の異なるデータを作成するための処理量が膨大になることから、現実的には困難である。
【0011】
また、元データからサンプリングした小規模なサンプリングデータを作成し、該サンプリングデータに対して設定可能なデータ粒度でのデータを作成し、データ分析を行い、分析結果を獲得することによって、データ分析の開始前に複数のデータ粒度に関する情報を提示することが出来る。サンプリングデータは元データ全体に比較して小規模に抑えることが出来るため、現実的な処理量に抑えることが出来る。しかし、サンプリングデータから作成したデータ粒度のデータは、元データの全体を反映しておらず、一部分のみを反映しているため、提示された情報の正しさが保証されない。そのため、該サンプリングデータを元にしたデータ粒度として提示されたデータ規模やレコードの内容、および、得られる分析結果を、元データ全体を元にして作成したデータ粒度のデータにおいても獲得出来るとは限らない。例えば、サンプリングデータから作成した場合のデータ粒度として提示された分析結果が、元データ全体を対象とした場合には成り立たない場合がある。正しさの保証されない情報は、データ分析を支援する情報とは成り得ない。
【0012】
本発明の第一の目的は、複数の項目からなるレコードの集合である元データに対して、該元データから作成可能なデータ粒度について、各データ粒度におけるレコード単位の構成を示す属性の組と、データ規模の統計量と、該データ粒度のデータに対する分析結果と、を提示するシステムおよびその方法を提供することである。データ規模の統計量としてレコード数の範囲を提示する。また、分析結果として頻出パターンマイニングで抽出される頻出パターン、および、相関ルールマイニングで導出される相関ルールを提示するが、該頻出パターンと相関ルールの評価値は厳密値でなく、範囲で提示する。
【0013】
本発明の第二の目的は、元データから作成可能なデータ粒度について、各データ粒度におけるデータ規模に関する統計量、および、分析結果を、元データに対する頻出パターンマイニングの結果から算出することによって、元データに対する処理を回避し、処理量を低減するシステムおよび方法を提供することである。
【課題を解決するための手段】
【0014】
上記の目的を達成するため、本発明の代表的実施態様の特徴は、処理部と記憶部とを備えた計算機を用い、属性と属性値の組を項目とし、1以上の項目の組合せからなるレコードの集合からなる元データにおいて、元データに含まれる属性の組合せをレコードの単位とするデータ粒度について、各データ粒度でのデータ規模であるレコード数の範囲を算出するステップと、各データ粒度で得られる項目の組合せであるパターンとその評価値の範囲を算出するステップと、項目の組合せの連関であるルールとその評価値の範囲とを算出するステップとを処理部で実行し、算出したデータ規模とパターンとルールの情報を各データ粒度でのレコードの単位とした属性の組との単位で出力部で出力するデータ分析支援システム及び方法にある。
【0015】
また、上記の目的を達成するため、本発明の代表的実施態様の別の特徴は、所定の数以上の元データのレコードに含まれる項目の組合せと、元データのレコード数と、元データを構成する属性及び項目のリストとを利用し、元データに含まれる属性の組合せをレコードの単位とするデータ粒度について、2以上の頻出パターンの頻度の差分、頻出パターンと単一の項目の頻度の差分、単一項目の頻度の分布から、各データ粒度でのデータ規模であるレコード数の範囲を算出するステップと、各データ粒度で得られる項目の組合せであるパターンとその評価値の範囲を算出するステップと、項目の組合せの連関であるルールとその評価値の範囲とを算出するステップとを処理部で実行し、算出したデータ規模とパターンとルールの情報を各データ粒度でのレコードの単位とした属性の組との単位で出力部で出力するデータ分析支援システム及び方法にある。
【0016】
また、上記の目的を達成するため、本発明の代表的実施態様の更に別の特徴は、所定の数以上の元データのレコードに含まれる項目の組合せと、元データのレコード数と、元データを構成する属性及び項目のリストとを利用し、該頻出パターンを包含関係にある頻出パターン間のリンク構造及び1属性を除いて同一の項目からなる類似関係にある頻出パターン間のリンク構造を保持し、元データに含まれる属性の組合せをレコードの単位とするデータ粒度について、2以上の頻出パターンの頻度の差分、頻出パターンと単一の項目の頻度の差分を該リンク構造を辿ることによって獲得し、該獲得した差分と、単一項目の頻度の分布から、各データ粒度でのデータ規模であるレコード数の範囲を算出するステップと、各データ粒度で得られる項目の組合せであるパターンとその評価値の範囲を算出するステップと、項目の組合せの連関であるルールとその評価値の範囲とを算出するステップとを処理部で実行し、算出したデータ規模とパターンとルールの情報を各データ粒度でのレコードの単位とした属性の組との単位で出力部で出力するデータ分析支援システム及び方法にある。
【発明の効果】
【0017】
本発明によると、データ分析の開始前に、元データに設定可能なデータ粒度と、各データ粒度におけるデータ規模と、分析結果と共に提示することが可能となる。これにより、得られる分析結果を参照してから実際の分析処理を開始するため、得たい分析結果に結び付かない不要な分析処理を回避することが出来る。
【0018】
また、元データに対する頻出パターンマイニングの結果を用いて、各データ粒度おけるデータ規模の統計量の範囲を算出すること、および、該データ粒度における分析結果である頻出パターンとその評価値の範囲、相関ルールとその評価値の範囲を算出することによって、元データからのデータ粒度毎のデータ作成とデータ粒度毎の分析処理を回避し、データ処理量を低減することが可能となる。
【図面の簡単な説明】
【0019】
【図1】第1の実施例のシステム構成例を示す図である。
【図2】第1の実施例に係る、ユーザインタフェースの一例を示す図である。
【図3】第1の実施例に係る、データ分析支援処理の概要を示すフローチャート図である。
【図4】第1の実施例に係る、元データに対する前処理を示すフローチャート図である。
【図5】第1の実施例に係る、頻出パターンのデータ構造の一例を示す図である。
【図6】第1の実施例に係る、データ粒度内容算出処理を示すフローチャート図である。
【図7】第1の実施例に係る、データ粒度別データ規模算出処理を示すフローチャート図である。
【図8】第1の実施例に係る、特定のデータ粒度に対するレコード数算出処理を示すフローチャート図である。
【図9】第1の実施例に係る、頻出パターンから特定のデータ粒度のレコード数の範囲を算出する処理を示すフローチャート図である。
【図10】第1の実施例に係る、属性の組と頻出パターンから特定のデータ粒度のレコード数の範囲を算出する処理を示すフローチャート図である。
【図11】第1の実施例に係る、元データのレコード数と各項目の頻度とからから特定のデータ粒度のレコード数の範囲を算出する処理を示すフローチャート図である。
【図12】第1の実施例に係る、特定のデータ粒度に対する項目のパターンの頻度算出の全体処理を示すフローチャート図である。
【図13】第1の実施例に係る、特定のデータ粒度に対する項目のパターンの頻度範囲算出処理の詳細を示すフローチャート図である。
【図14】第1の実施例に係る、頻出パターンと単一の項目から特定のデータ粒度における項目の組合せであるパターンの頻度の範囲を算出する処理を示すフローチャート図である。
【図15】第1の実施例に係る、頻出パターンから特定のデータ粒度における項目の組合せであるパターンの頻度の範囲を算出する処理を示すフローチャート図である。
【図16】第1の実施例に係る、属性の組と頻出パターンから特定のデータ粒度における項目の組合せであるパターンの頻度の範囲を算出する処理を示すフローチャート図である。
【図17】第1の実施例に係る、特定のデータ粒度に対する項目のパターンの連関であるルールを導出する処理を示すフローチャート図である。
【図18】第2の実施例の機能構成を示す図である。
【図19】第2の実施例に係る、データ分析の全体処理を示すフローチャート図である。
【図20】第2の実施例に係る、元データに対する前処理を示すフローチャート図である。
【図21】第2の実施例に係る、元データから所定の属性をレコードの単位とするデータ粒度のデータ作成処理を示すフローチャート図である。
【図22】第2の実施例に係る、データ分析処理を示すフローチャート図である。
【図23】第2の実施例に係る、一般的なデータ処理を示すフローチャート図である。
【発明を実施するための形態】
【0020】
以下、図面を参照して本発明の実施の形態を説明する。
【0021】
はじめに、種々の実施の形態において利用するデータの構成を説明する。データはレコードの集合からなり、レコードは項目の組合せからなる。項目は属性と属性値の組からなり、属性値は離散値である。属性値が連続値の場合、範囲分割等によって区分けし、各区分けに特定の離散値を割り当てることにより、連続値を離散値に対応付けることが可能である。また、離散値をグループに分類し、各グループを特定の離散値に対応付けることにより、データの項目に含まれない離散値に対応付けることも可能である。
【0022】
例えば、センサ端末から検出されるイベントデータの場合の一例を表1に示す。センサ端末のイベントデータの場合、1レコードはある監視対象のあるセンサ端末で検出された事象を意味する。表1に示したイベントデータは、時間帯、地域コード、監視対象ID、センサ種別、イベント種別の5個の属性を持つ。各属性はそれぞれ5個、6個、7個、5個、7個の属性値からなり、全部で31個の項目(31属性値)、10レコードのデータである。また、各レコードを識別するための固有の識別子であるレコードIDを持つ。
【0023】
【表1】

【0024】
次に、レコードの単位であるデータ粒度を説明する。1以上の属性に対する項目の組合せが等しいレコードを1レコードに結合したデータを該1以上の属性をデータ粒度とするデータと呼ぶ。例えば、表1のデータにおいて地域コードをデータ粒度とするデータとした場合を考える。属性が“地域コード”で項目が“東京1”であるレコードは、レコードIDが1と4と8のレコードであるため、該3レコードは1レコードに結合され“(早朝,1001,熱,異常高温),(午後,2001,電力,電流障害),(午後,2002,システム,システム障害)”のレコードが作成される。属性を地域コードとするその他の項目についても同様に処理することによって、表2の6レコードのデータが作成される。また、複数の属性をデータ粒度に設定した例として、例えば、属性“地域コード”と“監視対象ID”をデータ粒度とした場合を考える。“地域コード”と“監視対象ID”を属性とする項目“東京1”と“1001”の組を持つレコードは、レコードIDが1と8のレコードであるため、該2レコードは1レコードに結合され“(早朝,熱,異常高温),(午後,システム,システム障害)”のレコードが作成される。“地域コード”と“監視対象ID”を属性とするその他の項目の組についても同様に処理することによって、表3の8レコードのデータが作成される。以上のように、データ粒度とする属性の種類と数によって、作成されるデータのレコード数やレコードの内容が異なる。
【0025】
【表2】

【0026】
【表3】

【実施例1】
【0027】
図1は、第1の実施例のデータ分析支援システムの一構成例を示す図である。このシステムは、処理部であるプロセッサ101と、記憶部を構成するメモリ102と記憶装置103を有する。プロセッサ101とメモリ102はコンピュータ100を構成し、分析対象の元データは記憶装置103に格納されている。本実施例のデータ分析支援の実行プログラムであるデータ粒度別データ規模算出プログラム、データ粒度別パターン抽出プログラム、データ粒度別ルール抽出プログラムはメモリ102に格納されており、プロセッサ101によって実行される。
【0028】
メモリ102には、図1に示すように、データ粒度別データ規模算出プログラム106、データ粒度別パターン抽出プログラム107、データ粒度別ルール抽出プログラム108に加え、元データ情報109、頻出パターン情報110、最小頻度情報111、及びデータ粒度情報112が記憶される。
【0029】
元データ情報109は、解析対象の元データの属性と属性値、属性の処理順序、およびレコード数を表あるいはリストなどの形で保持する。頻出パターン情報110は、解析対象の元データに対する頻出パターンマイニングの結果として得られた頻出パターンに関して、頻出パターンを構成する項目の組合せと、該頻出パターンの頻度を意味する該頻出パターンを含む元データのレコード数と、該頻出パターンが含む頻出パターンである上位パターンへのリンクと該頻出パターンを含む頻出パターンである下位パターンへのリンクと、該頻出パターンに対して該頻出パターンに含まれる属性のうち元データ情報109の属性の処理順序が末尾となる属性の項目が異なる頻出パターンである類似パターンへのリンクと、レコード数範囲と、頻度差分とをツリー構造、リストあるいは表などの形で保持する。
【0030】
最小頻度情報111は、頻出パターン情報の頻出パターンマイニングにおける最小頻度の閾値をデータの形で保持する。
【0031】
データ粒度情報112は、元データから作成されるデータ粒度について、該データ粒度にてレコードの単位とした属性の組と、該データ粒度のレコード数の範囲と、該データ粒度におけるパターンとルールとを、表あるいはリストなどの形で保持する。詳細な説明は後述するが、パターンは構成する項目の組と頻度の範囲を、ルール前提条件と結論条件と確信度の範囲を含む。
【0032】
更に、コンピュータ100には、キーボードやマウスなどを備える入力装置104、及びディスプレイやプリンタなどからなる出力装置105が接続されている。
【0033】
図2は、本実施例のユーザインタフェースの一例を示している。このユーザインタフェース200は、分析対象の元データを指定する元データ指定部201、データ粒度の内容を表示する粒度内容表示ボタン205、データ粒度の内容を表示する粒度表示部206、粒度表示部に表示するデータ粒度、データ規模、パターン、ルールを絞り込む粒度絞り込み部202、パターン絞り込み部203、ルール絞り込み部204、データ分析を行うためのデータ粒度を選択する選択ボタン207、選択されたデータ粒度のデータを作成する粒度データ作成ボタン208からなる。ユーザは分析対象の元データを元データ指定部201で指定し、粒度内容表示ボタン205によって、データ粒度毎のデータ規模、パターン、ルールを表示させる。表示されたデータ粒度内容は、粒度絞り込み部202、パターン絞り込み部203、ルール絞り込み部204で指定した属性または項目を含むデータ粒度内容に絞り込まれる。なお、データ粒度内容表示部206では表形式を用いてデータ粒度内容を表示したが、データ粒度、データ規模、パターン、ルールの組をリストで表示したリスト形式でも構わない。また、パターンとルールはそれらを構成するアイテムセットをノードとするグラフ、パターンとルールの評価値は値を棒グラフなどで表示しても構わない。
【0034】
また、元データ指定部201、粒度内容表示ボタン205、粒度絞り込み部202、パターン絞り込み部203、ルール絞り込み部204、粒度選択ボックス207、粒度データ作成ボタン208が図1の入力装置104に、データ粒度内容表示部206が図1の出力装置105に対応している。なお、タッチパネルとして機能するディスプレイ等を用いることにより、この入力装置104と出力装置105を一体化構成として形成することができることは言うまでもない。
【0035】
図3は、本実施例におけるデータ分析処理の全体処理手順を説明するフローチャートである。プロセッサ101が粒度内容表示の指示を受信したとき、入力部104に指定された元データについて、記憶装置103から元データを構成する属性と項目、および、該属性の処理順序を読み出し、メモリ102の元データ情報109に保持するとともに、該元データに対応する所定の最小頻度を満たすすべての頻出パターンの項目の組合せと頻度を読み出し、頻出パターン情報110に保持する(301)。本実施例では、元データを構成する属性と項目、属性の処理順序、および、所定の最小頻度を満たすすべての頻出パターンの項目の組合せと頻度が記憶装置103に格納されているとする。該情報が格納されていない場合については後述する。
【0036】
次に、プロセッサ101は、メモリ102に格納されたデータ粒度別データ規模算出プログラム106、データ粒度別パターン抽出プログラム107、データ粒度別ルール抽出プログラム108を実行し、元データから作成可能なデータ粒度について、各データ粒度のレコード数の範囲、各データ粒度におけるパターンとルールの評価値の範囲を算出する(データ粒度内容算出処理302)。更に詳細な算出手順は後述する。次に、データ粒度を構成する属性と算出されたレコード数とパターンとルールの組を出力装置105に出力する(303)。
【0037】
図4は、図3における元データ前処理301の手順を詳細に説明するフローチャートである。はじめに、メモリの元データ情報109、頻出パターン情報110を初期化し、空にする(401)。次に、元データの内容として、記憶装置103から、元データを構成する属性のリスト、各属性の項目のリスト、および、各項目の頻度(項目を含む元データのレコード数)を読み出し、元データ情報109に表形式あるいはリストで保持する。さらに、頻出パターンとして、記憶装置103から、最小頻度、頻出パターンの項目の組合せと頻度を読み出し、頻出パターン情報110に最小頻度は値、頻出パターンの項目と頻度は木構造、表形式、あるいは、リストで保持する(402)。
【0038】
図5は頻出パターンの木構造の一例である。木構造はノードとリンクからなる。1ノードは1頻出パターンを示し、頻出パターンを構成する項目の組合せ、頻度、処理状態フラグからなる。また、頻出パターンの項目の組合せが包含関係にある2つの頻出パターンの間にリンクが張られる。ここで、2つの頻出パターンXとYについて、XがYの項目にすべて含まれる場合、XはYの上位パターンと呼び、XがYの項目をすべて含む場合、XはYの下位パターンと呼ぶ。例えば、ノード(A0,B0,C1)と(A0,B0,C0,D0)の間にリンクが張られているが、(A0,B0,C1)は(A0,B0,C0,D0)の上位パターンであり、(A0,B0,C0,D0)は(A0,B0,C0)の下位パターンである。さらに、頻出パターンの項目の数が等しく、該パターンを構成する項目の属性について元データ情報109の属性の処理順序が末尾の属性からなる1つの項目以外のすべての項目が等しい2つの頻出パターンを類似パターンと呼び、該類似パターンとなる頻出パターンの間にもリンクが張られる。例えば、(A0,B0,C0,D0)と(A0,B0,C0,D1)は類似パターンの関係にあるためリンクが張られている。ここで、XYと表現されたとき、Xが属性、Yが属性値であり、(A0,B0,C0,D0)の処理順序が末尾となる属性がDであるとする。類似パターンについては、類似パターンの条件を満たす全パターンへのリンクを張らず、類似パターンが存在する各頻出パターンについては、1類似パターンからのリンクと、1類似パターンへのリンクが張られるだけでも良い。
【0039】
図6は、図3におけるデータ粒度内容算出処理302の手順を説明するフローチャートである。はじめに、プロセッサ101はメモリ102のデータ粒度別データ規模算出プログラム106を実行し、各データ粒度のレコード数の範囲を算出し、データ粒度情報111にリストあるいは表形式で保持する(データ粒度別データ規模算出処理601)。次に、データ粒度別パターン抽出プログラム107を実行し、各データ粒度におけるパターンの頻度の範囲を算出し、データ粒度情報111のリストあるいは表形式に追加し、保持する(データ粒度別パターン抽出処理602)。さらに、データ粒度別ルール抽出プログラム108を実行し、各データ粒度におけるルールの確信度を算出し、データ粒度情報111のリストあるいは表形式に追加し、保持する(データ粒度別ルール抽出処理603)。該確信度は後述する。
【0040】
図7は、図6におけるデータ粒度別データ規模算出処理601の手順を説明するフローチャートである。データ粒度別データ規模算出処理では、個々の属性に着目し、該属性を含むデータ粒度毎にレコード数範囲を算出する。はじめに、元データを構成する1つの属性を選出し(701)、該属性を含むデータ粒度のレコード数の範囲を算出する(702)。算出されたレコード数の範囲をデータ粒度情報111に保持する(703)。すべての属性の組合せに対するレコード数算出処理が完了した時点(704)で処理を終了する。ここで、本実施例では元データの1属性を選出する順序は、メモリ102の元データ情報109の属性の処理順序とする。ただし、任意の順序で処理することによっても同様の結果を得ることが可能であるため、任意の順序で処理しても構わない。
【0041】
図8は、図7における、n個の属性の組合せXをレコードの単位とするデータ粒度のレコード数算出処理702の手順を詳細に説明するフローチャートである。はじめに、対象とするデータ粒度の属性の組合せをXとし(801)、メモリのデータ粒度情報111のデータ粒度Xに対応する情報を初期化する(802)。そして、Xに含まれる1つの属性をXtとし(803)、Xtの1つの項目をxとする(804)。ここで、本発明では、Xtを選択する順序をメモリ102の元データ情報109の属性の処理順序の逆順とする。メモリ102の頻出パターン情報110の類似パターンへのリンクを辿ることによって、属性xを含む(n−1)個の項目からなる頻出パターンを選出し、f[n−1]とし(805)、n個の属性からなる頻出パターンF[n]とF[n]のうちf[n−1]を含む頻出パターンを用いてデータ粒度Xのレコード数の範囲算出し、データ粒度情報111のデータ粒度Xの最小値と最大値に加算する(806)。ここで、M個の属性からなる頻出パターンをF[m]と表現する。次に、iを1以上の整数とし、f[n−1]からXt以外の属性をX’、jをiに1加算した値とし(808)、f[n−i]からメモリ102の元データ情報109の属性の処理順序の逆順に従って、頻出パターン情報110の上位パターンへのリンクを辿ることによって、X’以外の属性からなる頻出パターンf[n−j]を選出する(809)。メモリ102の頻出パターン情報110の類似パターンへのリンクを辿ることによってF[n−i]のうちf[n−j]を含む頻出パターンf’[n−i]を選出し、X’とF[n−i]とf[n−j]とf’[n−i]とからデータ粒度Xのレコード数の範囲を算出し、メモリ102のデータ粒度情報111のデータ粒度Xに対応するレコード数の最小値と最大値に加算する(811)。f[n−j]が項目xと等しくなるまで以上の処理を続ける(812)。さらに、Xのすべての属性をXtとして処理するまで処理を続ける(813)。最後に、データ粒度Xについて、以上の処理で調べられなかった元データのレコードからデータ粒度Xのレコード数の範囲を算出し、メモリ102のデータ粒度情報111のデータ粒度Xに対応するレコード数の最小値と最大値に加算する(814)。以上の処理によって、データ粒度Xのレコード数の最小値と最大値が算出され、メモリ111のデータ粒度情報111に保持される。
【0042】
図9は、図8におけるF[n]とf[n−1]からレコード数の範囲を算出する処理(806)の処理手順を詳細に説明するフローチャートである。はじめに、f[n−1]の頻度と、F[n]の頻度の総和の差分Sを算出する。該Sをメモリ102の頻出パターン情報110の最小頻度の値より1小さい整数で割った値以上の最小の整数を算出し、最小値とする(901)。次に、F[n]の属性のうちf[n−1]に含まれない属性の属性値数の積と、F[n]のうちf[n−1]を含む頻出パターンの種類数との差分を算出し、該差分と該Sを比較して小さい値を最大値とする(902)。最後に、該最小値と最大値を返す(903)ことによって、F[n]とf[n−1]からレコード数の範囲を算出する処理を終了する。
【0043】
また、図10は、図8におけるX’とF[n−i]とf[n−j]とf’[n−i]とからレコード数の範囲を算出する処理(811)の処理手順を詳細に説明するフローチャートである。はじめに、F’[n−i]の頻度をメモリ102の頻出パターン情報110の最小頻度の値より1小さい整数で割った値以上の最小の整数を算出し、最小値とする(1001)。また、F[n]の属性のうちf’[n−i]に含まれない属性の属性値数の積を算出し、最大値とする(1002)。次に、f[n−j]の頻度と、F[n−i]のうちf[n−j]を含む頻出パターンF’[n−i]の頻度の総和との差分をS’とし、該S’をメモリ102の頻出パターン情報110の最小頻度の値より1小さい整数で割った値以上の最小の整数を該算出した最小値に加算する(1003)。また、X’の属性値数とF[n−i]の種類数との差分と、F[n]の属性のうちf[n−i]に含まれない属性の属性値数の積との積を算出し、該算出した値と該S’を比較して小さい値を該算出した最大値に加算する(1004)。最後に、該最小値と最大値を返す(1005)ことによって、X’とF[n−i]とf[n−j]とf’[n−i]とからレコード数の範囲を算出する処理を終了する。
【0044】
また、図11は、図8における元データの未処理レコードからデータ粒度Xのレコード数の範囲を算出する処理(814)の処理手順を詳細に説明するフローチャートである。はじめに、元データのレコード数と、F[1]に含まれるXtの項目の頻度の総和との差分Rを算出し、該Rをメモリ102の頻出パターン情報110の最小頻度の値より1小さい整数で割った値以上の最小の整数を最小値とする(1101)。次に、F[1]に含まれないXtの項目の種類数と、XのXt以外の属性の属性値数の積との積を算出し、該値と該Rを比較して小さい値を最大値とする(1102)。最後に、該最小値と最大値を返す(1103)ことによって、元データの未処理レコードからデータ粒度Xのレコード数の範囲を算出する処理を終了する。
【0045】
図6に戻り、データ粒度別パターン抽出処理の処理手順602を説明する。図12は、図6におけるデータ粒度別パターン抽出処理602の手順を説明するフローチャートである。データ粒度別パターン抽出処理では、探索する候補となるパターンを作成し、該パターンと個々の属性に着目し、該属性を含むデータ粒度毎に該パターンの頻度の範囲を算出する。はじめに、1以上の項目の組合せを作成して候補パターンとし(1201)、次に、元データを構成する1つの属性を選出し(1202)、該属性を含むデータ粒度における該候補パターンの頻度の範囲を算出する(1203)。算出された頻度の範囲をデータ粒度情報111に保持する(1204)。すべての属性の組合せに対する処理が完了した時点(1205)で該候補パターンに対する処理を終了する。すべての候補となるパターンに対する処理が終了した時点(1206)でパターン抽出処理を終了する。
【0046】
図13は、図12における、k個の項目からなるパターンpのn個の属性の組合せXをレコードの単位とするデータ粒度における頻度を算出する頻度算出処理1203の手順を詳細に説明するフローチャートである。はじめに、対象とする項目の組合せである候補パターンpを作成し(1301)、さらに、対象とするデータ粒度の属性の組合せをXとし(1302)、メモリのデータ粒度情報111のデータ粒度Xに対するパターンpの情報を初期化する(1303)。そして、Xに含まれる1つの属性をXtとし(1304)、Xtの1つの項目をxとする(1305)。ここで、Xtを選択する順序はメモリ102の元データ情報109の属性の処理順序の逆順とする。次に、パターンpと属性xを含む(n−1)個の項目からなる頻出パターンをメモリ102の頻出パターン110の類似パターンへのリンクを辿ることによって選出して、fp[n−1]とし(1306)、パターンpとn個の属性からなる頻出パターンFp[n]とFp[n]のうちfp[n−1]を含む頻出パターンを用いてデータ粒度Xにおけるパターンpの頻度の範囲算出し、データ粒度情報111のデータ粒度Xにおけるパターンpの頻度の最小値と最大値に加算する(1307)。ここで、h個の項目の組合せからなるパターンqとM個の属性からなる頻出パターンをFq[m]と表現する。次に、iを1以上の整数とし、fp[n−1]に含まれるXからメモリ102の元データ情報109の属性の処理順に従って選出したXt以外の属性をX’、jをiに1加算した値とし(1309)、メモリ102の頻出パターン情報110の上位パターンへのリンクを辿ることによってfp[n−i]からX’以外の属性からなる頻出パターンfp[n−j]を選出する(1310)。メモリ102の頻出パターン情報110の類似パターンへのリンクを辿ることによってFp[n−i]のうちfp[n−j]を含む頻出パターンfp’[n−i]選出し(1311)、X’とFp[n−i]とfp[n−j]とfp’[n−i]とからデータ粒度Xにおけるパターンpの頻度の範囲を算出し、メモリ102のデータ粒度情報111のデータ粒度Xにおけるパターンpの頻度の最小値と最大値に加算する(1312)。fp[n−j]がパターンpと項目xの組合せと等しくなるまで以上の処理を続ける(1313)。さらに、Xのすべての属性をXtとして処理するまで処理を続ける(1314)。最後に、パターンpに対するデータ粒度Xについて、以上の処理で調べられなかった元データのレコードからデータ粒度Xにおけるパターンpの頻度の範囲を算出し、メモリ102のデータ粒度情報111のデータ粒度Xにおけるパターンpの頻度の最小値と最大値に加算する(1315)。以上の処理によって、データ粒度Xにおけるパターンpの頻度の最小値と最大値が算出され、メモリ111のデータ粒度情報111に保持される。
【0047】
図14は、図13におけるFp[n]とfp[n−1]からパターンpの頻度の範囲を算出する処理(1307)の処理手順を詳細に説明するフローチャートである。はじめに、fp[n−1]の頻度と、Fp[n]の頻度の総和の差分Sを算出する。該Sをメモリ102の頻出パターン情報110の最小頻度の値より1小さい整数で割った値以上の最小の整数を算出し、最小値とする(1401)。次に、Fp[n]の属性のうちfp[n−1]に含まれない属性の属性値数の積と、Fp[n]のうちfp[n−1]を含む頻出パターンの種類数との差分を算出し、該差分と該Sを比較して小さい値を最大値とする(1402)。最後に、該最小値と最大値を返す(1403)ことによって、Fp[n]とfp[n−1]からパターンpの頻度の範囲を算出する処理を終了する。
【0048】
また、図15は、図13におけるX’とFp[n−i]とfp[n−j]とfp’[n−i]とからレコード数の範囲を算出する処理(1312)の処理手順を詳細に説明するフローチャートである。はじめに、Fp’[n−i]の頻度をメモリ102の頻出パターン情報110の最小頻度の値より1小さい整数で割った値以上の最小の整数を算出し、最小値とする(1501)。また、Fp[n]の属性のうちfp’[n−i]に含まれない属性の属性値数の積を算出し、最大値とする(1502)。次に、fp[n−j]の頻度と、Fp[n−i]のうちfp[n−j]を含む頻出パターンFp’[n−i]の頻度の総和との差分をS’とし、該S’をメモリ102の頻出パターン情報110の最小頻度の値より1小さい整数で割った値以上の最小の整数を該算出した最小値に加算する(1503)。また、X’の属性値数とFp[n−i]の種類数との差分と、Fp[n]の属性のうちfp[n−i]に含まれない属性の属性値数の積との積を算出し、該算出した値と該S’を比較して小さい値を該算出した最大値に加算する(1504)。最後に、該最小値と最大値を返す(1505)ことによって、X’とFp[n−i]とfp[n−j]とfp’[n−i]とからレコード数の範囲を算出する処理を終了する。
【0049】
また、図16は、図13におけるパターンpに対する元データの未処理レコードからデータ粒度Xにおけるパターンpの頻度の範囲を算出する処理(1315)の処理手順を詳細に説明するフローチャートである。はじめに、メモリ102の頻出パターン情報110の頻出パターンにおけるパターンpの頻度と、Fp[1]に含まれるXtの項目の頻度の総和との差分Rを算出し、該Rをメモリ102の頻出パターン情報110の最小頻度の値より1小さい整数で割った値以上の最小の整数を最小値とする(1601)。次に、Fp[1]に含まれないXtの項目の種類数と、XのXt以外の属性の属性値数の積との積を算出し、該値と該Rを比較して小さい値を最大値とする(1602)。最後に、該最小値と最大値を返す(1603)ことによって、パターンpに対する元データの未処理レコードからデータ粒度Xにおけるパターンpの頻度の範囲を算出する処理を終了する。
【0050】
ここで、図13、図14、図15、図16に示したデータ粒度Xにおけるパターンpの頻度の範囲を算出する処理において、パターンpが元データにおける頻出パターン情報に含まれない場合、パターンpを構成する項目からなる部分パターンqについて、頻度が最小の頻出パターンに置き換えることによって処理を行う。パターンqが1項目となる場合、メモリ102の元データ情報109に保持された項目の頻度を利用しても良い。
【0051】
再び、図6に戻り、データ粒度別ルール抽出処理603の処理手順を説明する。ここで、XとYをそれぞれ1以上の項目の組合せとし、XとYは共通する項目を含まないとする。ルールはX=>Yで表現し、Xを前提条件、Yを結論条件と呼び、Xの条件が成り立つときに、Yの条件も同時に成り立つということを意味する。 ルールは評価値として確信度の値を持ち、確信度はXとYのすべての項目からなるパターンの頻度をXの項目からなるパターンの頻度で割った値で算出される。図17は、図6におけるデータ粒度別ルール抽出処理603の手順を詳細に説明するフローチャートである。はじめに、メモリ102のデータ粒度情報111から任意のデータ粒度Xにおけるパターンpについて、構成する項目の組合せ、頻度の最小値と最大値を取得する(1701)。さらに、該パターンpを構成する項目の1以上の項目の組合せqについて、メモリ102のデータ粒度情報111から任意のデータ粒度Xにおけるパターンqの頻度の最小値と最大値を取得する(1702)。次に、パターンqの項目を前提条件、パターンpに含まれるがqに含まれない項目の組合せを結論条件とするルールq=>(p−q)を作成する。そして、該ルールの確信度をパターンpとqの頻度の最小値と最大値から算出する。該ルールの確信度の最小値はパターンpの頻度の最小値をパターンqの頻度の最大値で割った値から算出され、該ルールの確信度の最大値はパターンpの頻度の最大値をパターンqの頻度の最小値で割った値から算出される(1704)。最後に、導出したルールと該ルールの確信度の最小値と最大値をメモリ102のデータ粒度情報111のデータ粒度Xにおけるルールとして保持する(1705)。パターンpに対するすべての部分パターンについて以上の処理を繰り返す(1706)。さらに、すべてのデータ粒度に対して以上の処理を繰り返す(1707)。
【0052】
図3に戻り、データ処理内容を出力部105に出力する。メモリ102のデータ粒度情報111に保持された、それぞれのデータ粒度について、該データ粒度のレコードの単位とした属性の組と、該データ粒度におけるレコードの範囲と、該データ粒度におけるパターンとその評価値の範囲とルールとその評価値の範囲と、を出力する。出力するデータ粒度は、入力部104の粒度絞り込み部204で指定された属性または項目または属性数の範囲を満たすデータ粒度のみに限定しても良い。出力するパターンとルールはデータ粒度情報111に保持されたすべての情報を出力するのではなく、所定の数のパターンとルールを表示することでも良く、パターンは入力部104のパターン絞り込み部203に指定された属性、項目を含むパターンに、ルールは入力部104のルール絞り込み部205に指定された属性、項目を含むルールに限定しても構わない。ここで、データ粒度、パターン、ルールのいずれかが絞り込まれ、限定された場合、対応する情報も限定して出力する。出力部105に出力するデータ粒度のデータ規模をレコード数としたが、レコード数を元データの数で割った値である割合を出力しても良い。また、出力部105に出力するパターンの評価値を頻度としたが、頻度を対応するデータ粒度のレコード数で割った値である支持度を出力しても良い。さらに、出力部105に出力するルールの評価値を確信度としたが、確信度だけでなく、ルールを構成する項目の組合せからなるパターンの頻度、該頻度を対応するデータ粒度のレコード数で割った値である支持度も出力しても良い。
なお、以上で説明した実施例1では、メモリ102の元データ情報の属性の処理順序を利用したが、頻出パターン情報110の類似パターンへのリンクをすべての類似パターンに対して張ることによって、属性の処理順序が不定であっても同様に分析支援処理を実施することが可能である。また、メモリ102の頻出パターン情報110に木構造を利用したが、表やリストの形でメモリに保持し、表やリストを検索することによって頻出パターンのリンクを辿ることと同様の処理が可能であり、同様の分析支援処理を実施することが可能である。
【0053】
また、データ粒度別データ規模算出処理601、データ粒度別パターン抽出処理602、データ粒度別ルール抽出処理603で、レコード数、頻度、確信度を獲得するために算出した中間結果をメモリ102または記憶装置103に保持し、保持された値を再利用することによって同様の分析し線処理を実施することも出来る。
【実施例2】
【0054】
次に、第2の実施例として、元データ情報と頻出パターン情報が既知でない場合の分析支援処理を説明する。
【0055】
図18は、第2の実施例のデータ分析支援システムの機能構成を示す図である。このシステムは、処理部であるコンピュータ100にデータ分析機能1801、頻出パターンマイニング機能1802、データ分析支援機能1803、粒度データ作成機能1804が配置され、分析対象の元データはデータ格納部1805に格納される。図18のデータ格納部1805は図1の記憶装置103、入力部1806は入力装置104、出力部1807は出力装置105に対応している。
【0056】
図19に本実施例におけるデータ分析処理の全体処理手順を説明するフローチャートである。
【0057】
全体のデータ分析支援処理は図3と等しいが、元データ前処理1901の内容は図3の元データ前処理301と異なる。はじめに、元データの情報および頻出パターン情報を獲得するための元データ前処理1901を頻出パターンマイニング機能1802で実行する。次に、データ粒度内容算出処理302をデータ分析支援機能1803で実行し、指定された粒度データを粒度データ作成機能1804で作成する(1902)。その後に、データ分析処理をデータ分析機能で実行し(1903)、分析結果を獲得する。ここで、データ粒度内容算出処理は図3と同様である。
【0058】
図20は、図19の元データ前処理1901の処理手順を詳細に説明するフローチャートである。はじめに、メモリ102の元データ情報109と頻出パターン情報110を初期化し、空にする(2001)。次に、データ格納部1805から元データを読み出し、属性の種類と項目の種類のリストを作成し、メモリ102の元データ情報109に保持する。それと同時に、各項目が含まれる元データのレコード数を数え上げ、該レコード数を項目の頻度として、メモリ102の元データ情報109に保持する(2002)。次に、元データに対する頻出パターンマイニングを頻出パターンマイニング機能1802で実行し、所定の最小頻度を満たす頻出パターンを獲得し、メモリ102の頻出パターン情報110に保持する(2003)。ここで、最小頻度は入力部1805で指定された閾値を利用しても構わない。頻出パターンマイニング処理は非特許文献1などの方法によって、データ格納部1805に格納された元データを読み出し、項目の組合せの頻度を数え上げることによって、頻出パターンを抽出する。
【0059】
図21は、図19における粒度データ作成処理1902の処理手順を説明するフローチャートである。はじめに、粒度とする属性の組を入力部から取得する(2101)。データ格納部1805から元データのレコードを読み出し(2102)、該属性の組に対応する項目の組合せ(粒度パターンと呼ぶ)を作成し、メモリ上の対応する粒度パターンのデータとして保持する(2103)。元データの全レコードに対する処理を行い(2104)、最後に粒度パターン毎のデータを分析対象データとしてデータ格納部に格納する(2105)。
図22は、図19におけるデータ分析処理1903の処理手順を説明するフローチャートである。はじめに、分析の条件を入力部1806から取得する(2201)。次に、データ格納部1805に格納された分析対象データを読み出して分析処理を実行し(2202)、分析結果を出力部1807に出力する(2203)。分析条件を変更した再分析の指示がある場合(2204)には、以上の処理を再び実行する。分析条件を変更しながら分析処理を繰り返すことによって、求める分析結果を獲得する。
【0060】
ここで、比較のために、従来のデータ分析の処理手順を図23に示す。はじめに、指定された粒度のデータを作成し(1902)、該作成したデータに対するデータ分析処理を行う(1903)。該作成したデータに対して分析条件を変更しながら分析処理を繰り返しても求める分析結果を獲得出来ない場合には、粒度の属性の組を変更した新たなデータを作成し(1902)、再びデータ分析処理(1903)を行う。このように、求める分析結果を獲得するために、従来は粒度データ作成処理が繰り返されていた。
【0061】
以上のように、本実施例によると、頻出パターンマイニング機能と連携することによって、頻出パターン情報が未知の場合にもデータ分析支援が可能である。さらに、データ粒度に関する情報を事前に出力することによって、粒度データ作成処理の繰り返しを回避し、データ分析処理全体の処理量を削減することが出来る。
【産業上の利用可能性】
【0062】
以上詳述した本発明は、データベース、データウェアハウス及びデータファイルを対象としたデータ分析支援システム及び方法に関し、特に詳細なデータ分析に利用するデータレコードを作成するためにデータのレコードを分析してレコードに含まれるデータの規則性を明らかにするデータ分析支援技術として有用である。
【符号の説明】
【0063】
100…コンピュータ
101…プロセッサ
102…メモリ
103…記憶装置
104…入力装置
105…出力装置
106…データ粒度別データ規模算出プログラム
107…データ粒度別パターン抽出プログラム
108…データ粒度別ルール算出プログラム
109…元データ情報
110…頻出パターン情報
111…最小頻度情報
112…データ粒度情報
1801…データ分析機能
1802…頻出パターンマイニング機能
1803…データ分析支援機能
1804…粒度データ作成機能
1805…データ格納部
1806…入力部
1807…出力部
200…ユーザインタフェース
201…元データ指定部
202…粒度絞り込み部
203…パターン絞り込み部
204…ルール絞り込み部
205…粒度内容表示ボタン
206…データ粒度内容表示部
207…粒度選択ボタン
208…粒度データ作成ボタン。

【特許請求の範囲】
【請求項1】
属性と属性値の組を項目とし、1以上の項目の組合せからなるレコードの集合からなるデータをコンピュータによって分析するデータ分析支援システムであって、
前記コンピュータは、
表形式の元データと、
分析処理を行う実行プログラム格納する記憶部と、
前記実行プログラムを実行する処理部と、
レコードの単位の情報を出力する出力部とを有し、
前記処理部は、
分析対象の元データに含まれる属性の組合せをレコードの単位(以下、粒度と呼ぶ)について、
それぞれの粒度に対するレコード数の範囲を算出し、それぞれの粒度から抽出される項目パターンと該項目パターンから作成されるルールの評価値の範囲を算出し、それぞれの粒度に対して、前記算出したレコード数の範囲と、抽出される項目パターンと、該項目パターンから作成されるルールと、前記算出した項目パターンとルールの評価値の範囲と、の組を前記出力部から出力し、前記出力された粒度の中から、分析するデータの粒度の選択を受け付けることを特徴とするデータ分析支援システム。
【請求項2】
属性と属性値の組を項目とし、1以上の項目の組合せからなるレコードの集合からなるデータをコンピュータによって分析するデータ分析システムであって、属性と属性値の組を項目と呼び、
前記コンピュータは、
表形式の元データと、
分析処理を行う実行プログラム格納する記憶部と、
前記実行プログラムを実行する処理部と、
レコードの単位の情報を出力する出力部とを有し、
前記処理部は、
所定の件数以上のレコードに含まれる項目の組合せ(以下、頻出パターンと呼ぶ)を獲得し、関連する頻出パターンの間にリンクを張る元データ前処理と、
前記頻出パターンに含まれる属性の組合せをレコードの単位(以下、粒度と呼ぶ)について、それぞれの粒度に対するレコード数の範囲を算出し、それぞれの粒度から抽出される項目パターンと該項目パターンから作成されるルールの評価値の範囲を算出するデータ粒度内容算出処理と、
それぞれの粒度に対して、前記算出したレコード数の範囲と、抽出される項目パターンと、該項目パターンから作成されるルールと、前記算出した項目パターンとルールの評価値の範囲と、の組を出力する第4のステップ出力処理とを実行し、
前記出力された粒度の中から分析するデータの粒度の選択を受け付けることを特徴とするデータ分析支援システム。
【請求項3】
属性と属性値の組を項目とし、1以上の項目の組合せからなるレコードの集合からなるデータをコンピュータによって分析するデータ分析支援方法であって、
所定の件数以上のレコードに含まれる項目の組合せを頻出パターンとし、1以上の属性の組をレコードの単位とした分析データのレコード数の範囲を、該属性の属性値を含む頻出パターン間の頻度の差分と、元データのレコード数と該属性のある1つの属性の属性値からなる頻出パターンの頻度の総和との差分と、所定の件数より1小さい値と、から、該差分の数のレコードを所定の件数より1小さい値の単位で割り当てたときの種類数と、該属性の組の属性値からなる頻出パターンの種類数と、の和を最小値として算出するステップと、
該差分を該属性の組の属性値からなる頻出パターン以外に1レコード以上づつ割り当てたときの種類数と、該属性の組の属性値からなる頻出パターンの種類数との和を最大値として算出するステップとを含むことを特徴とするデータ分析支援方法。
【請求項4】
属性と属性値の組を項目とし、1以上の項目の組合せからなるレコードの集合からなるデータをコンピュータによって分析するデータ分析支援方法であって、
所定の件数以上のレコードに含まれる項目の組合せを頻出パターンとし、1以上の項目の組からなる対象パターンについて、該対象パターンに含まれない1以上の属性の組をレコードの単位とした場合の該対象パターンの頻度の範囲を、該対象パターンと該属性の属性値を含む頻出パターン間の頻度の差分と、該対象パターンの頻度と該パターンと該属性のある1つの属性の属性値からなる頻出パターンの頻度の総和との差分と、所定の件数より1小さい値とから、該差分の数のレコードを所定の件数より1小さい値の単位で割り当てたときの種類数と、該属性の組の属性値からなる頻出パターンの種類数との和を最小値として算出するステップと、
該差分を該属性の組の属性値からなる頻出パターン以外に1レコード以上づつ割り当てたときの種類数と、該属性の組の属性値からなる頻出パターンの種類数との和を最大値として算出するステップとを含むことを特徴とするデータ分析支援方法。
【請求項5】
属性と属性値の組を項目とし、1以上の項目の組合せからなるレコードの集合からなるデータをコンピュータによって分析するデータ分析支援方法であって、
所定の件数以上のレコードに含まれる項目の組合せを頻出パターンとし、1以上の項目の組からなる対象パターンについて、該対象パターンに含まれない1以上の属性の組をレコードの単位とした場合の該対象パターンの頻度の範囲を、該対象パターンと該属性の属性値を含む頻出パターン間の頻度の差分と、該対象パターンの頻度と該パターンと該属性のある1つの属性の属性値からなる頻出パターンの頻度の総和との差分と、所定の件数より1小さい値とから、該差分の数のレコードを所定の件数より1小さい値の単位で割りたてたとき種類数と、該属性の組の属性値からなる頻出パターンの種類数との和を最小値として算出するステップと、
該差分を該属性の組の属性値からなる頻出パターン以外に1レコード以上づつ割り当てたときの種類数と、該属性の組の属性値からなる頻出パターンの種類数との和を最大値として算出するステップと、
該対象パターンに含まれる部分パターンの頻度の範囲を同様に算出するステップと、
該部分パターンを前提条件、該対象パターンに含まれるが該部分パターンに含まれない項目の組を結論条件としたルールの確信度を、該対象パターンの頻度の最小値を該部分パターンの頻度の最大値で割った値を最大値として算出するステップと、
該対象パターンの頻度の最大値を該部分パターンの頻度の最小値で割った値を最小値として算出するステップとを含むことを特徴とするデータ分析支援方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate


【公開番号】特開2012−73812(P2012−73812A)
【公開日】平成24年4月12日(2012.4.12)
【国際特許分類】
【出願番号】特願2010−218089(P2010−218089)
【出願日】平成22年9月29日(2010.9.29)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】