データ処理装置

【課題】階層構造を持つデータに対して、簡単に処理を実行できるインターフェースと、データの構造・意味・形式の理解を助ける表示方法を提供する。
【解決手段】異なるデータ型の組合せであるタプルと、同じデータ型の並びであるリストからなる階層構造データと、それを変換した表示用データと、ユーザからの処理命令を受け付け、表示用データを提示するユーザインターフェース部２５００と、階層構造データを管理するデータ管理部２５０５と、階層構造データから表示用データを生成する表示用データ生成部２５０２と、分析処理を行う分析処理部２５０４を備える。ユーザインターフェース部２５００は、データを階層名を表示する行と属性名を表示する行を備える表形式で表示し、表示用データ生成部２５０２は、階層ごとにデータをユーザインターフェース部２５００に表示できる量だけサンプリングしてデータ形式を変換する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、データ処理装置に関し、特に、階層化された大量のデータに対して、高速にデータ分析処理する技術およびデータ表示する技術に関する。
【背景技術】
【０００２】
企業や自治体は業務ログやセンサデータなどのデータを大量に保持しており、これら大量データから有益な情報を抽出したいというニーズがある。ＩＴ(Information Technology)技術の発達により、収集されるデータの量が大きくなっており、また実際のデータは、例えばＸＭＬ(Extensible Markup Language)データのように、階層化されている。そこでこのような階層化された階層構造を持つ大量のデータに対して、複雑なデータ分析処理を高速に行う技術およびそのためのユーザインターフェース技術が求められている。
【０００３】
特許文献１には、データの開始位置などの情報をインデックスファイルに管理することで、木構造型のデータが格納されたＣＳＶ(Comma Separated Values)ファイルから、データを高速に検索および抽出する技術が示されている。
【０００４】
特許文献２および特許文献３には、クロス集計に特化したデータ保持方法を用いることで、任意次元でのクロス集計を高速にする技術が示されている。
【０００５】
特許文献４には、属性値の値ごとにその値がファイル中のどこにあるかを記したインデックスを持ち、特定のフィールドが特定の値を持つレコードを高速に検索する技術が示されている。
【０００６】
特許文献５および特許文献６には、フィールドごとに連続してファイルにデータを格納し、特定のフィールドのみが必要な処理を高速に行う技術が示されている。
【０００７】
特許文献７には、ＸＭＬ文書−関係表間スキーママッピング定義を用いて、ＸＭＬ文書の検索を行う技術が示されている。
特許文献８には、データマイニングによって得られる情報を効果的に提示するグラフィックス表示システムおよびその方法が示されている。
【０００８】
特許文献９には、木構造データで表わされたデータ集合を含むデータベースから、集計対象となる候補パターンを用いて、頻出パターンを検出するシステムが示されている。
【先行技術文献】
【特許文献】
【０００９】
【特許文献１】特開２００３−１６２５４５号公報
【特許文献２】特開２００２−１９７０９９号公報
【特許文献３】特開２００１−２２７６６号公報
【特許文献４】特開２００１−４３２３７号公報
【特許文献５】特開平１１−１５４１５５号公報
【特許文献６】特開２００１−２２６１７号公報
【特許文献７】特開２００６−０５３７２４号公報
【特許文献８】特開２００５−０８５１６６号公報
【特許文献９】特開２００１−１３４５７５号公報
【発明の概要】
【発明が解決しようとする課題】
【００１０】
しかしながら特許文献１では、特定の複数種のフィールドだけが必要な場合でも、すべてのフィールドのデータを読み込み必要がある。また、特許文献２、３では、クロス集計に特化しており、クロス集計以外の複雑なデータ分析処理を高速に行うことができない。また階層化されたデータ構造を持つデータに対して高速に処理を行うことができない。更に、特許文献４では、それぞれのフィールドの取り得る値の数が少なく、かつレコード検索の目的でのみ高速化が有効である。特に、すべてのレコードの特定のフィールドの値が必要な処理を高速に行うことができない。また階層化されたデータ構造を持つデータに対して高速に処理を行うことができない。同様に、特許文献５，６では、階層化されたデータ構造を持つデータに対しては高速に処理を行うことができない。
【００１１】
一方、特許文献７では表形式でデータを格納するため、大量のデータをすべて使って集計処理をする場合には、Ｊｏｉｎ処理やＧｒｏｕｐ−ｂｙ処理が発生するため高速に処理することができない。また、特許文献８では、データマイニングの結果をユーザにわかりやすく提示するための技術であり、ユーザがデータ処理を実行するためのユーザインターフェースを提供するものではない。更に、特許文献９では、データの中に頻出するパターンを抽出する技術に関するものであり、属性の追加等の汎用的なデータ分析処理を行うことはできない。
【００１２】
以上のように、先行技術文献には、階層構造を持つ大量のデータに対して、ユーザが簡単に処理を実行できるユーザインターフェースを提供し、かつ、ユーザがデータの構造・意味・形式を理解するのを助けるようなデータ表示方法を提供するものはない。
【００１３】
ＸＭＬのような階層構造を持つデータに対する処理を記述する場合、データの構造が複雑なため、熟練したプログラマでも処理を記述するのに時間がかかり、間違えやすい。またデータに慣れ親しんだ者でも、データの構造が大きくなると、どの階層にどの属性があるか混乱する。そこでユーザが階層構造を持つデータに対し簡単に処理が実行でき、またデータの構造・意味・形式を容易に理解できるようなユーザインターフェースを提供することが課題となる。加えて、大量のデータに対するユーザインターフェースを設計する場合には、バックエンドであるサーバ側の大規模データ処理システムとクライアント側のユーザインターフェースとの間で効率的にデータを送受信する必要がある。
【００１４】
また前述した先行技術文献には、階層構造を持つ大量のデータに対して、複雑なデータ分析処理を高速に行うことができるものはない。大量のデータを処理する場合、データ読み込みおよびデータ書き込みがボトルネックとなって処理速度が低下する。そこで、階層構造を持つデータに対して、データの読み込み量と書き込み量を減らすこと、および１つの処理に利用するデータを連続して読み込むようにデータを格納することが課題となる。
【００１５】
本発明は、上記に鑑みてなされたものであって、階層構造を持つ大量のデータに対して、ユーザが階層構造を持つデータに対し簡単に処理が実行でき、またデータの構造・意味・形式を容易に理解できるようなユーザインターフェースを提供することを目的とする。また、本発明は、複雑なデータ分析処理を高速に行うデータ処理装置を提供することを目的とする。
【課題を解決するための手段】
【００１６】
上記の目的を達成するため、本発明においては、データ処理装置であって、異なるデータ型の組合せであるタプルと、同じデータ型の並びであるリストからなる階層構造を持つ階層構造データと、階層構造データを変換した表示用データと、ユーザからの処理命令を受け付け、ユーザに表示用データおよび処理結果を提示するユーザインターフェース部と、階層構造データを管理するデータ管理部と、階層構造データを変換して表示用データを生成する表示用データ生成部と、処理命令を受け取り、分析処理を実行する分析処理部とを備え、ユーザインターフェース部は、階層構造データを、階層名を表示する行とタプルの属性名を表示する行を備える表形式で表示し、表示用データ生成部は、階層ごとに階層構造データをユーザインターフェース部に表示できる量をサンプリングして表示用データに変換するデータ処理装置を提供する。
【００１７】
また、本発明においては、上記の目的を達成するため、データ処理装置であって、異なるデータ型の組合せであるタプルと、同じデータ型の並びであるリストからなる階層構造を持つ階層構造データと表示用データとを記憶する記憶部と、階層構造データを管理し、階層構造データを分析処理し、階層構造データから表示用データを生成する処理部と、処理命令が入力され、また表示用データを表示するユーザインターフェース部とを備え、処理部は、階層構造データから表示用データを生成する際に、タプルの階層名を表示する行とタプルの属性名を表示する行と属性名に対応したリストの行を備えた表形式とし、表形式で表示するリストの行の数を制御可能なデータ処理装置を提供する。
【００１８】
また、本発明においては、ユーザインターフェース部は、ユーザの操作により任意の階層のデータを非表示にすることができることを特徴とするデータ処理装置を提供する。
【００１９】
また、本発明においては、ユーザインターフェース部および分析処理部は、全データに対して分析処理を実行する前に、一部のデータに対してのみ分析処理を実行し、結果をすぐさま前記ユーザインターフェース部に表示できることを特徴とするデータ処理装置を提供する。
【００２０】
また、本発明においては、ユーザインターフェース部は、属性追加処理を実行時に、新規に追加された属性の列が自動的に表に挿入されることを特徴とするデータ処理装置を提供する。
【００２１】
また上記の目的を達成するため、本発明においては、データ処理を行うデータ処理装置であって、素データから、この素データを階層化した、異なるデータ型の組合せであるタプルと同じデータ型の並びであるリストからなる階層構造データと、この階層構造データのデータ構造を現すスキーマ情報とを出力する階層化処理部と、階層構造データとスキーマ情報から、属性別に分割された属性別データを出力するデータ分割処理部と、階層化処理部が出力するスキーマ情報とデータ分割処理部が出力する属性別データを記憶する記憶部とを備え、記憶部が記憶する属性別データは、データが格納されているファイル群と、ファイル群のファイル名を管理するファイル名管理テーブルから構成され、ファイル群は、１つのファイルにつき１つの属性のデータのみを格納するデータ処理装置を提供する。
【００２２】
すなわち、上記の目的を達成するため、本発明の好適な態様においては、データを処理するデータ処理装置であって、データ分析処理を記述したデータ分析スクリプトと、再構成される階層構造データのデータ構造を現すスキーマ情報と、属性別に分割された属性別データとから元の階層構造を復元して、再構成された階層構造データを出力する階層構造データ復元処理部と、データ分析スクリプトと、再構成された階層構造データとから分析処理を行う分析処理部とを備え、復元すべき階層構造は、異なるデータ型の組合せであるタプルと、同じデータ型の並びであるリストとからなる再帰構造を持ち、スキーマ情報は、復元すべき階層構造の個々の要素のデータ型を保持し、リストの要素のデータ型に関しては、先頭の要素のデータ型のみを保持し、属性別データは、データが格納されているファイル群と、ファイル群のファイル名を管理するファイル名管理テーブルから構成され、このファイル群は、１つのファイルにつき１つの属性のデータのみを格納し、それぞれの属性に関して、スキーマ情報のリストの深さに対応して、データがリスト構造で階層化されており、またこのファイル群は、属性ごとにデータが格納されているファイル群が順序付けされており、任意の２属性に関しファイルを順序付けられた順に開き、適切な区切りごとに読むことにより、復元すべき２属性間の対応が復元でき、上述の階層構造データ復元処理部における階層構造データ復元処理は、データ分析に利用する属性を特定し、データ分析に利用しない属性のファイルは読み込まず、ファイル群から読み込んだリストで階層化されているデータを、深さ指定の転置処理によりデータ構造を変え、再構成された階層構造データは、データ分析処理に利用しない属性値は任意の値となっているデータ処理装置を提供する。
【発明の効果】
【００２３】
本発明によれば、階層構造を持つ大量のデータに対して、ユーザが簡単に処理を実行できるユーザインターフェースを提供できる。また本発明のユーザインターフェースにおいて、階層構造を持つ大量のデータを、階層名、属性名とともに、見やすくユーザに提示するため、ユーザがデータの構造・意味・形式を容易に理解できる。更に本発明のユーザインターフェースにおいて、ユーザの操作により任意の階層のデータを非表示にすることができるため、データの階層構造を容易に理解することができる。
【図面の簡単な説明】
【００２４】
【図１】第２の実施例に係わる、データを前処理してコンピュータ上で管理する形式に変換する装置のブロック図である。
【図２】第２の実施例に係わる、データ分析のソースコードを受け取ってデータ分析を実行する装置のブロック図である。
【図３】第２の実施例に係わる、素データの例を示した図である。
【図４】第２の実施例に係わる、ＸＭＬ形式によるデータ表現の例を示した図である。
【図５】第２の実施例に係わる、階層構造データの例を示した図である。
【図６】第２の実施例に係わる、データ構造の模式図である。
【図７】第２の実施例に係わる、想定されるデータ分析の例を示す図である。
【図８】第２の実施例に係わる、スキーマ情報の例を示した図である。
【図９】第２の実施例に係わる、属性別データの例を示した図である。
【図１０】第２の実施例に係わる、属性値が格納されるファイルの内容を示した図である。
【図１１】第２の実施例に係わる、データ分割処理のフローチャート図である。
【図１２】第２の実施例に係わる、再帰関数ｐａｒｓｅのフローチャート図である。
【図１３】第２の実施例に係わる、ｐａｒｓｅ関数の作用を示す図である。
【図１４】第２の実施例に係わる、データ分析ソースコードの例を示す図である。
【図１５】第２の実施例に係わる、データ分析プログラムの動作例を示す図である。
【図１６】第２の実施例に係わる、階層構造データ復元処理のフローチャート図である。
【図１７】第２の実施例に係わる、必要な属性と特定する処理を示した図である。
【図１８】第２の実施例に係わる、階層構造データ復元処理の動作例を示した図である。
【図１９】第２の実施例に係わる、再帰関数ｂｕｉｌｄのフローチャート図である
【図２０】第２の実施例に係わる、深さを指定した転置処理の例を示した図である。
【図２１】第２の実施例に係わる、分析処理のフローチャート図である。
【図２２】第２の実施例に係わる、追加する属性のスキーマ上の位置を特定する処理を示した図である。
【図２３】第３の実施例に係わる、分散計算環境におけるシステム構成例を示した図である。
【図２４】第１、２、３の実施例に係わる、コンピュータの一構成を示す図である。
【図２５】第１の実施例のデータ処理装置の構成例を示すブロック図である。
【図２６】第１の実施例のデータ処理装置で想定される属性追加処理の例を示した図である。
【図２７】第１の実施例のデータ処理装置で想定される抽出処理の例を示した図である。
【図２８】第１の実施例のデータ処理装置で想定される集計処理の例を示した図である。
【図２９】第１の実施例に係わる、ユーザインターフェース部のウィンドウ画面の一例を示す図である。
【図３０】第１の実施例に係わる、ｌｏｇの階層のデータを折り畳んだ状態のウィンドウ画面の一例を示す図である。
【図３１】第１の実施例に係わる、ｓｅｓｓｉｏｎの階層のデータを折り畳んだ状態のウィンドウ画面の一例を示す図である。
【図３２】第１の実施例に係わる、階層の折り畳みの状態遷移を表したステートチャート図である。
【図３３】第１の実施例に係わる、属性追加ボタンを押す等により、表示される属性追加処理用のウィンドウ画面の一例を示す図である。
【図３４】第１の実施例に係わる、属性追加処理のテスト実行が終了したときの、ユーザインターフェース部のウィンドウ画面の一例を示す図である。
【図３５】第１の実施例に係わる、属性追加処理のシーケンス図である。
【図３６】第１の実施例に係わる、抽出処理ボタンを押す等により、表示される抽出処理用のウィンドウ画面の一例を示す図である。
【図３７】第１の実施例に係わる、属性追加処理のテスト実行が終了したときに、表示されるウィンドウ画面の一例を示す図である。
【図３８】第１の実施例に係わる、抽出処理のシーケンス図である。
【図３９】第１の実施例に係わる、集計ボタンを押す等により、表示される集計処理用のウィンドウ画面の一例を示す図である。
【図４０】第１の実施例に係わる、集計処理のテスト実行および集計処理の本番実行が終了したときに、表示されるウィンドウ画面の一例を示す図である。
【図４１】第１の実施例に係わる、集計処理のシーケンス図である。
【図４２】第１の実施例に係わる、表示用データ生成部のフローチャート図である。
【図４３】第１の実施例に係わる、サンプリング後のデータの一例を示した図である。
【発明を実施するための形態】
【００２５】
以下、図面を参照して本発明の実施例を説明する。なお、本明細書において、コンピュータ等のデータ処理装置が、その処理部においてプログラムによって実現する機能を、「処理」、「部」や「手段」と表現する場合がある。たとえば、データの階層化機能を「階層化処理」を「階層化部」、「階層化手段」等と呼ぶ。
【００２６】
［実施例１］
第１の実施例は、複数のコンピュータ上で、階層構造を持つデータに対して、データ分析処理を実行するための好適なユーザインターフェースを備えたデータ処理装置を示す。
【００２７】
以下、第１の実施例のデータ処理装置について説明する。なお、本実施例のデータ処理装置で使用するコンピュータは、汎用のコンピュータであり、例えば、図２４に示す構成を持つものである。図２４を簡単に説明すると、２４００はコンピュータを示しており、入力部であるキーボードやマウス等の入力デバイス２４０１、インターネットなどのネットワークに接続するためのネットワークインターフェース部であるネットワークデバイス２４０２、処理部である中央処理部（Central Processing Unit：ＣＰＵ）２４０３、記憶部である主記憶部２４０４と補助記憶部２４０５、出力部である表示装置２４０７等が内部のバス２４０６に接続される構成を持つ。入力デバイス２４０１と表示デバイス２４０７とは、ユーザインターフェース部を構成している。ＣＰＵ２４０３は、記憶部に記憶或いはダウンロードされるプログラムを実行することにより、以下詳述するような各種の処理を行う。
【００２８】
図２５は、第１の実施例のデータ処理装置の構成例を示す機能ブロック図である。図２５はデータの流れを示した図であり、各機能処理部のデータのやり取りの詳細に関しては、図３５、図３８、図４１を用いて後述する。図２５において、ユーザインターフェース部２５００と表示用データ生成部２５０２と分析処理部２５０４とデータ管理部２５０５は、その一部或いは全部が、上述したＣＰＵ２４０３におけるプログラム処理として実現される。ユーザインターフェース部２５００には、図２４で示した入力デバイス２４０１と表示デバイス２４０７のハードウェア構成を含んでいる。ユーザインターフェース部２５００のそれ以外の部分と、表示用データ生成部２５０２と分析処理部２５０４とデータ管理部２５０５は、同一のコンピュータ上で実施されても良いし、或いは複数のコンピュータ上で分散して実施されても良い。なお、ユーザインターフェース部２５００は、その構成の一部として、マウスなどの入力デバイス２４０１とディスプレイなどの表示デバイス２４０７を備える以外に、それらのハードウェアに接続される構成を取ることもできることは言うまでもない。
【００２９】
また、表示用データ２５０１と抽出された一時データ２５０３と、階層構造を持つ大量データである階層構造データ２５０６は上述した主記憶部２４０４や補助記憶部２４０５などの記憶部に蓄積、保持される。表示用データ２５０１と抽出された一時データ２５０３と、階層構造を持つ大量データである階層構造データ２５０６は、同一のコンピュータ上に蓄積、保持されても良いし、或いは複数のコンピュータ上で分散して蓄積、保持されても良い。
【００３０】
以下、第１の実施例のデータ処理装置で処理および表示するデータの形式について説明する。
【００３１】
なお、本実施例の説明においては、階層構造データ２５０６として、図４に示すデータ４００を例にとって説明する。しかしながら、本実施例は、図４に示すデータ以外のデータにも適用可能であるとは明らかである。図４に示すデータ４００は、ユーザが体につけた加速度センサのログを表している。ログには「ユーザＩＤ（user-idタグ）」、「行動（actionタグ）」、「日付（dateタグ）」、「時刻（timeタグ）」、「ｘ方向の加速度（xタグ）」、「ｙ方向の加速度（yタグ）、「ｚ方向の加速度（zタグ）」の属性値が記録されている。図４には１ユーザ分しか示されていないが、実際には複数のユーザのデータがある。
【００３２】
図５の５００は、図４のＸＭＬデータ４００において、ＸＭＬタグを括弧に置き換えたデータである。ただし異なるデータの組合せには小括弧“（”と“）”と使っており、一方、同じデータ型の繰り返しには、大括弧“［”と“］”を使って表している。以下では、小括弧で表される異なるデータの組合せをタプルと呼び、大括弧で表される同じデータ型の繰り返しはリストと呼ぶ。図５では、例として小括弧と大括弧でリストとタプルによる階層構造を表現しているが、小括弧と大括弧以外にも、ＸＭＬを含む多くの表現により、リストとタプルによる階層構造を表現することが可能である。
【００３３】
図６は、図５に示すデータ５００のデータ構造を１ユーザ分だけ６００として模式的に表したものである。データ構造６００では、タプルはＴで表し、リストはＬで表している。各ノードの名前は、図４に示すＸＭＬデータ４００のＸＭＬタグ名に対応している。リストの要素は、同じデータ型の繰り返しであるので、省略して先頭の要素だけ書くことにする。第１の実施例では、図６に示すようなリストとタプルで階層的（再帰的）に表されるデータ６００を対象として、データ処理および表示を行う。
【００３４】
図６の例に示したデータ６００には階層が３つある。１番目のｕｓｅｒの階層は、ｕｓｅｒ−ｉｄとｓｅｓｓｉｏｎｓ（ｓｅｓｓｉｏｎのリスト）からなる。２番目のｓｅｓｓｉｏｎの階層は、ａｃｔｉｏｎとｄａｔｅとｌｏｇｓ（ｌｏｇのリスト）からなる。３番目のｌｏｇの階層は、ｔｉｍｅとｘとｙとｚからなる。第１の実施例のデータ処理装置では、その処理として属性追加処理と抽出処理と集計処理を実行することができる。
【００３５】
図２６は、第１の実施例のデータ処理装置で想定される属性追加処理の例を示している。２６００は図５に例として示した階層構造を持つデータであり、２６０１はそれを属性追加処理した後のデータの例である。図２６に示す例においては、図４に示すＸＭＬデータ４００におけるｌｏｇタグの数をｓｅｓｓｉｏｎのタグごとにカウントして、ｓｅｓｓｉｏｎの階層に新しい属性値が追加される。図２６のデータ２６０１では、追加された属性値には下線を付して示している。本実施例で実行可能な属性追加処理は図２６に示した例のみならず、プログラムにより実行できるあらゆる属性追加処理を実行することが可能である。
【００３６】
図２７は、第１の実施例のデータ処理装置で想定される抽出処理の例を示している。２７００は図５に例として示した階層構造を持つデータであり、２７０１はそれを抽出処理した後のデータの例である。図２７に示す例においては、図４に示すＸＭＬデータ４００における、ａｃｔｉｏｎタグの値と、ｘタグの値のｓｅｓｓｉｏｎの階層における平均の、ペアが出力される。抽出処理で出力されたデータは記憶装置に一時保存され、表計算ソフトウェア等の別の分析プログラムで利用されたり、別のコンピュータにコピーされて利用されたりする。本実施例で実行可能な抽出処理は図２７に示した例のみならず、プログラムにより実行できるあらゆる抽出処理を実行することが可能である。
【００３７】
図２８は、第１の実施例のデータ処理装置で想定される集計処理の例を示している。２８００は図５に例として示した階層構造を持つデータであり、２８０１はそれを集計処理した後のデータの例である。図２８に示す例においては、図４に示すＸＭＬデータ４００における、ａｃｔｉｏｎタグの値の出現頻度が計算され出力される。例えば２８０１の例では、ａｃｔｉｏｎタグの値が「移動」であったｓｅｓｓｉｏｎは全部で１０１２３４２回あったことを示している。本実施例で実行可能な集計処理は図２８に示した例のみならず、プログラムにより実行できるあらゆる集計処理を実行することが可能である。
【００３８】
以下、図２５に戻って、第１の実施例のデータ処理装置の機能構成を説明する。
【００３９】
ユーザインターフェース部２５００は、上述した出力部を使って、階層構造データ２５０６の一部をユーザに提示し、上述した入力部を使って、ユーザからの分析処理命令を受け付ける。また実行した属性追加処理および抽出処理および集計処理の結果をユーザに出力部から表示する。
【００４０】
蓄積された表示用データ２５０１は、ユーザインターフェース部２５００で表示するためのデータであり、階層構造データ２５０６の一部を表示用に加工したものである。表示用データ生成部２５０２は、データ管理部２５０５から階層構造データ２５０６の一部を取得し、表示用の形式に変換し、表示用データ２５０１を生成する。階層構造データ２５０６は大量にあるため、すべてをユーザインターフェース部２５００のディスプレイに表示できない。そのため、ユーザインターフェース部２５００に表示できる量のデータのみ、あるいは表示できる位の量を、表示用データに変換しておく。
【００４１】
分析処理部２５０４は、ユーザインターフェース部２５００から入力される分析処理命令を受け取り、表示用データ２５０１またはデータ管理部２５０５からデータを取得し、属性追加処理および抽出処理および集計処理などの分析処理を実行する。各処理の詳細は図３５、図３８、図４１を用いて後述する。
【００４２】
分析処理を実行する場合には、まず表示用データ２５０１を用いてテスト実行をしてから、階層構造データ２５０６に対して本番実行する。これによりまず少量の表示用データでテスト実行して、ユーザが入力した分析処理命令に間違いがないか確認することができる。
【００４３】
データ管理部２５０５は、階層構造データ２５０６のインターフェースとして機能し、階層構造データ２５０６に対してデータの格納や取り出しを行う。
図２９は、図２５のユーザインターフェース部２５００の出力部であるディスプレイに表示されるウィンドウ画面を示している。図２９に示すウィンドウ画面には、階層構造データ２５０６をユーザに提示するための表が示されている。表の行２９０１は階層の名称である階層名を表示する行であり、図２９の例では、ｕｓｅｒの階層と、ｓｅｓｓｉｏｎの階層と、ｌｏｇの階層があるデータが示されている。行２９０４は属性の名称である属性名を表示する行であり、図２９の例では、ｕｓｅｒの階層に、ｕｓｅｒ−ｉｄの属性があり、ｓｅｓｓｉｏｎの階層にａｃｔｉｏｎ、ｄａｔｅの属性があり、ｌｏｇの階層にｔｉｍｅ、ｘ、ｙ、ｚの属性がある。
【００４４】
ボタン２９００は抽出処理用のウィンドウを表示するときに押すボタンであり、ボタン２９０３は属性追加処理用のウィンドウを表示するときに押すボタンであり、ボタン２９０６は集計処理用のウィンドウを表示するときに押すボタンである。ボタン２９０２はデータを表示している表を折り畳む、または展開するためのボタンである。チェックボックス２９０５は抽出処理を実行するときに、抽出する対象となる属性を選択するためのチェックボックスである。
本実施例のデータ処理装置では、図４や図５のような階層構造を持つ大量データを、表示部の表示画面に表示できる量のデータだけ、図２９に示す表の形式でユーザに提示することで、階層構造を持つ大量のデータに対し、目視により容易にデータの構造・意味・形式を理解することが可能となる。
【００４５】
図３０は、図２９に示したウィンドウ画面において、ｌｏｇの階層のデータを折り畳んだ状態のウィンドウ画面である。画面に表示された表３０００が示すように、ボタン２９０２を押すことにより、ｌｏｇの階層のデータを折り畳むと、ｓｅｓｓｉｏｎの一つにつき、ｌｏｇの階層のデータは１行だけ表示される。
【００４６】
図３１は、図２９のウィンドウ画面において、画面に表示された表３１００が示すように、ボタン２９０２を押すことにより、ｓｅｓｓｉｏｎの階層のデータを折り畳んだ状態のウィンドウ画面である。ｓｅｓｓｉｏｎの階層のデータを折り畳むと、ｕｓｅｒ１つにつき、ｓｅｓｓｉｏｎの階層のデータは１行だけ表示される。
【００４７】
図３２は、階層の折り畳みの状態遷移を表したステートチャート図である。状態３２００はすべての階層を表示している状態を表し、図２９のウィンドウ画面の状態に相当する。状態３２０１はｌｏｇの階層を折り畳んだ状態を表し、図３０のウィンドウ画面の状態に相当する。状態３２０２はｓｅｓｓｉｏｎの階層を折り畳んだ状態を表し、図３１のウィンドウ画面の状態に相当する。ボタン２９０２を押すことによって、図３２における状態が遷移する。状態３２００において、ｌｏｇの階層の折り畳むボタンを押すと状態３２０１に遷移する。状態３２００において、ｓｅｓｓｉｏｎの階層の折り畳むボタン２９０２を押すと状態３２０２に遷移する。状態３２０１において、ｌｏｇの階層の折り畳むボタン２９０２を押すと状態３２００に遷移する。状態３２０１において、ｓｅｓｓｉｏｎの階層の折り畳むボタン２９０２を押すと状態３２０２に遷移する。状態３２０２において、ｌｏｇの階層の折り畳むボタン２９０２を押すと状態３２００に遷移する。状態３２０２において、ｓｅｓｓｉｏｎの階層の折り畳むボタン２９０２を押すと状態３２０１に遷移する。行を折り畳む際は，対象となる階層のすべての行が同時に折り畳まれる．また行を展開する際は，対象となる階層のすべての行が同時に展開される。
【００４８】
ユーザからの操作により階層を折り畳めるようにすることで、ユーザが階層を折り畳む操作により、データの階層構造を直感的に理解できるようになる。また注目していない階層を折り畳むことにより、ユーザが注目する階層に意識を集中させやすくなる効果がある。
【００４９】
以下、図を用いて、属性追加処理、抽出処理、集計処理の詳細を説明する。
【００５０】
図３３は、図２９においてボタン２９０３を押す等により、表示される属性追加処理用のウィンドウ画面である。３３００は追加する属性の名前を入力する欄であり、３３０１は追加する属性が属する階層の名前を入力する欄であり、３３０２は追加する属性の値を計算するための式およびプログラムを記述する欄である。ボタン３３０３を押すことにより、属性追加処理が実行される。
【００５１】
図３４は属性追加処理のテスト実行が終了したときの、ユーザインターフェース部２５００のウィンドウ画面である。３４００が新規に追加される属性が表示されている列である。
【００５２】
図３５は属性追加処理のシーケンス図である。まずユーザインターフェース部２５００において、図３３のウィンドウ画面のプログラム記述欄３３０２で属性追加処理の命令を記述し、属性追加処理のテスト実行を行うため、ボタン３３０３を押す。すると分析処理部２５０４に表示用データ２５０１と分析命令が渡され（図３５のａｄｄＡｔｔｒＴｅｓｔ）、分析処理部２５０４は処理を実行して、表示用データ生成部２５０２に追加された属性値を渡す。表示用データ生成部は、追加される属性値を表示用データ２５０１に変換して、ユーザインターフェース部２５００のディスプレイに表示する。従ってテスト実行した際に、すぐに結果がユーザインターフェース部２５００に表示されることになり、大量データに対する属性追加処理の実行の終了を待つことなくユーザは結果を見ることができる。またこれにより意図した通りに処理命令を記述できているか確認することができる。
【００５３】
属性追加処理の本番実行を行うために、テスト実行が終了したのち、もう一度ボタン３３０３を押す。すると、分析処理部２５０４に分析命令が渡され（図３５のａｄｄＡｔｔｒ）、分析処理部２５０４は、データ管理部２５０５からデータを取得し、処理の実行を開始する。大量データに対し処理を実行するため、すぐには処理が終了しない。そのためユーザインターフェース部２５００は定期的に分析処理部２５０４に処理終了したかどうかを問い合わせる（図３５のｉｓＦｉｎｉｓｈｅｄ）。処理が終了したら、ユーザインターフェース部２５００は、表示用データ生成部２５０２に新規に追加された属性のデータを表示する要求を出し、表示用データ生成部２５０２はデータ管理部２５０５からデータを取得し、表示用データ２５０１に変換して、ユーザインターフェース部２５００に表示する。
【００５４】
図３６は、図２９においてチェックボックス２９０５にチェックを入れた後に、抽出処理ボタン２９００を押す等により、表示される抽出処理用のウィンドウ画面である。３６００は抽出処理を実行する階層の名前を入力する欄であり、３６０１は出力先のディレクトリ名を入力する欄であり、３６０２は抽出処理の結果として出力されるデータの第１列目を計算するための式およびプログラムを入力する欄であり、３６０３は抽出処理の結果として出力されるデータの第２列目を計算するための式およびプログラムを入力する欄であり、３６０４は抽出処理の結果として出力されるデータの第３列目を計算するための式およびプログラムを入力する欄である。ボタン３６０５を押すことにより、抽出処理が実行される。
【００５５】
図３７は属性追加処理のテスト実行が終了したときに、ディスプレイに表示されるウィンドウ画面である。ウィンドウ３７００には抽出処理した結果が示される。
【００５６】
図３８は抽出処理のシーケンス図である。まずユーザインターフェース部２５００において、図３６のウィンドウ画面で抽出処理の命令を記述し、抽出処理のテスト実行を行うため、ボタン３６０５を押す。すると分析処理部２５０４に表示用データ２５０１と分析命令が渡され（図３８のｆｉｌｔｅｒＴｅｓｔ）、分析処理部２５０４は処理を実行して、結果を図３７に示すウィンドウ３７００に表示する。従ってテスト実行した際に、すぐに結果がユーザインターフェース部２５００に表示されることになり、大量データに対する属性追加処理の実行の終了を待つことなくユーザは結果を見ることができる。またこれにより意図した通りに処理命令を記述できているか確認することができる。
【００５７】
抽出処理の本番実行を行うために、テスト実行が終了したのち、もう一度ボタン３６０５を押す。すると、分析処理部２５０４に分析命令が渡され（図３８のｆｉｌｔｅｒ）、分析処理部２５０４は、データ管理部２５０５からデータを取得し、処理の実行を開始する。大量データに対し処理を実行するため、すぐには処理が終了しない。そのためユーザインターフェース部２５００は定期的に分析処理部２５０４に処理終了したかどうかを問い合わせる（図３８のｉｓＦｉｎｉｓｈｅｄ）。処理が終了したら、ユーザインターフェース部は、処理が終了した旨を画面上に表示してユーザに知らせる。処理結果のデータは抽出された、３６０１に入力したディレクトリに、一時データ２５０３として一時保存される。一時データ２５０３は他のプログラム等で実行される分析に利用される。
【００５８】
図３９は、図２９においてボタン２９０６を押す等により、表示される集計処理用のウィンドウ画面である。３９００は集計処理を実行する対象の属性の名前を入力する欄であり、３９０１は集計処理の式およびプログラムを記述する欄である。ボタン３９０２を押すことにより、集計処理が実行される。
【００５９】
図４０は集計処理のテスト実行および集計処理の本番実行が終了したときに、表示されるウィンドウ画面である。ウィンドウ４０００には集計処理した結果が示される。
【００６０】
図４１は集計処理のシーケンス図である。まずユーザインターフェース部２５００において、図３９のウィンドウ画面で集計処理の命令を記述し、集計処理のテスト実行を行うため、ボタン３９０２を押す。すると分析処理部２５０４に表示用データ２５０１と分析命令が渡され（図４１のａｇｇｒｅｇａｔｅＴｅｓｔ）、分析処理部２５０４は処理を実行して、結果を図４０に示すウィンドウ画面に表示する。従ってテスト実行した際に、すぐに結果がユーザインターフェース部２５００に表示されることになり、意図した通りに処理命令を記述できているか確認することができる。
【００６１】
集計処理の本番実行を行うために、テスト実行が終了したのち、もう一度ボタン３９０２を押す。すると、分析処理部２５０４に分析命令が渡され（図４１のａｇｇｒｅｇａｔｅ）、分析処理部２５０４は、データ管理部２５０５からデータを取得し、処理の実行を開始する。大量データに対し処理を実行するため、すぐには処理が終了しない。そのためユーザインターフェース部２５００は定期的に分析処理部２５０４に処理終了したかどうかを問い合わせる（図４１のｉｓＦｉｎｉｓｈｅｄ）。処理が終了したら、結果を図４０に示すウィンドウ画面に表示する。
【００６２】
図４２は、表示用データ生成部２５０２のフローチャート図である。表示用データ生成部２５０２は、ユーザインターフェース部２５００の起動時にウィンドウ画面を表示するときと、属性追加処理のテスト実行および本番実行時に新しく追加された属性をウィンドウ画面に表示するときの、２つの場合に利用される。まずＳ４２００で属性追加処理の結果を表示するかどうかで分岐する。属性追加処理のテスト実行の結果を表示するのではない場合、すべてのｉに対してＬ［ｉ］＝０と初期化して（Ｓ４２０１）、Ｓ４２００に進む。ここでＬ［ｉ］は、すでにウィンドウ画面に表示されているｉ番目の階層に属する属性の数を表す。例えば、図２９に示すウィンドウ画面が表示されている場合、Ｌ［０］はｕｓｅｒの階層の属性数を表し、図２９の例では１であり、Ｌ［１］はｓｅｓｓｉｏｎの階層の属性数を表し、図２９の例では２であり、Ｌ［２］はｌｏｇの階層の属性数を表し、図２９の例では４である。
【００６３】
一方、分岐Ｓ４２００において属性追加処理のテスト実行の結果を表示する場合には、直接Ｓ４２００に進む。
【００６４】
次に各階層でデータをサンプリングする（Ｓ４２０２）。データは大量にあるため、すべてのデータをウィンドウ画面上に表示することはできない。そのためサンプリングすることにより画面に表示するデータを抽出する。例えば、階層ごとに表示するデータの数を予め決めておき、データの先頭から対応する個数だけデータを抜き出す。例えば図２９の例であれば、ｕｓｅｒの階層、ｓｅｓｓｉｏｎの階層、ｌｏｇの階層のすべての階層においてデータは２つずつ表示すると決められている。
【００６５】
図４３は、ｕｓｅｒの階層、ｓｅｓｓｉｏｎの階層、ｌｏｇの階層のすべての階層においてデータは２つずつ表示すると予め決めておいた場合の、サンプリング後のデータのウィンドウ画面であり、サンプリング後のデータの一例が表示されたウィンドウ４３００を示す。
【００６６】
続いてサンプリング後のデータから属性値を１つ読む（Ｓ４２０３）。読み込んだ属性値が、ｉ番目の階層の中のｊ番目の属性のｋ番目に出てくる値とする。ｉ、ｊ、ｋの値は、例えば図４３に示すサンプリング後のデータにおいて、括弧の数をカウントすることにより算出することができる。例えば、属性ａｃｔｉｏｎは、２番目の階層の１番目の属性であるので、ｉ＝２、ｊ＝１である。さらに属性値「会議」は属性ａｃｔｉｏｎの中で２番目に出てくるので、ｋ＝２である。ｉ、ｊ、ｋの値を求めたら、ａｔｔｒ［ｉ］［Ｌ［ｉ］＋ｊ］［ｋ］＝ｖと代入する。Ｌ［ｉ］の値を用いることで、属性追加処理のテスト実行を行った際には、新しく追加された属性に関してのみ表示用データ生成処理を実行すればよい。即ち、すべての属性に関してもう一度表示用データの生成処理を実行する必要はなく、高速に属性追加処理の結果を表示することができる。
【００６７】
また実施例２で詳述するように、属性別に分割されファイルされたデータを用いると、階層構造を復元することなく、属性別にファイルされたままのデータを入力して、図４２の表示用データ処理を実行することが可能である。これにより実施例２に示す属性別に分割してファイル毎にデータを管理する場合において、階層構造を復元する処理を実行することないため、高速に表示用データを生成することができる。すなわち、記憶部に、属性名に対応する属性別データ各々をファイル毎に記憶しておくことにより、高速に表示用データを生成することが可能となる。さらに、属性名に対応するリストのデータを集計する際にも、対応する属性名の属性別データファイルを用いて高速に集計を行うことも可能となる。
【００６８】
Ｓ４２０５では、まだ読み込んでいない属性値があればＳ４２０３に戻り、そうでなければＳ４２０６に進む。
【００６９】
最後にＬ［ｉ］の値を更新する（Ｓ４２０６）。例えば図２９のウィンドウの画面を表示した場合、Ｌ［０］＝１、Ｌ［１］＝２、Ｌ［２］＝４と更新する。
【００７０】
分析処理部２５０４に関しては、一般的なプログラミング言語の処理系と同様の方式で実現可能である。データ管理部２５０５に関しては実施例２でその詳細を述べる。
【００７１】
［実施例２］
第２の実施例は、１つのコンピュータ上で、上述してきたような階層構造を持つデータに対して、データ分析処理を高速に行うデータ処理装置の構成を示す。
【００７２】
以下、第２の実施例のデータ処理装置について説明する。本実施例のデータ処理装置は、事前にデータを前処理してコンピュータ上で管理する形式に変換する装置と、データ分析のスクリプト、ソースコードを受け取ってデータ分析を実行する装置とからなる。事前にデータを前処理してコンピュータ上で管理する形式に変換する装置に関しては図１を用いて後述する。データ分析のスクリプト、ソースコードを受け取ってデータ分析を実行する装置に関しては、図２を用いて後述する。
【００７３】
さて、図１は、事前にデータを前処理してコンピュータ上で管理する形式に変換する装置の機能構成例を示すブロック図である。図１に示す装置を構成するコンピュータは、図２に示す装置を構成するコンピュータと同一、或いは別個であっても良い。図１において、階層化処理１０１とデータ分析処理１０３は、上述した図２４の処理部であるＣＰＵ２４０３によるプログラム処理として実現される処理である。図２以降の図面における各処理ブロックも、上述したＣＰＵ２４０３のプログラム処理として実現される処理である。
【００７４】
また、素データ１００、階層構造データ１０２、スキーマ情報１０５、属性別データ１０６は上述した図２４の主記憶部２４０４や補助記憶部２４０５などの記憶部に蓄積、保持される。すなわち、素データ１００を受け取り、処理部による階層化処理１０１により、階層構造データ１０２とスキーマ情報１０５が出力される。続いて、階層構造データ１０２とスキーマ情報１０５から、処理部によるデータ分割処理１０３により、属性別データ１０６が出力される。
【００７５】
第２の実施例では、図１に示す前処理は、素データ１００に対し一度だけ実行され、分析対象となるデータはスキーマ情報１０５と属性別データ１０６の組１０４の形式でコンピュータ上に管理される。なお階層構造データ１０２とスキーマ情報１０５を入力として受け取った場合には、階層化処理１０１は行わずに、データ分割処理１０３のみを行うことも可能である。
【００７６】
以下では素データ１００として、図２６の処理の対象とした図３に示すデータを例にとって説明する。しかしながら、本実施例は、図３に示すデータ以外のデータにも適用可能であるとは明らかである。図３に示す素データ１００は、ユーザが体につけた加速度センサのログを表している。ログには素データ１００の上一行目に示す、「ユーザＩＤ」、「行動」、「日付」、「時刻」、「ｘ方向の加速度」、「ｙ方向の加速度」、「ｚ方向の加速度」の値が記録されている。図３には１ユーザ分しか示されていないが、実際には複数のユーザのデータがある。
【００７７】
図１の階層化処理１０１では、図３に示すような表形式の素データ１００を、階層構造を持つデータ形式に変換する。階層構造を持つデータとして、例えば上述したＸＭＬが挙げられる。図３に示す素データ１００を、ユーザＩＤと行動と日付をキーとしてグループ化し、ＸＭＬ形式に変換したデータを図４の４００として示す。
【００７８】
図３に示すデータから図４に示すＸＭＬ形式のデータ４００を生成するには、まずユーザＩＤが同一の行をグループ化し、続いてそれぞれのグループごとに、さらに行動と日付が同一の行をグループ化する。階層化処理１０１の内容は、本実施例のデータ分析処理を実施する実施者が、データ分析目的にあわせて決定する。例えば、データ分析処理の実施者は、ＸＭＬのタグ名やグループ化のためのキーとなる属性を決定する。
【００７９】
図５は、図４のＸＭＬデータにおいて、ＸＭＬタグを括弧に置き換えたデータである。ただし異なるデータの組合せには小括弧“（”と“）”を使っており、一方、同じデータ型の繰り返しには、大括弧“［”と“］”を使って表している。以下では、小括弧で表される異なるデータの組合せをタプルと呼び、大括弧で表される同じデータ型の繰り返しはリストと呼ぶ。本実施例では、データを、リストとタプルで階層的（再帰的）に表現する。図５では、例として小括弧と大括弧でリストとタプルによる階層構造を表現しているが、小括弧と大括弧以外にも、ＸＭＬを含む多くの表現により、リストとタプルによる階層構造を表現することが可能である。
【００８０】
図６は、図５に示すデータのデータ構造を１ユーザ分だけ６００として模式的に表したものである。データ構造６００では、タプルはＴで表し、リストはＬで表している。各ノードの名前は、図４に示すＸＭＬデータのＸＭＬタグ名に対応している。リストの要素は、同じデータ型の繰り返しであるので、省略して先頭の要素だけ書くことにする。
【００８１】
図７は、第２の実施例のデータ処理装置において、想定されるデータ分析の例を示している。図７に示す例においては、第１回目の分析では、素データに階層化処理１０１を施したデータ７００に対して、図４に示すＸＭＬデータにおけるｌｏｇタグ間で時刻の値の差を計算することにより時間間隔が算出され、時間間隔が追加されたデータ７０１が出力される。図７の７０１において、追加された値には下線を引いてある。第２回目の分析では、時間間隔が追加されたデータ７０１に対し、図４に示すＸＭＬデータにおけるｌｏｇｓタグごとに、時刻と時間間隔を抽出しクラスタリングを行う。クラスタリングはｋ−ｍｅａｎｓなどの公知の方法を用いて行う。第３回目の分析では、時間間隔が追加されたデータ７０１に対し、図４に示すＸＭＬデータにおけるｌｏｇｓタグ内のｘ方向の加速度の平均が算出され、ｘ方向の加速度の平均が追加されたデータ７０２が出力される。図７の７０２において、追加された値には下線を引いてある。図７の７０１と７０２を比較して分かるように、データは任意の階層に追加され得る。第４回目の分析では、ｘ方向の加速度の平均が追加されたデータ７０２に対し、行動とｘ方向の加速度の平均を抽出し相関分析を行う。相関分析は、相関係数の算出など公知の方法を用いて行う。
【００８２】
図７に示すデータ分析の例では、少数の特定の属性の値のみを用いて処理が行われ、算出された値は、新しい属性値として任意の階層に追加されるか、あるいは他の公知の処理に渡される。第２の実施例では、少数の特定の属性のみを利用するデータ分析において、データを前処理して属性値ごとに分割し、属性別のファイルにデータを保持することにより、処理を高速化することが可能となる。
【００８３】
図８は、素データとして図３に示すデータを想定した場合の、スキーマ情報１０５である。図６で模式的に示したデータ構造を、括弧で表現し、プログラムで扱いやすくしたものである。図８に示すスキーマ情報は、図４に示すＸＭＬデータのタグのみを抜き出したものであり、本実施例の実施者が決定した階層化処理１０１を実行することにより、自動的に生成することが可能である。
【００８４】
図９は、素データとして図３に示すデータを想定した場合の、階層構造データ１０２とスキーマ情報１０５から、データ分割処理１０３により生成される属性別データ１０６の例を示している。属性別データ１０６は、ファイル名管理テーブル９００と属性値が格納されている属性別のファイル（９０１、９０２、９０３など）で管理されている。９０１は、図４に示すＸＭＬデータのｕｓｅｒ−ｉｄタグの値が格納されているファイル群である。９０２は、図４に示すＸＭＬデータのｔｉｍｅタグの値が格納されているファイル群である。９０３は、図４に示すＸＭＬデータのxタグの値が格納されているファイル群である。ファイル名管理テーブル９００には、図４に示すＸＭＬデータのタグの値、すなわち属性名が、どのファイルに格納されているかが管理されている。例えば、ファイル名管理テーブル９００を参照することにより、図４に示すＸＭＬデータのｔｉｍｅタグの値が、ｆｉｌｅ＿ｔｉｍｅ＿０．ｔｘｔ、ｆｉｌｅ＿ｔｉｍｅ＿１．ｔｘｔに順に格納されていることがわかる。
【００８５】
図１０は、素データとして図３に示すデータを想定した場合の、属性値が格納されているファイルの内容を示している。同図上段の１０００はｆｉｌｅ＿ｕｓｅｒ−ｉｄ＿０．ｔｘｔの内容を示している。ユーザＩＤが、１行に１ユーザの単位で記述されている。同図中段の１００１はｆｉｌｅ＿ｔｉｍｅ＿０．ｔｘｔの内容を示している。時刻が、１行に１ユーザの単位で記述されている。１ユーザにおいて、時刻のデータは図６のｌｏｇｓとｓｅｓｓｉｏｎｓで、２重にリストで階層化されているので、１行のデータは深さ２のリストになる。同図下段の１００２はｆｉｌｅ＿ｘ＿０．ｔｘｔの内容を示している。ｘ方向の加速度が、１行に１ユーザの単位で記述されている。１ユーザにおいて、ｘ方向の加速度のデータは図６のｌｏｇｓとｓｅｓｓｉｏｎｓで２重にリストで階層化されているので、１行のデータは深さ２のリストになる。
【００８６】
図１１は、ＣＰＵで実行される図１のデータ分割処理１０３のフローチャートである。まずスキーマ情報１０５に基づき、書き込み用ファイルを開き、ファイル名管理テーブルを初期化する（Ｓ１１００）。例えば、図８に示すスキーマ情報の場合は、ｆｉｌｅ＿ｕｓｅｒ−ｉｄ＿０．ｔｘｔ、ｆｉｌｅ＿ａｃｔｉｏｎ＿０．ｔｘｔ、ｆｉｌｅ＿ｄａｔｅ＿０．ｔｘｔ、ｆｉｌｅ＿ｔｉｍｅ＿０．ｔｘｔ、ｆｉｌｅ＿ｘ＿０．ｔｘｔ、ｆｉｌｅ＿ｙ＿０．ｔｘｔ、ｆｉｌｅ＿ｚ＿０．ｔｘｔを書き込み用ファイルとして開く。また、これらのファイル名をファイル管理テーブル９００に書き込む。例えば、図８に示すスキーマ情報を読み込むと、１番最初にｕｓｅｒ−ｉｄという文字列がある。よってｆｉｌｅ＿ｕｓｅｒ−ｉｄ．ｔｘｔを書き込み用ファイルとして開き、ファイル管理テーブル９００に、属性フィールドがｕｓｅｒ−ｉｄ、ファイル名フィールドが｛ｆｉｌｅ＿ｕｓｅｒ−ｉｄ．ｔｘｔ｝であるレコードを追加する。
【００８７】
次に、階層構造データ１０２から１ユーザ分のデータを読み込む（Ｓ１１０１）。以下では、読み込む階層構造データは、図５に示すように括弧で階層が表現されていると想定する。しかしながら、括弧以外の、例えばＸＭＬなどの任意の階層構造を表現できるデータ形式においても、本実施例の実現が可能であることは明らかである。
【００８８】
続いて、読み込んだ階層構造データ１０２に対し、構造解析を行い、属性ごとに分解してファイルに書き込む（Ｓ１１０２）。Ｓ１１０２の処理は、読み込んだ階層構造データ１０２を引数として、再帰関数ｐａｒｓｅを呼ぶことにより実行する。再帰関数ｐａｒｓｅに関しては、図１２を用いて後述する。
【００８９】
続いて、まだ読み込んでいないデータがあるかどうかで条件分岐する（Ｓ１１０３）。まだ読み込んでいないデータがない場合には、データ分割処理１０３は終了となる。まだ読み込んでいないデータがある場合には、書き込み用ファイルのいずれかが、予め設定された最大ファイルサイズを超えているかどうかで条件分岐する（Ｓ１１０４）。最大ファイルサイズを超えていない場合には、処理Ｓ１１０１に戻る。最大ファイルサイズを超えた場合には、最大ファイルサイズを超えた属性に関して、書き込み用の新しいファイルを開く（Ｓ１１０５）。例えば、ｆｉｌｅ＿ｄａｔｅ＿０．ｔｘｔが最大ファイルサイズを超えた場合には、新しくｆｉｌｅ＿ｄａｔｅ＿１．ｔｘｔを書き込み用ファイルとして開く。続いて、最大ファイルサイズを超えた属性に関して、新しく開いた書き込み用ファイル名を、ファイル名管理テーブル９００に追加する（Ｓ１１０６）。
【００９０】
例えば、ｆｉｌｅ＿ｄａｔｅ＿０．ｔｘｔが最大ファイルサイズを超えた場合には、ファイル名管理テーブル９００の、属性フィールドがｄａｔｅのレコードの、ファイル名のフィールドを、｛ｆｉｌｅ＿ｄａｔｅ＿０．ｔｘｔ、ｆｉｌｅ＿ｄａｔｅ＿１．ｔｘｔ｝に変更する。ファイル名は左から古い順に並ぶようにする。よって左から順に読めば、階層化データのユーザ順と同じ順になる。また最大ファイルサイズを指定することにより、データが複数のファイルに分割されて保存されるため、データのバックアップ・複製や分散処理が容易になる．Ｓ１１０６の処理が終わったら、Ｓ１１０１の処理に戻る。
【００９１】
図１２は、処理Ｓ１１０２で呼ばれる再帰関数ｐａｒｓｅのフローチャートである。処理Ｓ１１０２において、再帰関数ｐａｒｓｅは階層構造データ１０２を引数として呼び出される。まず引数の１番上の階層のデータ型により条件分岐する（Ｓ１２００）。引数のデータ型が値の場合には、その値自体をタプルに入れて返す（Ｓ１２０１）。ｐａｒｓｅ関数は階層構造のデータに対し、再帰的に呼び出されるため、階層構造の一番下で呼び出されるときには、引数に値のみが入った状態で呼び出される。
【００９２】
条件分岐Ｓ１２００において、引数のデータ型がリストの場合には、リストの各要素ａ［ｉ］に対して、ｐａｒｓｅ（ａ［ｉ］）を再帰的に呼び出し、返された値をそれぞれｂ［ｉ］とする（Ｓ１２０２）。続いて、処理Ｓ１２０２で得られたｂ［ｉ］を転置して返す（Ｓ１２０３）。例えば、ｐａｒｓｅ（［１２３］）を実行する場合、引数がリストなので、［１２３］の要素である１、２、３に対してそれぞれｐａｒｓｅを再帰的に呼び出し、ｐａｒｓｅ（１）、ｐａｒｓｅ（２）、ｐａｒｓｅ（３）を計算する。ここでｐａｒｓｅ（１）は、引数が値なので、分岐Ｓ１２００により処理Ｓ１２０１に分岐し、値１をタプルに入れたｂ［０］＝（１）が返される。同様に、ｂ［１］＝（２）、ｂ［２］＝（３）となる。ここでｂ［ｉ］の転置を取ると、ｂ［ｉ］を行列と見なして、
［（１）（２）（３）］ → （［１２３］）
と変換する。ここで行列と考えると、［（１）（２）（３）］は、３行１列の行列であるのに対し、（［１２３］）は１行３列の行列であり、転置になっている。
【００９３】
条件分岐Ｓ１２００において、引数のデータ型がタプルの場合には、リストの各要素ａ［ｉ］に対して、ｐａｒｓｅ（ａ［ｉ］）を再帰的に呼び出し、返された値をそれぞれｂ［ｉ］とする（Ｓ１２０４）。続いて、ｂ［ｉ］を連結したタプルを返す。例えば、ｐａｒｓｅ（（１２３））を実行する場合、引数がタプルなので、（１２３）の要素である１、２、３に対してそれぞれｐａｒｓｅを再帰的に呼び出し、ｐａｒｓｅ（１）、ｐａｒｓｅ（２）、ｐａｒｓｅ（３）を計算する。ここでｐａｒｓｅ（１）は、引数が値なので、分岐Ｓ１２００により処理Ｓ１２０１に分岐し、値１をタプルに入れたｂ［０］＝（１）が返される。同様に、ｂ［１］＝（２）、ｂ［２］＝（３）となる。ここでｂ［ｉ］を連結すると、
（（１）（２）（３）） → （１２３）
となる。
【００９４】
図１３は、ｐａｒｓｅ関数の作用を示している。図１３上段に示すように、スキーマ情報１０５にｐａｒｓｅ関数を適用すると、スキーマ情報の中にある属性名（図４のＸＭＬデータのタグ名に対応）が順番に抽出される（１３００）。属性名には、リストの深さに対応した数の大括弧が付けられる。例えば、属性timeはスキーマ情報１０５においてリストの深さ２の場所にあるので、出力されるデータ１３００においても大括弧が２つ付けられて出力される。
【００９５】
図１３下段に示すように、階層構造データ５００にｐａｒｓｅ関数を適用すると、図１０に示したファイルに書き込む形式でデータが出力される。出力されるデータ１３０１においては、属性ごとにデータが分解されている。また１３００と１３０１では、属性名と属性値の順番が対応しているので、どのデータをどのファイルに書き込めばよいか分かるようになっている。
【００９６】
以下では図１４に示すデータ分析ソースコードの例にとって説明する。図１４ではプログラム言語ＬＩＳＰでデータ分析ソースコードを書いているが、本実施例はＬＩＳＰ以外のプログラム言語で書いたスクリプト、データ分析ソースコードにも適用可能であることは明らかである。またデータ分析の内容に関しても、本実施例は図１４に示す以外の分析処理においても適用可能であることは明らかである。１４００はデータ分析の内容を記述したものであり、１４００の例では、ｘ方向の加速度の平均を算出する処理を記述している。１４０１は１４００の処理により得られた値をどう扱うかを記述したものであり、１４０１の例では、１４００の処理で得られた値を（２ｎｄ（ｃａｒ（４ｔｈ（ｕｓｅｒ））））に示す位置に、“ａｖｅ−ｘ”という属性名で追加する処理を記述している。２ｎｄはタプルの中の２番目の要素を返す関数であり、３ｒｄはタプルの中の３番目の要素を返す関数であり、４ｔｈはタプルの中の４番目の要素を返す関数である。その他の図１４に含まれるプログラムの命令は、ＬＩＳＰでは標準的に利用されるものであるので、個々の命令の詳細の説明は省く。
【００９７】
図１５は、プログラム１４００の動作例を示している。階層構造データ１５００をプログラム１４００に入力すると、ｘ方向の平均が計算され、結果がリストになった１５０１が出力される。
【００９８】
本実施例では、階層構造データは事前に属性ごとに分割され、図９に示したような属性別データ１０６の形式で管理される。そのため、データ分析プログラムを適用する前に、データ構造を復元する必要がある。
【００９９】
図２は、データ分析のスクリプトであるソースコードを受け取ってデータ分析を実行する装置の構成例を示すブロック図である。データ分析ソースコード２００と図１に示した処理で得られたスキーマ情報１０５と属性別データ１０６から、階層構造データ復元処理２０１により再構成された階層構造データ２０２を得る。続いてデータ分析ソースコード２００と再構成された階層構造データ２０２を用いて、分析処理２０３を行う。分析処理２０３の処理結果は、記憶部に記憶、或いは上述した出力部から出力される。分析処理に属性の追加が含まれる場合には、スキーマ情報１０５と属性別データ１０６を更新する。
【０１００】
図１６は、階層構造データ復元処理２０１のフローチャートである。まずデータ分析ソースコード２００を解析して、必要な属性名を特定する（Ｓ１６００）。例えば、図１４の１４００のデータ分析プログラムには、データの階層構造をたどる関数として、階層構造の上から順に２ｎｄ、３ｒｄ、２ｎｄがある。そこで図８に示したスキーマ情報において、図１７に示すように階層構造１７００を上から順に２ｎｄ、３ｒｄ、２ｎｄとたどることで、必要な属性名が特定できる。図１４のデータ分析プログラム１４００の例では、１つの属性のみ必要であるが、２つ以上の属性が必要な場合でも同様にして必要な属性名を特定できる。
【０１０１】
次にファイル名管理テーブル９００を参照して、特定した属性名のデータが格納されているファイル名を特定し、各属性に関し１番目（最も左）のファイルを開く（Ｓ１６０１）。続いて各ファイルから１行分のデータを読み込む（Ｓ１６０３）。図１０に示した属性別データの例では、１行のデータは１ユーザ分のデータに相当する。ここでデータ分析プログラムに必要な属性しか読み込まないため、１ユーザの全属性を読み込む場合に比べて、データ入力量が低減される。図１４に示したデータ分析ソースコードの例であれば、最も深い階層に４つの属性があり、実際にはそのうち１つの属性のデータしか読み込まないため、データ入力量は１／４に低減される。
【０１０２】
続いてスキーマ情報にファイルから読み込んだデータを埋め込む（Ｓ１６０３）。続いて階層構造を再構成する（Ｓ１６０４）。図１８は、処理Ｓ１６０３と処理１６０４の例を示している。処理１６０３により、ファイルｆｉｌｅ＿ｔｉｍｅ＿０．ｔｘｔ（１００１）から読み込んだ１ユーザ分のデータを、スキーマ情報１０５に埋め込んだデータが１８００である。スキーマ情報１０５のｘの部分にファイルｆｉｌｅ＿ｔｉｍｅ＿０．ｔｘｔ（１００１）の１行分がクオートで囲まれて挿入され、その他の属性のところにはｎが挿入されている。処理１６０４により、階層構造を再構成したデータが１８０１である。処理１６０４は、属性のデータをスキーマ情報１０５に埋め込んだデータを引数として、再帰関数ｂｕｉｌｄを呼ぶことで実行する。再帰関数ｂｕｉｌｄに関しては、図１９を用いて後述する。データ１８０１は、もとのデータ１５００の分析処理に利用したい値をｎで置き換えたものであるので、データ分析プログラムをデータ１８０１に適用すれば、データ１５００に適用したときと同じ結果が得られる。
【０１０３】
図１６の階層構造データ復元処理２０１の説明に戻る。処理１６０４の次は、ファイルのいずれかが末尾まで読まれたかどうかで条件分岐する（Ｓ１６０５）。ファイルのいずれもまだ末尾まで読まれていない場合は、処理Ｓ１６０２に戻る。ファイルのいずれかが末尾まで読まれた場合には、末尾まで読まれた属性に関して、まだ開いていないファイルがあるかどうかで、さらに条件分岐する（Ｓ１６０６）。末尾まで読まれた属性に関して、まだ開いていないファイルがない場合には終了となる。末尾まで読まれた属性に関して、まだ開いていないファイルがある場合には、その属性に関して、ファイル名管理テーブル９００を参照して、次（今開いているファイルの右）のファイルを開き（Ｓ１６０７）、処理Ｓ１６０２に戻る。ファイル名管理テーブル９００のファイル名のフィールドのファイルを左から順に開き１行ずつ読めば、階層構造データのユーザ順と同じ順になる。よって読み込む属性が２つ以上の場合でも、ファイルを左から順番に開き１行ずつ読むことにより、処理Ｓ１６０２で読み込む属性データは、同一ユーザのデータとなる。これにより、ファイルの中を連続的に読み込むだけで、同一ユーザの属性間の対応をとることができ、ＲＤＢのＪＯＩＮ相当の処理をすることなく、高速にデータを読み込むことができる。
【０１０４】
図１９は、処理Ｓ１６０４で呼ばれる再帰関数ｂｕｉｌｄのフローチャートである。処理Ｓ１６０４において、再帰関数ｂｕｉｌｄは属性のデータをスキーマ情報１０５に埋め込んだデータを引数として呼び出される。まず引数の１番上の階層のデータの方により条件分岐する（Ｓ１９００）。引数が値またはｎまたはクオートで囲まれたリストの場合には、引数自体をそのまま返す（Ｓ１９０１）。ｂｕｉｌｄ関数は階層構造のデータに対し、再帰的に呼び出されるため、階層構造の一番下で呼び出されるときには、値またはｎまたはクオートで囲まれたリストを引数として呼び出される。
条件分岐Ｓ１９００において、引数のデータ型がクオートで囲まれていないリストの場合には、リストの各要素ａ［ｉ］に対して、ｂｕｉｌｄ（ａ［ｉ］）を再帰的に呼び出し、返された値をそれぞれｂ［ｉ］とする（Ｓ１９０２）。続いて、処理Ｓ１２０２で得られたｂ［ｉ］をリストの深さの位置で転置して返す（Ｓ１９０３）。処理１９０３の詳細については、図２０を用いて後述する。
【０１０５】
条件分岐Ｓ１９００において、引数のデータ型がタプルの場合には、タプルの各要素ａ［ｉ］に対して、ｂｕｉｌｄ（ａ［ｉ］）を再帰的に呼び出し、返された値をそれぞれｂ［ｉ］とする（Ｓ１９０４）。続いて、処理Ｓ１９０４で得られたｂ［ｉ］を各要素とするリストを返す（Ｓ１９０５）。
【０１０６】
図１８の１８００のデータに対してｂｕｉｌｄ関数を適用した場合を例として、処理Ｓ１９０３を説明する。ｂｕｉｌｄ関数は再帰的に呼び出されていき、
ｂｕｉｌｄ（（ｎ “［［８．５２７．２５］［０．１５０．１１］］” ｎｎ））
が呼ばれるときには、１８００において、（ｎ “［［８．５２７．２５］［０．１５０．１１］］” ｎｎ）の外側には大括弧が２つあるため、リストの階層は深さ２である。ｂｕｉｌｄ（（ｎ “［［８．５２７．２５］［０．１５０．１１］］” ｎｎ））を実行すると、まず処理Ｓ１９０４により、タプルの各要素に対してｂｕｉｌｄ関数が実行され、各要素はｎかクオートで囲まれたリストなので、処理１９０１によりそのまま返され、図２０上段の２０００に示すように、ｂ［０］＝ｎ、ｂ［１］＝“［［８．５２７．２５］［０．１５０．１１］］”、ｂ［２］＝ｎ、ｂ［３］＝ｎとなる。ここで処理１９０３を実行すると、前述した通り、リストの階層は深さ２なので、ｂ［ｉ］を深さ２で転置して、図２０上段の２００１に示すように、
“［［（ｎ８．５２ｎｎ）（ｎ７．２５ｎｎ）］
［（ｎ０．１５ｎｎ）（ｎ０．１１ｎｎ）］］“
が得られる。ここで要素数が不足する場合にはｎが自動的に追加される。深さ１で転置した場合は、
“［（ｎ［８．５２７．５２］ｎｎ）
（ｎ［０．１５０．１１］ｎｎ）］“
となる。深さ１で転置した場合と、深さ２で転置した場合を比べると、深さ２で転置した場合は、タプルがリストの深さ２の位置まで入り込んでいることがわかる。深さを指定した転置は、公知の方法により行う。例えば、数式処理ソフトＭａｔｈｅｍａｔｉｃａでは深さを指定して転置する組込み関数が利用できる。
【０１０７】
一方、
ｂｕｉｌｄ（（ｎｎ “［［（ｎ８．５２ｎｎ）（ｎ７．２５ｎｎ）］［（ｎ０．１５ｎｎ）（ｎ０．１１ｎｎ）］］“））
が呼ばれるときには、リストの階層は深さ１である。従って、再帰的にｂｕｉｌｄを呼び出して得られたｂ［ｉ］（図２０下段の２００２）に対し、深さ１で転置、図２０下段の２００３が得られる。
【０１０８】
図２１は、図２に示した分析処理２０３のフローチャートに一例である。まず属性の追加をする分析処理かどうかで条件分岐する（Ｓ２１００）。属性の追加をしない分析処理の場合は、階層構造データ復元処理２０１により再構成された階層構造データ２０２に対し、データ分析ソースコード２００を適用することにより、分析結果が得られ（Ｓ１６０１）、続いてそれを出力する（Ｓ１６０２）。
【０１０９】
条件分岐Ｓ２１００において、属性の追加を行う分析処理の場合は、まずスキーマ情報１０５をたどり、属性を追加するスキーマ上の場所を確定し、スキーマ情報１０５を更新する（Ｓ２１０３）。例えば、図１４に示すデータ分析処理の場合、図２２に示すように、１４０１に記述されている（２ｎｄ（ｃａｒ（４ｔｈ（ｕｓｅｒ））））から、スキーマ構造２２００をたどり、追加する属性“ａｖｅ−ｘ”の場所を確定する。図２２では、新しく追加する属性“ａｖｅ−ｘ”は点線で囲まれた四角形の場所に追加される。これに従い、スキーマ情報１０５を
（ｕｓｅｒ
［（ａｃｔｉｏｎｄａｔｅ
［（ｔｉｍｅｘｙｚ）］
ａｖｅ−ｘ）］）
と変更する。
【０１１０】
次に、ファイル管理テーブル９００に追加する属性の情報を追加する（Ｓ２１０４）。例えば属性ａｖｅ−ｘを追加する場合には、属性フィールドがａｖｅ−ｘで、ファイル名のフィールドが｛ｆｉｌｅ＿ａｖｅ−ｘ＿０．ｔｘｔ｝であるレコードを、ファイル管理テーブル９００に追加する。続いて、データ分析ソースコード２００を適用することにより、分析結果が得られる（Ｓ２１０５）。
【０１１１】
続いて、得られた結果をファイルに出力する（Ｓ２１０６）。ただしデータ分割処理１０３と同様、ファイルが最大サイズを超えたら、その都度、新しい書き込み用ファイルを開き、ファイル管理テーブル９００にそのファイル名を追加する。スキーマ情報１０５を更新する方法をとることにより、全データをファイルに出力する必要はなく、新たに追加する属性のデータのみをファイルに出力するだけでよい．これによりファイル出力量を低減することができる。
【０１１２】
また、条件分岐Ｓ２１００において、属性の追加を行なわない分析処理の場合は、データ分析ソースコード２００を適用することにより、分析結果を得（
Ｓ２１０１）、その結果を図示を省略した上述の出力部に出力（Ｓ２１０２）、或いは記憶部２４０４、あるいは２４０５に記憶することは言うまでもない。
【０１１３】
［実施例３］
第３の実施例では、コンピュータが複数ある分散計算環境で、階層構造を持つデータに対して、データ分析処理を高速に行う。なお、これらのコンピュータとしては、例えば実施例１で説明した図２４のコンピュータなどを用いれば良い。
【０１１４】
以下、第３の実施例のデータ処理装置について説明する。本実施例のデータ処理装置は、各コンピュータ上の記憶部でスキーマ情報１０５と属性別データ１０６を保持し、各コンピュータがデータ分析のスクリプトであるソースコードを受け取って、各コンピュータ上のＣＰＵでデータ分析を実行する。
【０１１５】
図２３は、第３の実施例の構成例を示すブロック図である。２３００、２３０１、２３０２は、ｎ台のコンピュータから構成される分散計算環境を模式的に表したものであり、例えば２３００は１台目のコンピュータ、２３０１は２台目のコンピュータ、２３０２はｎ台目のコンピュータである。これらのコンピュータとしては、実施例１同様、図２４に一例を示した汎用のコンピュータが利用できることは言うまでもない。各コンピュータ上で、スキーマ情報１０５と属性別データ１０６を保持している。クライアントからデータ分析ソースコード２００が各コンピュータに送られると、各コンピュータ上で図２に示した装置によりデータ分析が実行される。本実施例の構成は、公知の多くの分散計算システム上で実施可能であることは明らかである。例えばＭａｐＲｅｄｕｃｅ分散計算環境で実施することが可能である。
【０１１６】
また図１に示した装置を、分散計算環境の各コンピュータ２３００、２３０１、２３０２が持ち、階層化処理１０１とデータ分割処理１０３を各コンピュータ上で実行することも可能である。この場合、事前に素データ１００を分散計算環境の各コンピュータに配置しておき、各コンピュータ上で、階層化処理１０１とデータ分割処理１０３を各コンピュータ上で実行する。公知の多くの分散計算システム上で実施可能であることは明らかである。例えばＭａｐＲｅｄｕｃｅ分散計算環境で実施することが可能である。
【０１１７】
以上詳述してきた本発明の種々の実施例によれば、階層構造を持つ大量のデータに対して、ユーザが簡単に処理を実行できるユーザインターフェースを提供できる。またユーザインターフェースにおいて、階層構造を持つ大量のデータを、階層名、属性名とともに、見やすくユーザに提示するため、ユーザがデータの構造・意味・形式を容易に理解できる。またユーザインターフェースにおいて、ユーザの操作により任意の階層のデータを非表示にすることができるため、データの階層構造を容易に理解することができる。これらにより、複雑な階層構造を持ち、多くの属性を持つデータであっても、ユーザは混乱せずに分析処理を実行することができる。
【０１１８】
また、本発明の実施例によれば、全データに対して分析処理を実行する前に、一部のデータに対してのみ分析処理のテスト実行を行い、分析命令がユーザの意図した通りに記述されていることを確認した後、全データに対して分析処理の本番実行を行うことができる。これにより、短い時間で分析命令の間違いを発見することができ、分析作業をスムーズに進めることができる。またテスト実行の結果がすぐに表示されるため、本番実行の計算が終了するのを待っている間、テスト実行の結果を用いた次の分析のやり方を考えることができる。
【０１１９】
その一方で、本発明の実施例によれば、階層構造を持つデータに対し、処理に必要なデータのみを連続して読込むことができるため、ファイル読み込み量を低減でき、処理速度が向上する。特にフィールド数が増えても処理速度が極度に低下することがない。
【０１２０】
またフィールドの追加処理に関しても、全フィールドを書き込む必要はなく、追加すべきフィールドのみを新しいファイルに出力することができるため、データ書き込み量を低減でき、処理速度が向上する。更に、ＭａｐＲｅｄｕｃｅなどの分散計算環境にも構成を変更することなく適用できるため、分散処理によりさらに処理速度を向上させることができる。
【０１２１】
以上、本発明の種々の実施例を説明してきたが、本発明はこれらの実施例に限定されるものでないことは言うまでもない。また、特許請求の範囲に掲げた請求項以外の発明も種々内在していることは、本明細書、添付図面に記載・開示された通りである。例えば、以下に示す発明も記載・開示されている。
【０１２２】
データ処理装置であって、
異なるデータ型の組合せであるタプルと、同じデータ型の並びであるリストからなる階層構造を持つ階層構造データと、前記階層構造データを変換した表示用データを記憶する記憶部と、
ユーザからの処理命令を受け付け、またユーザに前記表示用データおよび処理結果を提示するユーザインターフェース部と、
前記階層構造を持つデータを管理するデータ管理部と、
前記階層構造データを変換して、前記表示用データを生成する表示用データ生成部と、
前記ユーザインターフェース部から処理命令を受け取り、分析処理を実行する分析処理部を備え、
前記ユーザインターフェース部は、前記階層構造データを、階層名を表示する行と、属性名を表示する行を備える表形式で表示し、
前記表示用データ生成部は、階層ごとに前記階層構造データを前記ユーザインターフェース部に表示できる量だけサンプリングしてデータ形式を変換し、
前記データ管理部は、
素データから、前記素データを階層化した、異なるデータ型の組合せであるタプルと、同じデータ型の並びであるリストからなる階層化データと、前記階層化データのデータ構造を現すスキーマ情報を出力する階層化処理部と、
前記階層化データと前記スキーマ情報から、属性別に分割された属性別データを出力するデータ分割処理部と、
データ分析処理を記述したデータ分析スクリプトと、前記スキーマ情報と、属性別に分割された前記属性別データとから元の階層構造を復元して、再構成された階層構造データを出力する階層構造データ復元処理部を備え、
前記階層化処理部が出力する前記スキーマ情報と前記データ分割処理部が出力する前記属性別データを前記記憶部に記憶し、
前記記憶部が記憶する前記属性別データは、データが格納されているファイル群と、前記ファイル群のファイル名を管理するファイル名管理テーブルから構成され、前記ファイル群は、１つのファイルにつき１つの属性のデータのみを格納し、
ことを特徴とするデータ処理装置。
【０１２３】
上記独立形式に記載のデータ処理装置であって、
前記ファイル群は、それぞれの属性に関して、前記スキーマ情報のリストの深さに対応して、データがリスト構造で階層化されている、
ことを特徴とするデータ処理装置。
【０１２４】
上記独立形式に記載のデータ処理装置であって、
前記ファイル群は、属性ごとにデータが格納されているファイルが順序付けされており、任意の二属性に関し、前記ファイルを順序付けられた順に開き、適切な区切りごとに読むことにより、前記階層構造データにおける当該二属性間の対応が復元できる、
ことを特徴とするデータ処理装置。
【０１２５】
上記独立形式に記載のデータ処理装置であって、
前記スキーマ情報は、前記階層構造データの個々の要素のデータ型を保持し、前記リストの要素のデータ型に関しては、先頭の要素のデータ型のみを保持する、
ことを特徴とするデータ処理装置。
【０１２６】
上記独立形式に記載のデータ処理装置であって、
前記ファイル群は、個々のファイルの最大サイズが設定されている、
ことを特徴とするデータ処理装置。
【０１２７】
上記独立形式に記載のデータ処理装置であって、
前記分析処理部は、前記スキーマ情報と前記ファイル管理テーブルを更新し、属性の追加処理を行うことができる、
ことを特徴とするデータ処理装置。
【０１２８】
上記独立形式に記載のデータ処理装置であって、
複数のコンピュータから構成される分散計算環境における前記コンピュータ各々が、前記階層構造データ復元処理部と前記分析処理部とを備える、
ことを特徴とするデータ処理装置。
【０１２９】
上記独立形式に記載のデータ処理装置であって、
表示用データ処理部は、属性別に分割された属性別データを用いて、元の階層構造を復元することなく、属性別に分割されたデータを入力として表示用データを生成する、
ことを特徴とするデータ処理装置。
【産業上の利用可能性】
【０１３０】
以上詳述した本発明は、データ処理装置、特に、階層化された大量の階層構造データを高速にデータ分析処理することができるデータ処理技術として有用である。
【符号の説明】
【０１３１】
１００…素データ
１０１…階層化処理
１０２…階層構造データ
１０３…データ分割処理
１０４…組
１０５…スキーマ情報
１０６…属性別データ
２００…データ分析ソースコード
２０１…階層構造データ復元処理
２０２…再構成された階層構造データ
２０３…分析処理
２３００、２３０１、２３０２、２４００…コンピュータ
２４０１…入力デバイス
２４０２…ネットワークデバイス
２４０３…ＣＰＵ
２４０４…主記憶部
２４０５…補助記憶部
２４０６…バス
２５００…ユーザインターフェース部
２５０１…表示用データ
２５０２…表示用データ生成部
２５０３…抽出された一時データ
２５０４…分析処理部
２５０５…データ管理部
２５０６…階層構造データ
２９００…抽出処理ボタン
２９０１…階層名を表す行
２９０２…折り畳みボタン
２９０３…属性追加ボタン
２９０４…属性名を表す行２９０５…チェックボックス
２９０６…集計ボタン
３０００、３１００…ウィンドウ画面上の表。

【特許請求の範囲】
【請求項１】
データ処理装置であって、
異なるデータ型の組合せであるタプルと、同じデータ型の並びであるリストからなる階層構造を持つ階層構造データと、前記階層構造データを変換した表示用データと、ユーザからの処理命令を受け付け、ユーザに前記表示用データおよび処理結果を提示するユーザインターフェース部と、前記階層構造データを管理するデータ管理部と、前記階層構造データを変換して、前記表示用データを生成する表示用データ生成部と、前記ユーザインターフェース部から前記処理命令を受け取り、分析処理を実行する分析処理部とを備え、
前記ユーザインターフェース部は、前記階層構造データを、階層名を表示する行と前記タプルの属性名を表示する行を備える表形式で表示し、
前記表示用データ生成部は、階層ごとに前記階層構造データを前記ユーザインターフェース部に表示できる量をサンプリングして前記表示用データに変換する、
ことを特徴とするデータ処理装置。
【請求項２】
請求項１記載のデータ処理装置であって、
前記ユーザインターフェース部は、前記処理命令に従い、任意の階層の前記階層構造データを非表示にする、
ことを特徴とするデータ処理装置。
【請求項３】
請求項１記載のデータ処理装置であって、
前記分析処理部は、全ての前記階層構造データに対して分析処理を実行する前に、一部に対してのみ分析処理を実行し、結果を前記ユーザインターフェース部に表示する、
ことを特徴とするデータ処理装置。
【請求項４】
請求項１記載のデータ処理装置であって、
前記表示用データ生成部は、前記ユーザインターフェース部が属性追加処理を受け取った場合、新規に追加された属性の列を前記表形式に挿入する、
ことを特徴とするデータ処理装置。
【請求項５】
請求項１に記載のデータ処理装置であって、
前記データ管理部は、素データから、前記素データを階層化し、異なるデータ型の組合せであるタプルと、同じデータ型の並びであるリストからなる前記階層構造データと、前記階層構造データのデータ構造を現すスキーマ情報とを出力する階層化処理部と、前記階層構造データと前記スキーマ情報から、属性別に分割された属性別データを出力するデータ分割処理部と、前記階層化処理部が出力する前記スキーマ情報と前記データ分割処理部が出力する前記属性別データを記憶する記憶部とを備え、
前記記憶部が記憶する前記属性別データは、データが格納されているファイル群と、前記ファイル群のファイル名を管理するファイル名管理テーブルから構成され、前記ファイル群は、１つのファイルにつき１つの属性のデータのみを格納する、
ことを特徴とするデータ処理装置。
【請求項６】
請求項５に記載のデータ処理装置であって、
前記ファイル群は、それぞれの属性に関して、前記スキーマ情報のリストの深さに対応して、データがリスト構造で階層化されている、
ことを特徴とするデータ処理装置。
【請求項７】
請求項６に記載のデータ処理装置であって、
前記ファイル群は、属性ごとにデータが格納されているファイルが順序付けされており、任意の二属性に関し、前記ファイルを順序付けられた順に開き、適切な区切りごとに読むことにより、前記階層構造データにおける当該二属性間の対応が復元できる、
ことを特徴とするデータ処理装置。
【請求項８】
請求項６に記載のデータ処理装置であって、
前記スキーマ情報は、前記階層構造データの個々の要素のデータ型を保持し、前記リストの要素のデータ型に関しては、先頭の要素のデータ型のみを保持する、
ことを特徴とするデータ処理装置。
【請求項９】
請求項５に記載のデータ処理装置であって、
前記ファイル群は、個々のファイルの最大サイズが設定されている、
ことを特徴とするデータ処理装置。
【請求項１０】
請求項５に記載のデータ処理装置であって、
複数のコンピュータから構成される分散計算環境における前記コンピュータ各々が前記階層化処理部及び前記データ分割処理部を備える、
ことを特徴とするデータ処理装置。
【請求項１１】
データ処理装置であって、
異なるデータ型の組合せであるタプルと、同じデータ型の並びであるリストからなる階層構造を持つ階層構造データと表示用データとを記憶する記憶部と、
前記階層構造データを管理し、前記階層構造データを分析処理し、前記階層構造データから前記表示用データを生成する処理部と、
処理命令が入力され、前記表示用データを表示するユーザインターフェース部とを備え、
前記処理部は、前記階層構造データから前記表示用データを生成する際に、前記タプルの階層名を表示する行と、前記タプルの属性名を表示する行と、前記属性名に対応した前記リストの行を備える表形式とし、前記表形式で表示するリストの行の数を制御可能である、
ことを特徴とするデータ処理装置。
【請求項１２】
請求項１１に記載のデータ処理装置であって、
前記処理部は、入力された前記処理命令に従い、前記ユーザインターフェース部の任意の階層の前記階層構造データを非表示にするよう制御する、
ことを特徴とするデータ処理装置。
【請求項１３】
請求項１１記載のデータ処理装置であって、
前記処理部は、全ての前記階層構造データに対して分析処理を実行する前に、前記階層構造データの一部に対してのみ分析処理を実行し、分析処理結果を前記ユーザインターフェース部に表示するよう制御する、
ことを特徴とするデータ処理装置。
【請求項１４】
請求項１１記載のデータ処理装置であって、
前記処理部は、前記ユーザインターフェース部からの属性追加処理が入力された場合、追加された前記属性の列を前記表形式に挿入するよう制御する、
ことを特徴とするデータ処理装置。
【請求項１５】
請求項１１記載のデータ処理装置であって、
前記ユーザインターフェース部は、前記表形式の前記タプルの階層名を表示する前記行に、属性追加するボタンを有する、
ことを特徴とするデータ処理装置。
【請求項１６】
請求項１１記載のデータ処理装置であって、
前記ユーザインターフェース部は、前記表形式の前記タプルの階層名を表示する前記行に、前記階層名に対応する前記リストの前記行を削除するボタンを有する、
ことを特徴とするデータ処理装置。
【請求項１７】
請求項１１記載のデータ処理装置であって、
前記ユーザインターフェース部は、前記表形式の前記タプルの属性名を表示する前記行に、前記属性名に対応する前記リストの前記行中のデータを集計するボタンを有する、
ことと特徴とするデータ処理装置。
【請求項１８】
請求項１１記載のデータ処理装置であって、
前記記憶部は、前記タプルの前記属性名に対応する属性別データ各々をファイル毎に記憶する、
ことを特徴とするデータ処理装置。
【請求項１９】
請求項１８記載のデータ処理装置であって、
前記処理部は、前記ファイル毎に記憶された前記属性別データを用いて、前記表示用データを生成する、
ことを特徴とするデータ処理装置。
【請求項２０】
請求項１８記載のデータ処理装置であって、
前記ユーザインターフェース部は、前記表形式の前記タプルの前記属性名を表示する前記行の各列に、前記属性名に対応する前記リストの前記行中のデータを集計するボタンを有し、
前記処理部は、前記集計ボタンが押された場合、対応する前記属性別データを用いて集計を行う、
ことを特徴とするデータ処理装置。

【図１】