データ判定システム及びデータ判定方法

【課題】連続的な特性を有するデータ間の関連付けを行うこと。
【解決手段】レコード記憶部が、連続的な特性を有する複数のデータごとに、当該データの種類を示す属性情報と、当該データと他のデータとの関連を示す関連情報と、連続的な特性における当該データの位置づけを示す連続情報とを関係付けて記憶する。そして、レコード抽出部が、レコード記憶部によって記憶された複数のデータから、同一の属性情報を有し、かつ、連続情報において連続的な特性を有する２つのデータを抽出する。そして、レコード同一性判定部が、レコード抽出部によって抽出された２つのデータに関係付けされた関連情報について所定の条件を満たす場合に、当該２つのデータが関連すると判定する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、データ判定システム及びデータ判定方法に関する。
【背景技術】
【０００２】
従来、企業などの多くの組織内では、個々の業務は一定の期間や空間で区切られて実行される。例えば、個々の業務は、年度ごとや地域ごとなどに区切られて実行される。このように、組織においては、連続的な特性を有するデータセットが発行される。しかしながら、このようなデータセット間において、データスキーマ（data schema）やレコード（record）自体に関連性や整合性が取られていない場合がある。
【０００３】
例えば、レコード投入時に社名に法人格を入れる・入れない等の表記揺れや、ある同一製品に対する社内プロジェクトにおいて、企画フェーズ（phase）と開発フェーズとで別名のプロジェクトで管理されている場合などがある。
【０００４】
そこで、近年、様々な分散したデータソースから情報を統合して分析することによって、戦略立案や経営計画に役立てるＢＩ（Business Intelligence）が再度注目を集めている。例えば、ＢＩを実現するための技術の一部として、データクレンジング技術や、名寄せ技術が知られている。一例を挙げると、上述した技術では、Ｗｅｂページや、データベースから得られたデータに対して、ドメイン知識を用いた確率的な制約を定義し、確率モデルに基づいたデータセット間の同一性を推定するためのアルゴリズムを設計する。
【０００５】
また、例えば、ＢＩの一部の技術として、個別に管理され、分散しているシステムのデータベースや、スプレッドシート（spread sheet）等のファイルで管理されているデータ等を統合して有効利用することを支援するソフトウェアが知られている。さらに、このような異なる複数のデータソースから得られた情報を統一的に扱う枠組みとして、グラフ表現できるデータモデルであるＲＤＦ（Resource Description Framework）を用いたセマンティック（semantic）Ｗｅｂ技術も知られている。
【先行技術文献】
【非特許文献】
【０００６】
【非特許文献１】Shen, W. and Li, X. and Doan, A., “Constraint-Based Entity Matching” In AAAI 05, pp. 862-867, 2005
【非特許文献２】アプレッソ社 DataSpider、インフォテリア社 Asteria MDM One等のデータ連携ソフトウェア、[online]、平成２３年１月２０日、 [平成２３年２月１４日検索]、DataSpider：インターネット＜http://dataspider.appresso.com/＞、Asteria MDM One：インターネット＜http://www.infoteria.com/jp/asteriamdmone/index.php＞
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかしながら、上述した従来技術では、連続的な特性を有するデータ間の関連付けを行うことができない場合があった。具体的には、上述した従来技術では、表記揺れデータの同一性を推定することを目的としているため、全く異名義のデータ間に関しては考慮されておらず、連続的な特性を有するデータ間の関連付けを行うことができない場合があった。
【０００８】
そこで、本願に開示する技術は、上述した従来技術の問題に鑑みてなされたものであって、連続的な特性を有するデータ間の関連付けを行うことを可能にするデータ判定システム及びデータ判定方法を提供することを目的とする。
【課題を解決するための手段】
【０００９】
上述した課題を解決し、目的を達成するため、開示のシステムは、連続的な特性を有する複数のデータを記憶する記憶装置と、前記記憶装置によって記憶された前記複数のデータにおいて連続するデータ間に関連があるか否かを判定する判定装置とを備えたデータ判定システムであって、前記判定装置が、前記記憶装置によって記憶された前記複数のデータごとに、当該データの種類を示す属性情報と、当該データと他のデータとの関連を示す関連情報と、前記連続的な特性における当該データの位置づけを示す連続情報とを関係付けて記憶する関係情報記憶部と、前記関係情報記憶部によって記憶された複数のデータから、同一の属性情報を有し、かつ、前記連続情報において連続的な特性を有する２つのデータを抽出する抽出部と、前記抽出部によって抽出された２つのデータに関係付けされた関連情報について所定の条件を満たす場合に、当該２つのデータが関連すると判定する判定部とを備えたことを特徴とする。
【発明の効果】
【００１０】
開示のシステムは、連続的な特性を有するデータ間の関連付けを行うことを可能にする。
【図面の簡単な説明】
【００１１】
【図１】図１は、実施例１に係るデータ判定システムの構成の一例を説明するための図である。
【図２】図２は、実施例１に係るレコード記憶部によって記憶される情報の一例を説明するための図である。
【図３】図３は、実施例１に係るデータセット内レコード連結部による処理の例１を説明するための図である。
【図４】図４は、実施例１に係るデータセット内レコード連結部による処理の例２を説明するための図である。
【図５】図５は、実施例１に係るレコード抽出部による処理の一例を説明するための図である。
【図６】図６は、実施例１に係るレコード同一性判定部によって用いられるＳＰＡＲＱＬの一例を示す図である。
【図７】図７は、実施例１に係るレコード同一性判定部による処理の一例を説明するための図である。
【図８】図８は、実施例１に係るレコード同一性判定部による関連情報の抽出処理の一例を説明するための図である。
【図９】図９は、実施例１に係るレコード同一性判定部による判定処理の一例を説明するための図である。
【図１０】図１０は、実施例１に係るデータセット間レコード連結部による処理の一例を説明するための図である。
【図１１】図１１は、実施例１に係るデータ判定システムによる処理の手順を示すシーケンス図である。
【図１２】図１２は、実施例１に係るレコード同一性判定部による判定処理の手順を示すフローチャートである。
【図１３】図１３は、変形例を説明するための図である。
【発明を実施するための形態】
【００１２】
以下に添付図面を参照して、本願の開示するデータ判定システム及びデータ判定方法の実施例を詳細に説明する。なお、本願の開示するデータ判定システム及びデータ判定方法は、以下の実施例により限定されるものではない。
【実施例１】
【００１３】
［実施例１に係るデータ判定システムの構成］
以下では、まず、実施例１に係るデータ判定システムの構成について説明する。図１は、実施例１に係るデータ判定システム１の構成の一例を説明するための図である。図１に示すように、実施例１に係るデータ判定システム１は、判定装置１００と記憶装置２００とを備える。
【００１４】
記憶装置２００は、例えば、ハードディスク、光ディスクなどの記憶装置であり、連続的な特性を有するデータを記憶する。具体的には、記憶装置２００は、図示しない端末などによって時間的又は空間的に連続して発行された複数のデータセットを記憶する。例えば、記憶装置２００は、年度ごとに発行されたプロジェクトに関するデータセットを記憶する。なお、記憶装置２００によって記憶されるデータは、データベース化されたものであってもいいし、スプレッドシート等のファイルであってもよい。また、図１においては、記憶装置２００のみが図示されているが、本願の開示するデータ判定システムは、これに限定されるものではなく、記憶装置を有するものであればどのようなものでもよい。例えば、データベースサーバや、ユーザ端末などであってもよい。
【００１５】
判定装置１００は、図１に示すように、Ｉ／Ｆ（Interface）部１０と、入力部２０と、表示部３０と、記憶部４０と、制御部５０とを備え、記憶装置２００と接続される。そして、判定装置１００は、記憶装置２００によって記憶された連続的な特性を有するデータセットに含まれるレコード間に関連があるか否かを判定して、関連があるレコード間の関連付けを行う。一例を挙げると、判定装置１００は、ある年度のデータセットに含まれるプロジェクトのレコードと翌年度のデータセットに含まれるプロジェクトのレコードとが関連があるか否か（例えば、同一のプロジェクトに関するデータであるか否か）を判定して、レコード間の関連付けを行う。さらに、判定装置１００は、入力部２０を介してユーザから入力された検索キーワードに関するデータを表示部３０に表示する。なお、判定装置１００は、例えば、ＰＣ（Personal Computer）、ワークステーション又はデータ判定用の専用装置である。
【００１６】
Ｉ／Ｆ部１０は、制御部５０と、入力部２０、表示部３０及び記憶部４０との間での各種情報のやり取りを制御する。入力部２０は、例えば、キーボードやマウスなどであり、ユーザによる種々の情報の入力処理を受付ける。一例を挙げると、入力部２０は、ユーザによる検索キーワードの入力処理を受付ける。表示部３０は、例えば、ディスプレイなどであり、ユーザに対して処理結果を表示出力する。一例を挙げると、表示部３０は、ユーザによって入力部２０から入力された検索キーワードを用いて検索されたデータ検索の検索結果を表示出力する。
【００１７】
記憶部４０は、図１に示すように、レコード記憶部４１と、同一性判定ルール記憶部４２とを有する。記憶部４０は、例えば、ハードディスク、光ディスクなどの記憶装置、または、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子である。
【００１８】
レコード記憶部４１は、記憶装置２００によって記憶されたデータごとに、当該データの種類を示す属性情報と、当該データと他のデータとの関連を示す関連情報と、連続性における当該データの位置づけを示す連続情報とを関連付けて記憶する。具体的には、レコード記憶部４１は、後述する制御部５０によって記憶装置２００から収集されたデータセットにおいて、レコードごとに、当該レコードの種類を示す属性情報と、当該レコードの特徴を示すメタデータと、当該レコードが連続性においてどの位置のレコードであるかを示す連続情報とを関連付けて記憶する。なお、上述するレコードとは、データセットに含まれる個々のデータを意味する。また、以下では、属性情報を単に属性と記載する場合がある。また、レコード記憶部４１は、後述する制御部５０による処理結果を記憶する。
【００１９】
ここで、レコード記憶部４１によって記憶される情報の詳細について説明する。図２は、実施例１に係るレコード記憶部４１によって記憶される情報の一例を説明するための図である。図２においては、図２の（Ａ）が、スプレッドシートにより情報を記憶する場合について示す。また、図２においては、図２の（Ｂ）が、ＲＤＦを用いたグラフ表現により情報を記憶する場合について示す。
【００２０】
例えば、スプレッドシートにより情報を記憶する場合には、レコード記憶部４１は、図２の（Ａ）に示すように、２００３年度のデータセットとして、属性ごとにテーブルを設け、各行をレコード、各列をメタデータとした情報を記憶する。一例を挙げると、レコード記憶部４１は、図２の（Ａ）に示すように、「属性：社員」のテーブルに、レコードのメタデータ「ＩＤ：１０１」、「Ｎａｍｅ：山田一郎」、「Ｐｈｏｎｅ：７０４」、「Ｏｒｇ：７０１」及び「年度：２００３」が格納された情報を記憶する。ここで、図２の（Ａ）に示す「年度」が連続情報に相当する。同様に、レコード記憶部４１は、「属性：社員」のテーブルに、レコードのメタデータ「ＩＤ：１０２」、「Ｎａｍｅ：鈴木二郎」、「Ｐｈｏｎｅ：８０９」、「Ｏｒｇ：７０１」及び「年度：２００３」が格納された情報を記憶する。
【００２１】
ここで、レコード記憶部４１に記憶される情報は、属性間のレコードについても関連付けられる。例えば、図２の（Ａ）に示すように、レコード記憶部４１に記憶される情報では、「属性：社員」の「メタデータ：Ｏｒｇ」を外部キーとして、「属性：組織」の「メタデータ：ＩＤ」が関連付けられる。すなわち、図２の（Ａ）に示すように、「属性：組織」の「ＩＤ：７０１」が、「属性：社員」の「Ｏｒｇ：７０１」に格納される。同様に、「属性：組織」の「メタデータ：Ｌｅａｄｅｒ」を外部キーとして、「属性：社員」の「メタデータ：ＩＤ」が関連付けられる。すなわち、図２の（Ａ）に示すように、「属性：社員」の「ＩＤ：１０２」が、「属性：組織」の「Ｌｅａｄｅｒ：１０２」に格納される。
【００２２】
上述したように、各レコードは、自身の特徴を示すメタデータと、レコード間を関連付けるメタデータとを有する。以下では、例えば、図２の（Ａ）に示す「ＩＤ」、「Ｎａｍｅ」、「Ｐｈｏｎｅ」、「年度」などの自身の特徴を示すメタデータを特徴メタデータと記す。また、例えば、図２の（Ａ）に示す「Ｏｒｇ」及び「Ｌｅａｄｅｒ」などのレコード間を関連付けるメタデータを関連メタデータと記す。なお、ＩＤは、各属性におけるレコードを一意に識別するための識別子であり、各レコードがレコード記憶部４１に格納される際にシーケンシャルに付与される。
【００２３】
また、例えば、ＲＤＦを用いたグラフ表現により情報を記憶する場合には、レコード記憶部４１は、図２の（Ｂ）に示すように、グラフ構造を有する情報を記憶する。すなわち、レコード記憶部４１は、図２の(Ｂ)に示すように、ラベル付き有向グラフデータを記憶する。例えば、レコード記憶部４１は、図２の（Ｂ）に示すように、レコードの実体を示すノードと、レコードの属性を示すノード（レコードからｒｄｆ：ｔｙｐｅラベルで結ばれたノード）と、メタデータを示す複数のノード（矩形のノード）とを有するラベル付き有向グラフデータを記憶する。各ノードは、ＲＤＦの仕様に基づいてリソース（resource）、クラス（class）、リテラル（literal）と称される。
【００２４】
例えば、レコード記憶部４１は、図２の（Ｂ）に示すように、特徴メタデータ（リテラル）である「ＩＤ：１０２」、「Ｎａｍｅ：鈴木二郎」、「Ｐｈｏｎｅ：８０９」及び「年度：２００３」が結ばれた「属性：社員」のレコードと、特徴メタデータである「ＩＤ：７０１」、「Ｎａｍｅ：組織Ｄ」及び「年度：２００３」が結ばれた「属性：組織」のレコードとが関連メタデータの「Ｏｒｇ」及び「Ｌｅａｄｅｒ」により結ばれたグラフ構造を記憶する。
【００２５】
図１に戻って、同一性判定ルール記憶部４２は、連続的な特性を有するデータ間で関連するか否かを判定するためのルールを記憶する。具体的には、同一性判定ルール記憶部４２は、後述する制御部５０によって参照される時間的又は空間的に連続するレコード間が関連するか否かを判定するためのルールを属性ごとに記憶する。例えば、同一性判定ルール記憶部４２は、「属性：プロジェクト」のレコードを判定するためのルールとして、「プロジェクトＰ１、Ｐ２について，それぞれに関連する共通人物が２人以上，関連する共通技術が３つ以上あれば，そのプロジェクトは同一のプロジェクトである」とするルールを記憶する。なお、同一性判定ルール記憶部４２によって記憶されるルールは、データ判定システム１の管理者によって任意に決定され、予め同一性判定ルール記憶部４２に格納される。
【００２６】
制御部５０は、図１に示すように、レコード収集部５１と、データセット内レコード連結部５２と、レコード抽出部５３と、レコード同一性判定部５４と、データセット間レコード連結部５５と、レコード検索部５６とを有する。制御部５０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などの電子回路やＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路である。
【００２７】
レコード収集部５１は、Ｉ／Ｆ部１０を介して、記憶装置２００から連続的な特性を有する複数のデータを収集する。具体的には、レコード収集部５１は、時間的又は空間的に連続して発行され、記憶装置２００によって記憶された複数のデータセットを収集する。例えば、レコード収集部５１は、記憶装置２００によって記憶された年度ごとに発行されたデータセットのプロジェクトに関するレコードを収集する。なお、レコード収集部５１によるレコードの収集のタイミングは、管理者によって任意に決定することができる。例えば、記憶装置２００に新たなデータセットが格納されるたびに収集する場合であってもよいし、定期的に収集する場合であってもよい。
【００２８】
データセット内レコード連結部５２は、記憶装置２００によって記憶された連続的な特性を有する複数のデータごとに、当該データの種類を示す属性情報と、当該データの特徴を示す特徴情報と、連続的な特性における当該データの位置づけを示す連続情報とを関連付ける。具体的には、データセット内レコード連結部５２は、レコード収集部５１によって収集された複数のレコードごとに、属性情報と、メタデータと、連続性を示す連続情報との関連を示す情報を生成して、レコード記憶部４１に格納する。図３は、実施例１に係るデータセット内レコード連結部５２による処理の例１を説明するための図である。
【００２９】
例えば、データセット内レコード連結部５２は、図３に示すように、レコード収集部５１によって収集された２００３年度のレコードについて、属性情報と、メタデータと、連続情報との関連を示すＲＤＦのグラフ構造を生成してレコード記憶部４１に格納する。一例を挙げると、データセット内レコード連結部５２は、まず、図３に示すように、レコード収集部５１によって収集されたレコード「＃２００３研究プロジェクトＡ」について、レコードと属性「ｐｒｏｊｅｃｔ：プロジェクト」とをｒｄｆ：ｔｙｐｅラベルで結び、さらに、レコードと特徴メタデータとを、「ｐｒｏｊｅｃｔ：プロジェクト名」や、「ｐｒｏｊｅｃｔ：データ年度」などのラベルで結ぶ。
【００３０】
さらに、データセット内レコード連結部５２は、同一年度内で関連付けられているレコード間を関連メタデータのラベルにより連結する。例えば、データセット内レコード連結部５２は、図３に示すように、「データ年度」が「２００３年度」であるレコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００３＿研究プロジェクトＡ」と「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｅｒｓｏｎ＃２００３＿山田太郎」とを関連メタデータ「Ｐｒｏｊｅｃｔ：責任者」により連結する。ここで、データセット内レコード連結部５２は、年度に依存しない情報には年度情報を連結しない。例えば、データセット内レコード連結部５２は、「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｗｏｒｄ＃Ａ技術」や、「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｗｏｒｄ＃Ｂ技術」などには年度情報を連結しない。そして、データセット内レコード連結部５２は、属性情報、特徴メタデータ、レコード間を連結したグラフ構造をレコード記憶部４１に格納する。
【００３１】
なお、データセット内レコード連結部５２は、図３に示すグラフ構造だけではなく、ＸＭＬ形式でデータにより各レコードの関連を示す情報を生成することも可能である。図４は、実施例１に係るデータセット内レコード連結部５２による処理の例２を説明するための図である。図４においては、２００３年度データをＲＤＦ／ＸＭＬ形式データで表現した例を示す。
【００３２】
例えば、データセット内レコード連結部５２は、図４に示すように、レコード「研究プロジェクトＡ、責任者：山田太郎、プロジェクトＩＤ：２００３０１Ａ、技術キーワード：Ａ技術、Ｂ技術」の関連をＸＭＬ形式で表現した情報を生成する。同様に、データセット内レコード連結部５２は、図４に示すように、レコード「山田太郎、社員ＩＤ：Ｘ１２３４５６、役職：部長、生年月日：１９５５／０１／０１」の関連をＸＭＬ形式で表現した情報を生成する。
【００３３】
図１に戻って、レコード抽出部５３は、レコード記憶部４１によって記憶された複数のデータから、同一の属性情報を有し、かつ、連続情報において連続することが示される２つのデータを抽出する。具体的には、レコード抽出部５３は、レコード記憶部４１によって記憶された時間的又は空間的に連続して発行されたデータセット間において、同一の属性情報を有するレコードを抽出する。図５は、実施例１に係るレコード抽出部５３による処理の一例を説明するための図である。
【００３４】
例えば、レコード抽出部５３は、図５の（Ａ）に示すように、ｒｄｆ：ｔｙｐｅラベルで結ばれた属性が「ｐｒｏｊｅｃｔ：プロジェクト」であり、発行された年度を示す「ｐｒｏｊｅｃｔ：データ年度」が「２００３」のレコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００３＿研究プロジェクトＡ」と、「ｐｒｏｊｅｃｔ：データ年度」が「２００４」のレコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００４＿開発プロジェクトＡ」とをレコード記憶部４１から抽出する。
【００３５】
ここで、レコード抽出部５３は、抽出した２つのレコードの組合せの情報を自身が有するメモリに保存する。例えば、レコード抽出部５３は、図５の（Ｂ）に示すように、抽出したレコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００３＿研究プロジェクトＡ」とレコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００４＿開発プロジェクトＡ」とを対応付けた情報をメモリに保存する。そして、レコード抽出部５３は、レコード記憶部４１からさらに２つのレコードを抽出した際に、メモリ内の情報を参照して、既に抽出済みであるか否かを判定する。ここで、抽出した２つのレコードが抽出済みではなかった場合に、抽出した２つのレコードを後述するレコード同一性判定部５４に送信する。一方、抽出した２つのレコードが既に抽出済みであった場合には、レコード抽出部５３は、抽出した２つのレコードを後述するレコード同一性判定部５４に送信しない。すなわち、レコード抽出部５３は、未抽出のレコードのみを抽出することで、後述するレコード間の関連の有無の判定を重複して実行することを抑止する。
【００３６】
図１に戻って、レコード同一性判定部５４は、レコード抽出部５３によって抽出された２つのデータに関連付けされた関連情報について所定の条件を満たす場合に、当該２つのデータが関連すると判定する。具体的には、レコード同一性判定部５４は、同一性判定ルール記憶部４２によって記憶された属性ごとのルールを参照して、レコード抽出部５３によって抽出された２つのレコードの関連メタデータ及び／又は特徴メタデータについて所定の条件を満たす場合に、当該２つのレコードが関連すると判定する。例えば、レコード同一性判定部５４は、２つのレコードに関係付けされた関連メタデータ及び／又は特徴メタデータが所定の類似条件を満たす場合に、当該２つのレコードが関連すると判定する。
【００３７】
一例として、「属性」が「プロジェクト」である２つのレコードについて判定する場合について説明する。かかる場合には、レコード同一性判定部５４は、まず、同一性判定ルール記憶部４２によって記憶された「属性：プロジェクト」のレコードを判定するためのルールである「プロジェクトＰ１、Ｐ２について，それぞれに関連する共通人物が２人以上，関連する共通技術が３つ以上あれば，そのプロジェクトは同一のプロジェクトである」を参照する。そして、レコード同一性判定部５４は、参照したルールに基づいて、プロジェクトに関連する共通の人物及び技術を抽出する。
【００３８】
ここで、抽出方法の一例を説明する。例えば、上述したようにレコード及びメタデータがＲＤＦによって表現されている場合には、ＲＤＦクエリ言語であるＳＰＡＲＱＬをルールとして利用することが可能である。図６は、実施例１に係るレコード同一性判定部５４によって用いられるＳＰＡＲＱＬの一例を示す図である。図６においては、プロジェクトに共通の関連人物を出力するＳＰＡＲＱＬについて示す。
【００３９】
例えば、ルールとして図６に示すＳＰＡＲＱＬが用いられた場合には、レコード同一性判定部５４は、２つのプロジェクトに関連する責任者の論理積を抽出することとなる。すなわち、レコード同一性判定部５４は、２つのプロジェクトの両方に関連する人物を抽出することとなり、例えば、共通人物が２人以上の場合には、結果が２行以上抽出されれば、共通人物に関する条件を満たしたと判定する。同様に、レコード同一性判定部５４は、関連技術に関する条件についてもＳＰＡＲＱＬを用いて判定する。
【００４０】
さらに、レコード同一性判定部５４は、レコードに関連する人物及び技術を抽出する方法として、ＲＤＦのグラフ構造を用いることも可能である。具体的には、レコード同一性判定部５４は、人物及び技術がレコードに関連するか否かについて、ＲＤＦのグラフ構造におけるレコードに対するつながりによって判定する。図７は、実施例１に係るレコード同一性判定部５４による処理を説明するための図である。図７においては、データ年度が「２００４」のレコード間の関連を示す。
【００４１】
例えば、レコード同一性判定部５４は、図７に示すレコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００４＿開発プロジェクトＡ」に関連する技術を判定する場合には、当該レコードから到達できる技術で、経由する関連メタデータの数（ｄ）が２以下であるものを関連する技術として判定する。すなわち、レコード同一性判定部５４は、図７に示すように、「ｄ＝１」である「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｗｏｒｄ＃Ａ技術」と、「ｄ＝２」である「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｗｏｒｄ＃Ｂ技術」及び「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｗｏｒｄ＃Ｃ技術」とをレコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００４＿開発プロジェクトＡ」に関連する技術として判定する。なお、経由する関連メタデータの数については管理者が任意に設定することが可能である。例えば、属性ごとに経由数を設定する場合であってもよく、また、特定の関連メタデータを除いて、レコードに関連する周辺情報を収集するようにしてもよい。
【００４２】
図７に示すように、実施例１に係るレコード同一性判定部５４は、同一性の判定の対象となっている「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００４＿開発プロジェクトＡ」とは直接関連していない「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｗｏｒｄ＃Ｂ技術」及び「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｗｏｒｄ＃Ｃ技術」を関連する技術として用いることで、同一性の判定の対象レコード以外からの情報を用いてレコード間の同一性の判定を行うことができる。
【００４３】
上述したように、ＲＤＦのグラフ構造を用いてレコード間の同一性を判定する場合には、レコード同一性判定部５４は、まず、各レコードにおける関連する人物及び技術をそれぞれ抽出する。図８は、実施例１に係るレコード同一性判定部５４による関連情報の抽出処理の一例を説明するための図である。図８においては、レコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００４＿開発プロジェクトＡ」に関連する人物及び技術を抽出する際の処理を模式的に示す。例えば、レコード同一性判定部５４は、図８に示すように、レコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００４＿開発プロジェクトＡ」から到達できる人物及び技術において、経由する関連メタデータの数（ｄ）が２以下であるものを関連する人物及び技術として抽出する。
【００４４】
すなわち、レコード同一性判定部５４は、図８に示す「ｄ＝１」である「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｅｒｓｏｎ＃２００４＿山田太郎」と、「ｄ＝２」である「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｅｒｓｏｎ＃２００４＿山本八郎」及び「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｅｒｓｏｎ＃２００４＿伊藤七郎」とをレコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００４＿開発プロジェクトＡ」に関連する人物として抽出する。ここで、図８に示すように、「伊藤七郎」及び「山本八郎」は、「＃２００４＿組織Ｆ」と直接関連したものであり、「＃２００４＿開発プロジェクトＡ」とは直接的な関連はしていない。すなわち、レコード同一性判定部５４は、グラフ構造において判定の対象となるレコードの周辺に配置された周辺情報を判定に用いる。同様に、レコード同一性判定部５４は、レコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００４＿開発プロジェクトＡ」に関連する技術として「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｗｏｒｄ＃Ａ技術」、「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｗｏｒｄ＃Ｂ技術」及び「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｗｏｒｄ＃Ｃ技術」を抽出する。
【００４５】
また、レコード同一性判定部５４は、レコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００３＿研究プロジェクトＡ」に関連する人物及び技術を抽出する。ここで、レコード同一性判定部５４は、各レコードにおいてそれぞれ抽出した人物及び技術がルールを満たすか否かを判定する。図９は、実施例１に係るレコード同一性判定部による判定処理の一例を説明するための図である。
【００４６】
例えば、レコード同一性判定部５４は、図９に示すように、レコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００３＿研究プロジェクトＡ」とレコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００４＿開発プロジェクトＡ」とから抽出した人物及び技術を照合して、ルールである「共通人物が２人以上」、「共通技術が３つ以上」であるか否かを判定する。
【００４７】
ここで、レコード同一性判定部５４は、共通人物が２人以上いるか否かを判定する際に、まず、年度をまたいで抽出された同一名の人物が同一人物であるか否かを判定する。具体的には、レコード同一性判定部５４は、年度をまたいで同一名の人物を抽出した場合には、まず、属性「Ｐｅｒｓｏｎ：人」を判定するためのルールを同一性判定ルール記憶部４２から読み出して、人物の同一性を判定する。なお、属性「Ｐｅｒｓｏｎ：人」を判定するためのルールは、例えば、「社員ＩＤ及びメールアドレスが同一である」又は「所属組織が同一である」や、「関連する技術に３つ以上の重複がある」などである。
【００４８】
例えば、レコード同一性判定部５４は、図９に示す「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｅｒｓｏｎ＃２００４＿佐藤三郎」と「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｅｒｓｏｎ＃２００３＿佐藤三郎」との同一性をルールに基づいて判定する。そして、同一人物であると判定した場合には、レコード同一性判定部５４は、判定結果をレコード記憶部４１に格納して、レコード間を判定する際に、格納した判定結果を用いる。例えば、「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｅｒｓｏｎ＃２００４＿佐藤三郎」と「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｅｒｓｏｎ＃２００３＿佐藤三郎」とが同一人物であった場合には、レコード同一性判定部５４は、「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｅｒｓｏｎ＃２００４＿佐藤三郎」と「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｅｒｓｏｎ＃２００３＿佐藤三郎」とを関連メタデータ「ｐｅｒｓｏｎ：ｎｅｗＶｅｒｓｉｏｎ」で連結してレコード記憶部４１に格納する。そして、レコード同一性判定部５４は、レコード間の同一性を判定する際に、レコード記憶部４１に記憶された情報を参照して、関連メタデータ「ｐｅｒｓｏｎ：ｎｅｗＶｅｒｓｉｏｎ」で連結された人物を２つのレコードに関連する共通の人物であると判定する。
【００４９】
上述したように、実施例１に係るレコード同一性判定部５４は、再帰的な判定処理を実行するが、この再帰的な判定は、同一性を判定するごとに実行される。すなわち、上述した人物の同一性を判定する際に、判定のルールが「社員ＩＤ及びメールアドレスが同一である」又は「所属組織が同一である」の場合には、レコード同一性判定部５４は、所属組織の同一性をさらに判定して、判定結果を人物の同一性の判定に用いる。
【００５０】
ここで、例えば、組織の同一性を判定するためのルールが「所属する人物に５人以上の重複がある」の場合には、組織の判定と人物の判定とがループする可能性がある。そこで、実施例１に係るレコード同一性判定部５４は、同一性の判定を実行した組合せに関する情報を自身が有する内部メモリに格納し、同一の組合せに関して再度判定を実行することがないように制御する（以下、ループ抑止制御と記す）。具体的には、レコード同一性判定部５４は、同一性を判定する際に、自身が有する内部メモリに格納した情報を参照して、格納済みの組合せと同一の組合せが判定対象となる場合には、ルールの適用を中断する。
【００５１】
ループ抑止制御の一例として、「＃２００４＿佐藤三郎」と「＃２００３＿佐藤三郎」との同一性の判定に際して、組織の同一性を判定する状況であり、組織の同一性を判定するためのルールが「所属する人物に５人以上の重複がある」場合について説明する。レコード同一性判定部５４は、まず、「＃２００４＿佐藤三郎」と「＃２００３＿佐藤三郎」との組合せを自身のメモリに記憶する。そして、レコード同一性判定部５４は、組織の同一性を判定するために、再度、「＃２００４＿佐藤三郎」と「＃２００３＿佐藤三郎」との同一性を判定することになった場合には、ルール「所属する人物に５人以上の重複がある」の適用を中断する。かかる場合には、レコード同一性判定部５４は、組織の同一性に関する判定を実行せず、人物の同一性を判定することとなる。すなわち、レコード同一性判定部５４は、予め設定されたルールに用いられた選言により、「社員ＩＤ及びメールアドレスが同一である」とするルールを用いて人物の同一性を判定する。
【００５２】
上述したように、レコード同一性判定部５４は、レコード間の関連を判定する際に、再帰的な判定を実行する。そして、レコード同一性判定部５４は、レコード間が関連すると判定した場合には、判定結果を後述するデータセット間レコード連結部５５に送信する。例えば、レコード同一性判定部５４は、図９に示すように、２つのレコード間で「鈴木二郎」及び「佐藤三郎」が共通し、「Ａ技術」、「Ｂ技術」及び「Ｃ技術」が共通している場合に、「＃２００３＿研究プロジェクトＡ」と「＃２００４＿開発プロジェクトＡ」とが同一のプロジェクトであると判定して、判定結果を後述するデータセット間レコード連結部５５に送信する。
【００５３】
図１に戻って、データセット間レコード連結部５５は、レコード同一性判定部５４によって関連があると判定されたレコード間を関連付けた情報をレコード記憶部４１に格納する。図１０は、実施例１に係るデータセット間レコード連結部５５による処理の一例を説明するための図である。例えば、データセット間レコード連結部５５は、図１０の（Ａ）に示すように、レコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００３＿研究プロジェクトＡ」とレコード「ｈｔｔｐ：／／ｎｔｔ．ｃｏ．ｊｐ／ｐｒｏｊｅｃｔ＃２００４＿開発プロジェクトＡ」とをレコード間が同一であることを示す「ｐｒｏｊｅｃｔ：ｎｅｗＶｅｒｓｉｏｎ」により結んだ情報をレコード記憶部４１に格納する。また、データセット間レコード連結部５５は、図１０の（Ｂ）に示すように、ＲＤＦの情報を３つのカラムで表現したリレーショナルデータベースに格納することも可能である。かかる場合には、例えば、ＲＤＦの情報を「主語」、「述語」、「目的語」の３つのカラムに格納するようにする。なお、ＲＤＦの情報をスプレッドシートにより格納することも可能である。
【００５４】
図１に戻って、レコード検索部５６は、ユーザが入力部２０を介して入力した検索キーワードに関連するレコードを表示部３０に表示させるように制御する。例えば、レコード検索部５６は、ユーザが２００４年度の開発プロジェクトＡを検索キーワードとして入力した場合には、２００４年度の開発プロジェクトＡのレコードと共に、２００３年度の研究プロジェクトＡのレコードを表示部３０に表示するように制御する。
【００５５】
このように、本願のデータ判定システム１は、グラフ構造において同一性を判定する対象となるレコード間の周辺情報を用いて同一性の判定を行うことから、例えば、対象のレコード間で全くの異名義であったとしても、当該レコードが関連しているか否かを精度よく判定することができる。その結果、本願のデータ判定システム１は、連続的な特性を有するデータ間の関連付けを行うことを可能にする。
【００５６】
［実施例１に係るデータ判定システムによる処理の手順］
次に、実施例１に係るデータ判定システム１による処理の手順について、図１１を用いて説明する。図１１は、実施例１に係るデータ判定システム１による処理の手順を示すシーケンス図である。
【００５７】
図１１に示すように、実施例１に係るデータ判定システム１においては、レコード抽出部５３は、連続する期間の関係であり、同じ属性の２つのレコードを抽出して（ステップＳ１０１）、レコード同一性判定部５４に２つのレコードを送信する（ステップＳ１０２）。
【００５８】
そして、レコード同一性判定部５４は、２つのレコードを受信すると、２つのレコードの属性に関係するルールを抽出して（ステップＳ１０３）、ルールに関係するメタデータを２つのレコードからそれぞれ抽出して（ステップＳ１０４）、２つのレコードの同一性を判定する（ステップＳ１０５）。
【００５９】
ここで、２つのレコードに同一性がある場合には（ステップＳ１０６肯定）、レコード同一性判定部５４は、２つのレコードをデータセット間レコード連結部５５に送信する（ステップＳ１０７）。そして、データセット間レコード連結部５５は、２つのレコードを受信すると、２つのレコードの関連付け情報を登録する（ステップＳ１０８）。
【００６０】
そして、２つのレコードの関連付け情報を登録後、又は、ステップＳ１０６において２つのレコードに同一性が無かった場合（ステップＳ１０６否定）、レコード抽出部５３は、可能なレコードの組合せを全て選択したか否かを判定する（ステップＳ１０９）。ここで、全ての組合せを選択していない場合には（ステップＳ１０９否定）、レコード抽出部５３は、ステップＳ１０１に戻って、２つのレコードを抽出する。一方、全ての組合せを選択した場合には（ステップＳ１０９肯定）、実施例１に係るデータ判定システムは処理を終了する。
【００６１】
［実施例１に係るレコード同一性判定部による判定処理の手順］
次に、実施例１に係るレコード同一性判定部５４による判定処理の手順について、図１２を用いて説明する。図１２は、実施例１に係るレコード同一性判定部５４による判定処理の手順を示すフローチャートである。
【００６２】
図１２に示すように、実施例１に係るレコード同一性判定部５４は、レコード間の同一性を判定する際に、同一性判定ルールｒを、レコード・メタデータを扱える形式ｔに変換する（ステップＳ２０１）。そして、レコード同一性判定部５４は、レコードｐ１、ｐ２の周辺情報ｃ１、ｃ２に対してｔを実行し（ステップＳ２０２）、ｔが真になるか否かを判定する（ステップＳ２０３）。
【００６３】
ここで、ｔが真である場合には（ステップＳ２０３肯定）、レコード同一性判定部５４は、レコードｐ１、ｐ２をデータセット間レコード連結部５５に送信して（ステップＳ２０４）、処理を終了する。一方、ｔが真ではない場合には（ステップＳ２０３否定）、レコード同一性判定部５４は、処理を終了する。
【００６４】
［実施例１の効果］
上述したように、実施例１によれば、レコード記憶部４１が、連続的な特性を有する複数のレコードごとに、当該レコードの種類を示す属性情報と、当該レコードと他のレコードとの関連を示す関連メタデータと、連続的な特性における当該データの位置づけを示す連続情報とを関係付けて記憶する。そして、レコード抽出部５３が、レコード記憶部４１によって記憶された複数のレコードから、同一の属性情報を有し、かつ、連続情報において連続することが示される２つのレコードを抽出する。そして、レコード同一性判定部５４が、レコード抽出部５３によって抽出された２つのレコードに関係付けされた関連メタデータについて所定の条件を満たす場合に、当該２つのレコードが関連すると判定する。従って、実施例１に係るデータ判定システム１は、グラフ構造において同一性を判定する対象となるレコード間の周辺情報を用いて同一性の判定を行うことから、例えば、対象のレコード間で全くの異名義であったとしても、当該レコードが関連しているか否かを精度よく判定することができる。その結果、実施例１に係るデータ判定システム１は、連続的な特性を有するデータ間の関連付けを行うことを可能にする。
【００６５】
また、実施例１によれば、レコード同一性判定部５４は、レコード抽出部５３によって抽出された２つのレコードに関係付けされた関連メタデータが所定の類似条件を満たす場合に、当該２つのレコードが関連すると判定する。従って、実施例１に係るデータ判定システム１は、人間の知識を、レコード間の関連の有無の判定のための制約条件として利用することを可能にする。
【００６６】
また、実施例１によれば、データセット内レコード連結部５２は、記憶装置２００によって記憶された連続的な特性を有する複数のレコードごとに、当該データの種類を示す属性情報と、当該レコードと他のレコードとの関連を示す関連メタデータと、当該メタデータの特徴を示す特徴メタデータと、連続的な特性における当該データの位置づけを示す連続情報との関連を示す所定の情報を生成する。従って、実施例１に係るデータ判定システム１は、時間的、又は、空間的な連続性を考慮してレコードを管理することができることから、レコードの時間的、空間的な推移を可視化することができ、情報の探索及び利用の効率を向上させることを可能にする。
【００６７】
また、実施例１によれば、レコード同一性判定部５４は、２つのレコードが関連するか否かを判定する際に、当該レコードとメタデータとの関係をグラフ構造で表現し、当該レコードから所定のノード数以内に配置された関連メタデータを用いる。従って、実施例１に係るデータ判定システム１は、レコードに直接関連するメタデータ以外のメタデータを用いてレコード間の関連の有無を判定することができ、異なる名義のレコード間の関連の有無を判定することを可能にする。
【００６８】
また、実施例１によれば、レコード同一性判定部５４は、２つのレコードに関係付けられた関連メタデータが連続的な特性を有し、かつ、同一の関連メタデータである第１の関連メタデータである場合には、２つのレコードが関連するか否かを判定する前に、第１の関連メタデータにさらに関係付けられた第２の関連メタデータについての所定の類似条件を満たすか否かを判定することで、第１の関連メタデータが同一であるか否かを判定する。従って、実施例１に係るデータ判定システム１は、精度の高い判定を実行することを可能にする。
【００６９】
また、実施例１によれば、レコード同一性判定部５４は、第１の関連メタデータにさらに関係付けられた第２の関連メタデータが連続的な特性を有し、かつ、同一である場合に、第１の関連メタデータが同一であるか否かを判定する前に、第２の関連メタデータにさらに関係付けられた第３の関連メタデータについての所定の類似条件を満たすか否かを判定することで、第２の関連メタデータが同一であるか否かを判定するとともに、第３の関連メタデータが第１の関連メタデータと同一である場合には、当該第３の関連メタデータについての所定の類似条件を満たすか否かの判定を中断する。従って、実施例１に係るデータ判定システムは、同一性の判定におけるループを抑止することを可能にする。
【００７０】
また、実施例１によれば、レコード抽出部５３は、一連の判定において、２つのレコードの組が未抽出であることを条件に、レコード記憶部４１から当該２つのレコードを抽出する。従って、実施例１に係るデータ判定システム１は、判定処理がループすることを抑止し、効率よく判定処理を実行することを可能にする。
【実施例２】
【００７１】
これまで実施例１を説明したが、本願が開示する技術はこれらの実施例１に限定されるものではない。すなわち、これらの実施例は、その他の様々な形態で実施されることが可能であり、種々の省略、置き換え、変更を行うことができる。
【００７２】
上述した実施例１では、連続的な特性を有するデータとして時間（年度）を用いる場合について説明した。しかしながら、開示の技術はこれに限定されるものではなく、例えば、空間的に位置が連続するものとして都道府県などを用いる場合であってもよい。かかる場合には、例えば、隣接する東京都と神奈川県とで発行されたデータの同一性を判定する場合であってもよい。
【００７３】
また、上述した実施例１では、データが発行される期間（頻度、粒度）が同一であるレコードを用いる場合について説明した。しかしながら、開示の技術はこれに限定されるものではなく、例えば、発行期間の異なる複数のレコードを用いる場合であってもよい。かかる場合には、例えば、最も短い期間単位でレコードを管理する。図１３は、変形例を説明するための図である。図１３に示すように、発行期間が異なるプロジェクトＤＢと、外部投稿ＤＢと、社員ＤＢとを管理する場合には、例えば、図１３に示すように、社員ＤＢの発行期間に合わせて、プロジェクトＤＢのレコード及び外部投稿ＤＢのレコードをコピーするようにする。このとき、データセット内連結部５２は、社員ＤＢのレコードだけではなく、プロジェクトＤＢ及び外部投稿ＤＢのコピーされたレコードに対しても連続性を示す情報を付与して管理する。
【００７４】
また、例えば、各装置の分散・統合の具体的形態（例えば、図１の形態）は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合することができる。一例を挙げると、レコード記憶部４１と同一性判定ルール記憶部４２とを一つの記憶部として統合してもよく、一方、レコード検索部５６を、レコードを検索する検索部と、表示部３０への表示を制御する表示制御部とに分散してもよい。
【００７５】
また、制御部５０を判定装置の外部装置としてネットワーク経由で接続するようにしてもよく、或いは、レコード抽出部５３、レコード同一性判定部５４を別の装置がそれぞれ有し、ネットワークに接続されて協働することで、上述した判定装置１００の機能を実現するようにしてもよい。
【００７６】
これらの実施例やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【００７７】
１データ判定システム
１０Ｉ／Ｆ部
２０入力部
３０表示部
４０記憶部
４１レコード記憶部
４２同一性判定ルール記憶部
５０制御部
５２データセット内レコード連結部
５３レコード抽出部
５４レコード同一性判定部
５５データセット間レコード連結部
１００判定装置
２００記憶装置

【特許請求の範囲】
【請求項１】
連続的な特性を有する複数のデータを記憶する記憶装置と、
前記記憶装置によって記憶された前記複数のデータにおいて連続するデータ間に関連があるか否かを判定する判定装置とを備えたデータ判定システムであって、
前記判定装置が、
前記記憶装置によって記憶された前記複数のデータごとに、当該データの種類を示す属性情報と、当該データと他のデータとの関連を示す関連情報と、前記連続的な特性における当該データの位置づけを示す連続情報とを関係付けて記憶する関係情報記憶部と、
前記関係情報記憶部によって記憶された複数のデータから、同一の属性情報を有し、かつ、前記連続情報において連続的な特性を有する２つのデータを抽出する抽出部と、
前記抽出部によって抽出された２つのデータに関係付けられた関連情報について所定の条件を満たす場合に、当該２つのデータが関連すると判定する判定部と、
を備えたことを特徴とするデータ判定システム。
【請求項２】
前記判定部は、前記抽出部によって抽出された２つのデータに関係付けされた関連情報が所定の類似条件を満たす場合に、当該２つのデータが関連すると判定することを特徴とする請求項１に記載のデータ判定システム。
【請求項３】
前記判定装置が、
前記記憶装置によって記憶された連続的な特性を有する複数のデータごとに、当該データの種類を示す属性情報と、当該データと他のデータとの関連を示す関連情報と、前記連続的な特性における当該データの位置づけを示す連続情報との関係を示す所定の情報を生成する関連情報生成部をさらに備えたことを特徴とする請求項１又は２に記載のデータ判定システム。
【請求項４】
前記判定部は、前記２つのデータが関連するか否かを判定する際に、当該データと前記関連情報との関係をグラフ構造で表現し、当該データから所定のノード数以内に配置された関連情報を用いることを特徴とする請求項１又は２に記載のデータ判定システム。
【請求項５】
前記判定部は、前記２つのデータに関係付けられた関連情報が前記連続的な特性を有し、かつ、同一の関連情報である第１の関連情報である場合には、前記２つのデータが関連するか否かを判定する前に、前記第１の関連情報にさらに関係付けられた第２の関連情報についての前記所定の類似条件を満たすか否かを判定することで、前記第１の関連情報が同一であるか否かを判定することを特徴とする請求項２〜４のいずれか１つに記載のデータ判定システム。
【請求項６】
前記判定部は、前記第１の関連情報にさらに関係付けられた第２の関連情報が前記連続的な特性を有し、かつ、同一である場合に、前記第１の関連情報が同一であるか否かを判定する前に、前記第２の関連情報にさらに関係付けられた第３の関連情報についての前記所定の類似条件を満たすか否かを判定することで、前記第２の関連情報が同一であるか否かを判定するとともに、前記第３の関連情報が前記第１の関連情報と同一である場合には、当該第３の関連情報についての前記所定の類似条件を満たすか否かの判定を中断することを特徴とする請求項５に記載のデータ判定システム。
【請求項７】
前記抽出部は、一連の判定において、前記２つのデータの組が未抽出であることを条件に、前記関係情報記憶部から当該２つのデータを抽出することを特徴とする請求項１〜６のいずれか１つに記載のデータ判定システム。
【請求項８】
データ判定システムで実行されるデータ判定方法であって、
前記データ判定システムは、連続的な特性を有する複数のデータを記憶する記憶装置と、前記記憶装置によって記憶された前記複数のデータにおいて連続するデータ間に関連があるか否かを判定する判定装置とを備え、
前記判定装置が、前記記憶装置に記憶された前記複数のデータごとに、当該データの種類を示す属性情報と、当該データと他のデータとの関連を示す関連情報と、前記連続的な特性における当該データの位置づけを示す連続情報とを関係付けて記憶する関係情報記憶部を参照して、同一の属性情報を有し、かつ、前記連続情報において連続的な特性を有する２つのデータを抽出する抽出工程と、
前記判定装置が、前記抽出工程によって抽出された２つのデータに関係付けされた関連情報について所定の条件を満たす場合に、当該２つのデータが関連すると判定する判定工程と、
を含んだことを特徴とするデータ判定方法。

【図１】