情報処理方法及び装置

【課題】データ群に含まれるデータのうち、データ間の条件を満たさないと判定されるデータの量を抑制するようにする。
【解決手段】本方法は、第１のデータ群に含まれるＮ（Ｎは自然数）個以上のデータとの間で所定の関係を持つ、複数のデータを格納部に格納する処理と、第１のデータ群と異なる第２のデータ群に含まれるあるデータが、第２のデータ群に含まれるＮ個以上のデータとの間で所定の関係を持たない場合に、あるデータが、格納部に格納された複数のデータに含まれるＮ個以上のデータと所定の関係を持つか否かの判定を行う処理と、判定により、所定の関係を持つと判定した場合に、あるデータを格納部に格納する処理とを含む。

【発明の詳細な説明】
【技術分野】
【０００１】
本技術は、データの秘匿化技術に関する。
【背景技術】
【０００２】
例えば、収集した個人情報を、個人を特定できないようにするために匿名化情報に加工する技術が存在している。
【０００３】
一般的に個人情報を匿名化情報にデータ加工しても、他の情報と照合して個人を識別できる（「容易照合性」と呼ぶ）場合は個人情報に該当する。しかしながら、「容易照合性」があるか否かの客観的な基準がなく、安全に匿名化情報を利用できるかの判断が難しい。この「容易照合性」には以下に示すような観点がある。
（１）他の情報と容易に照合できる環境にあるか否か。
（２）他の情報と照合した結果、個人を識別できるか否か。
【０００４】
（１）については、データ管理（参照権限、参照範囲、情報漏洩対策）も含めた対策を行って容易照合性が否定されることになるので、ソフトウェアだけで判断はできない。一方、（２）は個人識別可能性とも呼ばれるが、識別リスクのあるレコードを削るといった加工を行うことで、より安全な匿名化情報を生成できる。これにより、他の情報と容易に照合できる場合や、個人を識別する情報が他で漏えいした場合においても、個人を特定することができないため、安全に匿名化情報を利用させることができる。
【０００５】
匿名化情報に加工する技術には、例えば、個人情報と照合することで個人の特定につながる情報を判断して除き、匿名化情報に加工する技術がある。
【０００６】
また、匿名化情報自身におけるレコードの重複から個人識別可能性を検証してデータ加工する技術も存在している。これは、匿名化情報におけるレコードの重複数がＮ件以上であれば、個人情報と照合した結果がＮ件以上となるため匿名化情報から個人は識別できないという法則を利用している。
【０００７】
具体的には、図１に示すような処理が実施される。図１の左側に示す匿名化情報は３レコードを含んでおり、上の２行は同一であって２件以上の場合には個人識別可能性がないことが確認されるため［検証ＯＫ］として検証済の匿名化情報に加えられる。一方、ＡＢＣＤというレコードについては１行しかないので、個人識別可能性があり［検証ＮＧ］と判定される。そうすると、例えばＡＢＣＤの一部の属性値Ｂ及びＣをＸに変換してしまい、ＡＸＸＤというレコードを検証済みの匿名化情報に加える。一方、ＡＢＣＤというレコード自体については破棄してしまう。このような処理方法は、１つのデータベースにおいて既に蓄積済みのレコードを処理する場合には有効である。
【０００８】
しかしながら、様々な業務システムから適宜収集されるデータを匿名化して、匿名化したデータを活用する他のシステムに出力するような場合には問題がある。具体的には、図１の左側に示すような３レコードがまず収集されて、この３レコードについて上で述べたような処理を実施すると、図１の右側に示すようなデータが他のシステムに出力される。その後、図２の左側に示すような３レコードが新たに収集されて上で述べたような処理を新たな３レコードに実施すると、上２行は同一であって個人識別可能性がないということが確認され検証ＯＫとして検証済みの匿名化情報に加えられる。しかしながら、ＡＢＣＤというレコードについては１行しかないので、個人識別可能性があり［検証ＮＧ］と判定される。そうすると、一部の属性値Ｂ及びＣをＸに変換してしまい、ＡＸＸＤというレコードを検証済みの匿名化情報に加えることになる。そして、ＡＢＣＤというレコード自体については破棄してしまう。このように、ＡＢＣＤというレコードは２度出現しているが、収集タイミングが異なっているので、検証済みの匿名化情報には「ＡＸＸＤ」というレコードが２度登録されてしまう。これでは、ＡＢＣＤという情報は失われてしまい、他のシステムにおける統計処理などに支障を来すようになる。
【先行技術文献】
【特許文献】
【０００９】
【特許文献１】特開２００７−２８７１０２号公報
【特許文献２】特開２００９−１８１２０７号公報
【発明の概要】
【発明が解決しようとする課題】
【００１０】
本発明の目的は、一側面によれば、データ群に含まれるデータのうち、データ間の条件を満たさないと判定されるデータの量を抑制することである。
【課題を解決するための手段】
【００１１】
本情報処理方法は、（Ａ）第１のデータ群に含まれるＮ（Ｎは自然数）個以上のデータとの間で所定の関係を持つ、複数のデータを格納部に格納する処理と、（Ｂ）第１のデータ群と異なる第２のデータ群に含まれるあるデータが、第２のデータ群に含まれるＮ個以上のデータとの間で所定の関係を持たない場合に、あるデータが、格納部に格納された複数のデータに含まれるＮ個以上のデータと所定の関係を持つか否かの判定を行う処理と、（Ｃ）判定により、所定の関係を持つと判定した場合に、あるデータを格納部に格納する処理とを含む。
【発明の効果】
【００１２】
一側面によれば、データ群に含まれるデータのうち、データ間の条件を満たさないと判定されるデータの量を抑制できる。
【図面の簡単な説明】
【００１３】
【図１】図１は、従来技術を説明するための図である。
【図２】図２は、従来技術を説明するための図である。
【図３】図３は、第１の実施の形態の処理の概要を示す図である。
【図４】図４は、第１の実施の形態に係るシステムの概要を示す図である。
【図５】図５は、第１の実施の形態に係る情報処理装置の機能ブロック図である。
【図６】図６は、第１の実施の形態における情報処理装置の処理フローを示す図である。
【図７】図７は、収集されるデータの一例を示す図である。
【図８】図８は、第１の実施の形態における定義データの一例を示す図である。
【図９】図９は、変換データの一例を示す図である。
【図１０】図１０は、第１検証処理の処理フローを示す図である。
【図１１】図１１は、第１検証処理における検証結果を説明するための図である。
【図１２】図１２は、第１検証処理における検証成功レコード群の一例を示す図である。
【図１３】図１３は、第１検証処理における検証失敗レコード群の一例を示す図である。
【図１４】図１４は、第２検証処理の処理フローを示す図である。
【図１５】図１５は、初回の処理で検証成功データ格納部に格納されるデータの一例を示す図である。
【図１６】図１６は、ターゲットシステムにおけるデータ加工の一例を示す図である。
【図１７】図１７は、次に収集され且つ変換されたデータの一例を示す図である。
【図１８】図１８は、２回目の第１検証処理における検証結果を説明するための図である。
【図１９】図１９は、２回目の第１検証処理における検証成功レコード群の一例を示す図である。
【図２０】図２０は、２回目の第１検証処理において検証失敗レコード群の一例を示す図である。
【図２１】図２１は、２回目の第２検証処理終了後における検証成功データ格納部に格納されるデータの一例を示す図である。
【図２２】図２２は、第２の実施の形態の処理の概要を示す図である。
【図２３】図２３は、第２の実施の形態における情報処理装置の処理フローを示す図である。
【図２４】図２４は、第２の実施の形態における定義データの一例を示す図である。
【図２５】図２５は、第３検証処理の処理フローを示す図である。
【図２６】図２６は、第３検証処理で検証成功と判断されたレコードの一例を示す図である。
【図２７】図２７は、第３検証処理で検証失敗と判断されたレコードの一例を示す図である。
【図２８】図２８は、第４検証処理の処理フローを示す図である。
【図２９】図２９は、第４検証処理の処理フローを示す図である。
【図３０】図３０は、検証失敗レコードの秘匿化について説明するための図である。
【図３１】図３１は、データ配布処理の処理フローを示す図である。
【図３２】図３２は、配布データの一例を示す図である。
【図３３】図３３は、２回目の第３検証処理によって復元データとして特定されたレコードの一例を示す図である。
【図３４】図３４は、２回目の第３検証処理によって検証成功レコードとして特定されたレコードの一例を示す図である。
【図３５】図３５は、２回目の第３検証処理によって検証失敗レコードとして特定されたレコードの一例を示す図である。
【図３６】図３６は、２回目の配布データの一例を示す図である。
【図３７】図３７は、ターゲットシステムにおいて蓄積されるデータの一例を示す図である。
【図３８】図３８は、コンピュータの機能ブロック図である。
【図３９】図３９は、本実施の形態に係る情報処理装置の機能ブロック図である。
【発明を実施するための形態】
【００１４】
［実施の形態１］
図３を用いて第１の実施の形態における処理の概要を説明する。本実施の形態において処理を実施する情報処理装置は、１又は複数の業務システム（ソースシステムとも呼ぶ。）からデータを収集して匿名化し、以下で述べる処理を実施した上で、匿名化情報を活用する他のシステム（ターゲットシステムとも呼ぶ。）に配布する処理を実施する。例えば、図３の上段左側に示すように３レコード収集した場合、この３レコードの中でレコードの重複を判断する（ステップ（１））。なお、３レコードは、既に匿名化のためのデータ変換処理（例えば該当する値域についてのデータに変換したり、仮名文字化したり、レコードの一部の属性を破棄したりする）を実施した後のデータである。
【００１５】
ステップ（１）で例えば２レコード以上重複すると判断された場合、個人識別可能性がないので検証ＯＫとして検証済みの匿名化情報に加えられる。図３の例では上２レコードが検証済みの匿名化情報に加えられる。一方、ＡＢＣＤという属性値を含む下１レコードは、他のレコードと重複しておらず、個人識別可能性があるので検証ＮＧと判断される。但し、このＡＢＣＤを含むレコードについては、既に検証済みの匿名化情報と照合して、一致するレコードが、既に検証済みの匿名化情報に含まれているかを確認する（ステップ（２））。この例では、重複するレコードが存在していないので、ステップ（２）でもＡＢＣＤを含むレコードは検証ＮＧと判断される。本実施の形態では、ＡＢＣＤを含むレコードを破棄することなく、次に収集されたレコードについての重複レコードが存在するか否かを判断する際に用いるため保持しておく。なお、検証済みの匿名化情報についてはターゲットシステムに配布する。
【００１６】
次にソースシステムから２レコードが収集されると、保持しておいたレコードを結合させ（ステップ（３））、合計３レコードについてレコードの重複を判断する（ステップ（４））。例えば、ソースシステムから、ＡＢＣＤを含むレコードと、ＥＦＧＨを含むレコードとを収集した場合には、保持しておいた、ＡＢＣＤを含むレコードと併せて重複を判断する。この場合、ＡＢＣＤを含むレコードについては個人識別可能性がないので、検証済みの匿名化情報に追加される。一方、ＥＦＧＨを含むレコードについては、３レコードには重複はないので、個人識別可能性ありで検証ＮＧと判断される。そして、ＥＦＧＨを含むレコードについては、既に検証済みの匿名化情報と照合して、一致するレコードが、既に検証済みの匿名化情報に含まれているかを確認する（ステップ（５））。図３の例では、既にＥＦＧＨを含むレコードが、検証済みの匿名化情報に含まれているので、今回収集され且つＥＦＧＨを含むレコードについても検証ＯＫとして、検証済みの匿名化情報に追加される。このように今回検証された３レコードは、ターゲットシステムに配布される。
【００１７】
このような処理を実施することで、より多くのレコードがターゲットシステムにおいて有効に活用できるようになる。さらに、収集されたレコードについては収集毎に上で述べたような処理を実施するので、ターゲットシステムでは即時性を損なうことなく最新のデータについて統計処理などの処理を実施することができる。
【００１８】
次に、本実施の形態に係るシステムの概要を図４及び図５を用いて説明する。図４に示すように、本実施の形態に係る主要な処理を実施する情報処理装置１０００は、ネットワーク３００を介してソースシステムＡ及びＢと接続されており、ネットワーク４００を介してターゲットシステムＣ及びＤと接続されている。ソースシステム及びターゲットシステムの数は１つの場合もある。ソースシステムＡ及びＢは、例えば自身のデータベースに格納すべきデータ等を、ネットワーク３００を介して情報処理装置１０００に送信する。
【００１９】
ターゲットシステムＣ及びＤも、例えば自身のデータベースに、ネットワーク４００を介して情報処理装置１０００から受信したデータを蓄積し、データ受信とは非同期に、他の装置などからの要求に対する処理を実施する。
【００２０】
図５に情報処理装置１０００の機能ブロック図を示す。情報処理装置１０００は、データ収集部１００と、収集データ格納部１１０と、データ変換部１２０と、変換データ格納部１３０と、第１検証処理部１４０と、検証失敗データ格納部１５０と、第２検証処理部１６０と、検証成功データ格納部１７０と、ネットワーク４００を介してターゲットシステムに匿名化されたデータを配布する配布処理部１８０と、配布データ格納部１９０と、定義管理部２００と、定義データ格納部２１０とを有する。
【００２１】
データ収集部１００は、ネットワーク４００を介してターゲットシステムＡ及びＢからデータを受信して収集データ格納部１１０に格納する。データ変換部１２０は、定義データ格納部２１０に格納されているデータに従ってデータ変換処理を実施し、処理結果を変換データ格納部１３０に格納する。第１検証処理部１４０は、変換データ格納部１３０と検証失敗データ格納部１５０に格納されているデータに対して、定義データ格納部２１０に格納されているデータに従って検証処理を実施する。そして、第１検証処理部１４０は、検証成功したレコードについては配布処理部１８０に出力し、検証失敗したレコードについては検証失敗データ格納部１５０に格納する。
【００２２】
第２検証処理部１６０は、検証失敗データ格納部１５０に格納されているデータについて、検証成功データ格納部１７０に格納されているデータに対して定義データ格納部２１０に格納されているデータに従って検証処理を実施する。そして、第２検証処理部１６０は、検証成功したレコードについては配布処理部１８０に出力し、検証失敗したレコードについては検証失敗データ格納部１５０に格納する。配布処理部１８０は、第１検証処理部１４０及び第２検証処理部１６０から受信したデータを配布データ格納部１９０に格納すると共に、受信したデータで検証成功データ格納部１７０を更新する。そして、配布処理部１８０は、配布データ格納部１９０に格納されているデータをネットワーク４００を介してターゲットシステムＣ及びＤに送信する。
【００２３】
定義管理部２００は、管理者端末２０００からの指示に従って、データ変換処理及び検証処理についての定義データを定義データ格納部２１０に格納する。また、定義管理部２００は、データ変換部１２０、第１検証処理部１４０及び第２検証処理部１６０等に、定義データ格納部２１０に格納されているデータを設定する。
【００２４】
次に、図６乃至図２１を用いて情報処理装置１０００の処理について説明する。まず、データ収集部１００は、ソースシステムＡ又はＢからデータ収集を行い、収集されたデータを、収集データ格納部１１０に格納する（図６：ステップＳ１）。例えば、図７に示すようなデータを収集して、収集データ格納部１１０に格納する。図７の例では、各レコードには、個人識別子（ＩＤ）と、氏名と、性別と、年齢と、身長と、体重とが含まれる。なお、番号（Ｎｏ．）は、この後の処理の説明においてレコードを識別しやすくするために、便宜上付加したもので、実際には含まれない。
【００２５】
次に、データ変換部１２０は、定義データ格納部２１０に格納されているデータに従って、所定のデータ変換を実施し、処理結果を変換データ格納部１３０に格納する（ステップＳ３）。本実施の形態では定義データ格納部２１０に格納されているデータについては定義管理部２００がデータ変換部１２０に設定を行うものとする。また、定義データ格納部２１０に格納されている定義データの一例を図８に示す。図８の例では、匿名化の判定基準である重複数と、各項目について検証の対象か否かを示すデータとが含まれる。図８の例では、「性別」「年齢」「身長」「体重」が項目として列挙されており、それ以外の項目のデータについては、匿名化のために破棄されるものとする。具体的には「個人ＩＤ」及び「氏名」についてはデータ変換部１２０が破棄する。本実施の形態では、検証の対象として指示されている項目については、曖昧化の一例として、予め定められた値域のいずれに属するかという判定を行って、その値域を特定するためのデータに置換するものとする。例えば、身長が「１７９」である「Ａ」の場合、１７０−１７９の値域に属するということで、当該値域の識別データに置換される。年齢及び体重についても同様に置換される。そうすると、図７のデータは、図９に示すデータに変換されることになる。図９の例では、「個人ＩＤ」及び「氏名」の項目が破棄され、性別の項目はそのまま残っているが、「年齢」「身長」「体重」については上で述べたような所属する値域への置換が行われている。
【００２６】
そして、第１検証処理部１４０は、変換データ格納部１３０に格納されているデータに対して、定義データ格納部２１０に格納されている定義データに従って第１検証処理を実施する（ステップＳ５）。第１検証処理については、図１０乃至図１３を用いて説明する。
【００２７】
第１検証処理において、まず、第１検証処理部１４０は、先行する検証失敗データが検証失敗データ格納部１５０に格納されているか確認する（図１０：ステップＳ２１）。先行する検証失敗データが存在しない場合には、第１検証処理部１４０は、変換データ格納部１３０から今回の変換データを読み出す（ステップＳ２４）。そして、ステップＳ２５に移行する。一方、先行する検証失敗データが存在する場合には、第１検証処理部１４０は、先行する検証失敗データと、変換データ格納部１３０に格納されている今回の変換データとの結合を実施する（ステップＳ２３）。
【００２８】
そして、第１検証処理部１４０は、定義データ格納部２１０に格納されている定義データを設定する（ステップＳ２５）。具体的には、検証の対象となる項目を特定する。図８の例であれば、「性別」「年齢」「身長」「体重」が検証の対象となる。以下、一致するレコード又は同一性を有するレコードとは、検証対象の項目の値が同じであるレコードを言うものとする。
【００２９】
そして、第１検証処理部１４０は、処理対象のデータ（ステップＳ２４で読み出したデータ又はステップＳ２３で結合したデータ）において未処理のレコードを１つ特定する（ステップＳ２７）。その後、第１検証処理部１４０は、処理対象のデータにおいて、特定したレコードと一致するレコードを探索する（ステップＳ２９）。図８に示した定義データによれば、２以上の同一レコードがあれば、検証成功となる。先行する検証失敗データが存在せず、図９に示したデータについてステップＳ２９を実施すると、図１１に示すような結果が得られる。図１１では、番号１と番号６のレコードが一致しており、番号７と番号９のレコードが一致しており、番号２と番号５のレコードが一致していることが分かる。また、番号３、番号１０、番号４及び番号８のレコードについては、一致するレコードが存在しない。
【００３０】
そして、第１検証処理部１４０は、特定されたレコードについて、重複レコード数がＮ（図８の定義データの例では「２」。一般的には２以上の設定された整数。）以上であるか判断する（ステップＳ３１）。重複レコード数がＮ以上であれば、第１検証処理部１４０は、特定されたレコードを検証成功に分類する（ステップＳ３５）。例えば、メインメモリなどの記憶装置における検証成功リストに、特定されたレコード及び検出された同一レコードを登録する。そして、ステップＳ３７に移行する。
【００３１】
一方、重複レコード数がＮ未満であれば、第１検証処理部１４０は、特定されたレコードを検証失敗に分類する（ステップＳ３３）。本実施の形態では、特定されたレコードを、検証失敗データ格納部１５０に格納する。
【００３２】
そして、第１検証処理部１４０は、処理対象のデータにおいて未処理のレコードが存在しているか判断する（ステップＳ３７）。未処理のレコードが存在する場合にはステップＳ２７に戻る。一方、未処理のレコードが存在しない場合には、第１検証処理部１４０は、検証成功レコードを配布処理部１８０に出力し、配布処理部１８０は、受信した検証成功レコードを配布データ格納部１９０に格納する（ステップＳ３９）。その後、呼び出し元の処理に戻る。
【００３３】
このようにすれば、処理対象のデータは、重複レコード数Ｎ以上で検証成功と判断されたレコード群と、重複レコード数Ｎ未満で検証失敗と判断されたレコード群とに分類される。例えば、図１１で説明したように、検証成功レコード群は図１２に示すようなレコード群であり、配布データ格納部１９０に格納される。一方、検証失敗レコード群は図１３に示すようなレコード群であり、検証失敗データ格納部１５０に一旦格納される。
【００３４】
図６の処理の説明に戻って、第１検証処理部１４０は、処理対象のデータにおける全てのレコードが検証成功であったか判断する（ステップＳ７）。全てのレコードが検証成功であれば、ステップＳ１１に移行する。一方、検証失敗レコードが存在する場合には、第２検証処理部１６０に対して処理を指示して、第２検証処理部１６０は、第２検証処理を実施する（ステップＳ９）。第２検証処理については、図１４を用いて説明する。
【００３５】
第２検証処理において、まず、第２検証処理部１６０は、定義データ格納部２１０に格納されている定義データを設定する（図１４：ステップＳ４０）。具体的には、検証の対象となる項目を特定する。図８の例であれば、「性別」「年齢」「身長」「体重」が検証の対象となる。その後、第２検証処理部１６０は、検証失敗データ格納部１５０に格納されている検証失敗データに含まれる未処理のレコードを１つ特定する（ステップＳ４１）。そして、第２検証処理部１６０は、検証成功データ格納部１７０に格納されているデータにおいて、特定されたレコードと一致するレコードを探索する（ステップＳ４３）。なお、上の例では検証成功データ格納部１７０には何も格納されていないものとする。そうすると、図１３に示すようなレコード群については重複レコード数は０となる。
【００３６】
そして、第２検証処理部１６０は、特定されたレコードについて、重複レコード数がＮ以上であるか判断する（ステップＳ４５）。検証成功データ格納部１７０に格納されているデータについて探索して重複レコード数がＮ以上であれば、特定の個人を特定できないので検証成功と判断しても良い。これによって検証成功と判断されるレコードの数が増加してターゲットシステムに配布されるレコード数が増加するため、統計処理への影響を抑えつつ、匿名化を確実に実施できるようになる。
【００３７】
従って、第２検証処理部１６０は、特定されたレコードを検証成功に分類する（ステップＳ４７）。例えば、メインメモリなどの記憶装置における検証成功リストに登録する。そしてステップＳ５１に移行する。
【００３８】
一方、重複レコード数がＮ未満であれば、第２検証処理部１６０は、特定されたレコードを検証失敗に分類する（ステップＳ４９）。例えば、メインメモリなどの記憶装置における検証失敗リストに登録する。その後、第２検証処理部１６０は、検証失敗データにおいて未処理のレコードが存在しているか判断する（ステップＳ５１）。未処理のレコードが存在している場合にはステップＳ４１に戻る。一方、未処理のレコードが存在していない場合には、第２検証処理部１６０は、検証失敗レコードで検証失敗データ格納部１５０に格納されているデータを更新する（ステップＳ５３）。さらに、第２検証処理部１６０は、検証成功レコードを配布処理部１８０に出力し、配布処理部１８０は、受信した検証成功レコードを配布データ格納部１９０に格納する（ステップＳ５５）。その後、呼び出し元の処理に戻る。
【００３９】
上で述べた例では、検証成功データ格納部１７０には何も格納されていないので、検証失敗データ格納部１５０に格納されているデータは、図１３に示されたものと同じである。また、配布データ格納部１９０に格納されるデータについても、図１２に示されたものと同じになる。
【００４０】
図６の処理の説明に戻って、配布処理部１８０は、第１検証処理部１４０及び第２検証処理部１６０から受信し配布データ格納部１９０に格納されているデータによって、検証成功データ格納部１７０を更新する（ステップＳ１１）。本実施の形態では、検証成功データ格納部１７０については、例えば図１５のようなデータを格納する。すなわち、同一のレコードについては１レコードのみを残し、重複レコード数を登録する。既に検証成功データ格納部１７０に同一のレコードが含まれている場合には、重複レコード数を増分する。
【００４１】
さらに、配布処理部１８０は、配布データ格納部１９０に格納されている検証成功データをターゲットシステムＣ及びＤに配布する（ステップＳ１３）。具体的には、ネットワーク４００を介して検証成功データを送信する。
【００４２】
このような処理を実施すれば、より多くのレコードが、匿名性が確保されていると検証されて、ターゲットシステムに配布され、ターゲットシステムにおいて適切な処理を行うことができる。
【００４３】
なお、ターゲットシステムＣ及びＤでは、例えば様々な観点に基づく統計処理を行ったり、さらに図１６に示すように、健康状態のデータ及び所見のデータを追加して加工した後に統計処理を実施したりする場合もある。
【００４４】
なお、次のタイミングで収集されたデータに対してデータ変換処理を実施して、図１７のようなデータが得られた場合について説明する。上でも述べたように、図１７における番号は説明のためにのみ追加されている。
【００４５】
このような場合、第１検証処理においては、図１３に示した前回の検証失敗レコードと今回のレコードとを結合して、それらのレコードについて同一のレコードを探索する。そうすると図１８に示すように、番号３と番号１２のレコードが一致し、番号１０と番号１５のレコードが一致し、番号４と番号１３のレコードが一致し、番号８と番号１４のレコードが一致している。従って、図１９に示すようなデータが、検証成功レコードとして特定され、配布データ格納部１９０に格納される。さらに、図２０に示すように、番号１１のレコードのみが検証失敗レコードとして特定され、検証失敗データ格納部１５０に一旦格納される。
【００４６】
その後、第２検証処理において、図２０に示した検証失敗レコードについては、図１５に示し且つ検証成功データ格納部１７０に格納されているデータとの照合を行う。そうすると、図１５における最初のレコードと一致していることが分かるので、図２０に示した検証失敗レコードについても配布データ格納部１９０に格納される。さらに、図１５に示した検証成功データ格納部１７０に格納されているデータは、図２１に示すように更新される。すなわち、新たなレコードを追加すると共に、同一のレコードが検出されれば重複レコード数が増分される。このような処理を繰り返すことになる。
【００４７】
［実施の形態２］
本実施の形態に係る処理の概要を図２２を用いて説明する。
【００４８】
本実施の形態において処理を実施する情報処理装置は、１又は複数のソースシステムからデータを収集して匿名化し、以下で述べる処理を実施した上で、匿名化情報を活用するターゲットシステムに配布する処理を実施する。例えば、図２２の上段左側に示すように３レコード収集した場合、この３レコードの中でレコードの重複を判断する（ステップ（１１））。なお、３レコードは、既に匿名化のためのデータ変換処理（例えば該当する値域についてのデータに変換したり、仮名文字化したり、レコードの一部の属性を破棄したりする）を実施した後のデータである。
【００４９】
ステップ（１１）で例えば２レコード以上一致すると判断された場合、個人識別可能性がないので検証ＯＫとして検証済みの匿名化情報に加えられる。図２２の例では上２レコードは、ＪＫＦＧで一致しているため、検証済みの匿名化情報に加えられる。一方、ＡＢＣＤという属性値を含む下１レコードは、他のレコードと一致しておらず、個人識別可能性があるので検証ＮＧと判断される。但し、このＡＢＣＤを含むレコードについては、既に検証済みの匿名化情報と照合して、一致するレコードが、既に検証済みの匿名化情報に含まれているかを確認する。この例では、重複するレコードが存在していないので、本照合においても、ＡＢＣＤを含むレコードは検証ＮＧと判断される。但し、本実施の形態では、ＡＢＣＤを含むレコードの一部を秘匿化して、検証ＯＫのレコードと共にターゲットシステムに配布される（ステップ（１２））。このように一部隠蔽されているが、全てのレコードがターゲットシステムに配布される。また、ＡＢＣＤを含むレコードについては、別途保持しておく。
【００５０】
次にソースシステムから３レコードが収集されると、保持しておいたレコードを結合させ（ステップ（１３））、合計４レコードについてレコードの重複を判断する（ステップ（１４））。例えば、ソースシステムから、ＡＢＣＤを含む２レコードと、ＥＦＧＨを含むレコードとを収集した場合には、前回検証ＮＧと判断され且つＡＢＣＤを含むレコードと併せて重複を判断すると、ＡＢＣＤを含むレコードについては個人識別可能性がないので、１つのレコードについては検証済みの匿名化情報に追加される。もう１つについては、ステップ（１２）で一部隠蔽されているので、検証済みの匿名化情報においてＡＢＣＤを含むレコードを復元させる（ステップ（１５））。
【００５１】
また、ＪＫＦＧを含むレコードについては、合計４レコードについてレコードの一致を判断すると、他のレコードと一致しておらず、個人識別可能性があるので検証ＮＧと判断される。但し、このＪＫＦＧを含むレコードについては、既に検証済みの匿名化情報と照合して、一致するレコードが、既に検証済みの匿名化情報に含まれているかを確認する。図２２の例では、既にＪＫＦＧを含むレコードが、検証済みの匿名化情報に含まれているので、今回収集され且つＪＫＦＧを含むレコードについても検証ＯＫとして、検証済みの匿名化情報に追加される（ステップ（１６））。
【００５２】
一方、ＥＦＧＨを含むレコードについては、合計４レコードには一致するレコードはないので、個人識別可能性ありで検証ＮＧと判断される。そして、ＥＦＧＨを含むレコードについては、既に検証済みの匿名化情報と照合して、一致するレコードが、既に検証済みの匿名化情報に含まれているかを確認する。図２２の例では、一致するレコードが存在していないので、本照合においても、ＥＦＧＨを含むレコードは検証ＮＧと判断される。そして、ＥＦＧＨを含むレコードの一部を秘匿化して、検証ＯＫのレコードと共にターゲットシステムに配布する（ステップ（１７））。
【００５３】
このように、個人識別可能性がなくなったレコードについては復元させることができる。また、今回収集されたレコードは、一部隠蔽されている場合もあるが、全てターゲットシステムに配布される。
【００５４】
このような処理を実施することで、より多くのレコードがターゲットシステムにおいて有効に活用できるようになる。さらに、収集されたレコードについては収集毎に上で述べたような処理を実施するので、ターゲットシステムでは即時性を損なうことなく最新のデータについて統計処理などの処理を実施することができる。
【００５５】
本実施の形態でも、第１の実施の形態におけるシステム全体構成（図４）は同じであり、情報処理装置１０００の構成（図５）も同じである。但し、一部の構成要素の動作が異なっている。従って、本実施の形態に係る処理を図２３乃至図３７を用いて説明する。
【００５６】
まず、データ収集部１００は、ソースシステムＡ又はＢからデータ収集を行い、収集されたデータを、収集データ格納部１１０に格納する（図２３：ステップＳ６１）。例えば、図７に示すようなデータを収集して、収集データ格納部１１０に格納する。
【００５７】
次に、データ変換部１２０は、定義データ格納部２１０に格納されているデータに従って、所定のデータ変換を実施し、処理結果を変換データ格納部１３０に格納する（ステップＳ６３）。本実施の形態では定義データ格納部２１０に格納されているデータについては定義管理部２００がデータ変換部１２０に設定を行うものとする。また、定義データ格納部２１０に格納されている定義データの一例を図２４に示す。図２４の例では、匿名化の判定基準である重複数と、各項目について検証の対象か否かを示すデータと、各項目について隠蔽の対象か否かを示すデータとが含まれる。図２４の例では、「性別」「年齢」「身長」「体重」が項目として列挙されており、それ以外の項目のデータについては、匿名化のために破棄されるものとする。具体的には「個人ＩＤ」及び「氏名」についてはデータ変換部１２０が破棄する。本実施の形態では、検証の対象として指示されている項目については、曖昧化の一例として、予め定められた値域のいずれに属するかという判定を行って、その値域を特定するためのデータに置換するものとする。そうすると、図７のデータは、図９に示すデータに変換されることになる。これは第１の実施の形態と同じである。
【００５８】
そして、第１検証処理部１４０は、変換データ格納部１３０に格納されているデータに対して、定義データ格納部２１０に格納されている定義データに従って第３検証処理を実施する（ステップＳ６５）。第３検証処理については、図２５乃至図２７を用いて説明する。
【００５９】
第３検証処理において、まず、第１検証処理部１４０は、先行する検証失敗データが検証失敗データ格納部１５０に格納されているか確認する（ステップＳ８１）。先行する検証失敗データが存在しない場合には、第１検証処理部１４０は、変換データ格納部１３０から今回の変換データを読み出す（ステップＳ８３）。そして、ステップＳ８７に移行する。一方、先行する検証失敗データが存在する場合には、第１検証処理部１４０は、先行する検証失敗データと、変換データ格納部１３０に格納されている今回の変換データとの結合を実施する（ステップＳ８５）。
【００６０】
そして、第１検証処理部１４０は、定義データ格納部２１０に格納されている定義データを設定する（ステップＳ８７）。具体的には、検証の対象となる項目を特定する。図２４の例であれば、「性別」「年齢」「身長」「体重」が検証の対象となる。
【００６１】
そして、第１検証処理部１４０は、処理対象のデータ（ステップＳ８３で読み出したデータ又はステップＳ８５で結合されたデータ）において未処理のレコードを１つ特定する（ステップＳ８９）。その後、第１検証処理部１４０は、処理対象のデータにおいて、特定したレコードと一致するレコードを探索する（ステップＳ９１）。図２４に示した定義データによれば、２以上の同一レコードがあれば、検証成功となる。先行する検証失敗データが存在せず、図９に示したデータについてステップＳ９１を実施すると、図１１に示すような結果が得られる。ここまでは、第１の実施の形態と同様である。
【００６２】
そして、第１検証処理部１４０は、特定されたレコードについて、重複レコード数がＮ（図８の定義データの例では「２」。一般的には２以上の設定された整数。）以上であるか判断する（ステップＳ９３）。重複レコード数がＮ以上であれば、第１検証処理部１４０は、特定されたレコードが、先行する検証失敗データに含まれるか判断する（ステップＳ９７）。特定されたレコードが、先行する検証失敗データに含まれる場合には、第１検証処理部１４０は、特定されたレコードを、復元データに分類する（ステップＳ９９）。具体的には、特定されたレコードを、例えばメインメモリなどの記憶装置における、復元データリストに登録する。一方、特定されたレコードが、先行する検証失敗データに含まれない場合には、第１検証処理部１４０は、特定されたレコードを、検証成功に分類する（ステップＳ１０１）。例えば、メインメモリなどの記憶装置における検証成功リストに、特定されたレコード及び検出された同一レコードを登録する。そして、ステップＳ１０３に移行する。
【００６３】
一方、重複レコード数がＮ未満であれば、第１検証処理部１４０は、特定されたレコードを検証失敗に分類する（ステップＳ９５）。本実施の形態では、特定されたレコードを、検証失敗データ格納部１５０に格納する。
【００６４】
そして、第１検証処理部１４０は、処理対象のデータについて未処理のレコードが存在しているか判断する（ステップＳ１０３）。未処理のレコードが存在する場合にはステップＳ８９に戻る。一方、未処理のレコードが存在しない場合には、第１検証処理部１４０は、検証成功レコード及び復元データを配布処理部１８０に出力し、配布処理部１８０は、受信した検証成功レコード及び復元データを配布データ格納部１９０に格納する（ステップＳ１０５）。その後、呼び出し元の処理に戻る。
【００６５】
このようにすれば、重複レコード数Ｎ以上で検証成功と判断されたレコード群のうち先行する検証失敗データに含まれるレコードと、重複レコード数Ｎ以上で検証成功と判断されたレコード群のうち今回変換されたデータに含まれるレコードと、重複レコード数Ｎ未満で検証失敗と判断されたレコード群とに分類が行われる。
【００６６】
図１１のようなデータの場合、先行する検証失敗データが存在していないので、今回変換されたデータのうち検証成功レコード群は図１２に示すようなレコード群であり、本実施の形態ではレコード管理識別子（ＩＤ）を付加して、図２６に示すようなデータが配布データ格納部１９０に格納される。一方、検証失敗レコード群は図１３に示すようなレコード群であり、本実施の形態ではレコード管理ＩＤを付加して、図２７に示すようなデータが検証失敗データ格納部１５０に一旦格納される。
【００６７】
図２３の処理の説明に戻って、第１検証処理部１４０は、処理対象のデータにおける全てのレコードが検証成功であったか判断する（ステップＳ６７）。全てのレコードが検証成功であれば、ステップＳ７１に移行する。一方、検証失敗レコードが存在する場合には、第２検証処理部１６０に対して処理を指示して、第２検証処理部１６０は、第４検証処理を実施する（ステップＳ６９）。第４検証処理については、図２８乃至図３０を用いて説明する。
【００６８】
第４検証処理において、まず、第２検証処理部１６０は、定義データ格納部２１０に格納されている定義データを設定する（図２８：ステップＳ１１１）。具体的には、検証の対象となる項目を特定する。図２４の例であれば、「性別」「年齢」「身長」「体重」が検証の対象となる。その後、第２検証処理部１６０は、検証失敗データ格納部１５０に格納されている検証失敗データに含まれる未処理のレコードを１つ特定する（ステップＳ１１３）。そして、第２検証処理部１６０は、検証成功データ格納部１７０に格納されているデータにおいて、特定されたレコードと一致するレコードを探索する（ステップＳ１１５）。なお、上での例では検証成功データ格納部１７０には何も格納されていないものとする。そうすると、図２７に示すようなレコード群については重複レコード数は０となる。
【００６９】
そして、第２検証処理部１６０は、特定されたレコードについて、重複レコード数がＮ以上であるか判断する（ステップＳ１１７）。検証成功データ格納部１７０に格納されているデータについて探索して重複レコード数がＮ以上であれば、特定の個人を特定できないので検証成功と判断しても良い。これによって検証成功と判断されるレコードの数が増加してターゲットシステムに配布されるレコード数が増加するため、統計処理への影響を抑えつつ、匿名性を確保できるようになる。
【００７０】
従って、第２検証処理部１６０は、特定されたレコードを検証成功に分類する（ステップＳ１２１）。例えば、メインメモリなどの記憶装置における検証成功リストに登録する。そしてステップＳ１２３に移行する。
【００７１】
一方、重複レコード数がＮ未満であれば、第２検証処理部１６０は、特定されたレコードを検証失敗に分類する（ステップＳ１１９）。例えば、メインメモリなどの記憶装置における検証失敗リストに登録する。その後、第２検証処理部１６０は、検証失敗データにおいて未処理のレコードが存在しているか判断する（ステップＳ１２３）。未処理のレコードが存在している場合にはステップＳ１１３に戻る。一方、未処理のレコードが存在していない場合には、端子Ａを介して図２９の処理に移行する。
【００７２】
図２９の処理の説明に移行して、第２検証処理部１６０は、検証失敗リストにおける検証失敗レコードを、検証失敗データ格納部１５０に格納されているデータに格納する（ステップＳ１２５）。重複レコード数が０であるとすると、図２７に示したようなデータが、そのまま検証失敗データ格納部１５０に格納される。
【００７３】
さらに、第２検証処理部１６０は、先行する検証失敗データに含まれない検証失敗レコード（例えばレコード管理ＩＤ等によって１回前の検証失敗データを識別するか又は検証失敗データ格納部１５０に１回前の検証失敗データを格納しておき識別する）に対して定義データに従って秘匿化処理を実施し、秘匿化処理後のデータを配布処理部１８０に出力し、配布処理部１８０は、受信した秘匿化処理後のデータを配布データ格納部１９０に格納する（ステップＳ１２７）。図２７に示したようなデータが、先行する検証失敗データに含まれない検証失敗レコードであれば、定義データにおいて秘匿が指示されている項目「年齢」「身長」「体重」の値をｎｕｌｌに設定して図３０に示すようなデータを生成する。
【００７４】
また、第２検証処理部１６０は、検証成功レコードを配布処理部１８０に出力し、配布処理部１８０は、受信した検証成功レコードを配布データ格納部１９０に格納する（ステップＳ１２９）。その後、呼び出し元の処理に戻る。
【００７５】
図２３の処理の説明に戻って、配布処理部１８０は、データ配布処理を実施する（ステップＳ７１）。データ配布処理については、図３１及び図３２を用いて説明する。
【００７６】
まず、配布処理部１８０は、第１検証処理部１４０及び第２検証処理部１６０から受信し配布データ格納部１９０に格納されている検証成功レコード及び復元データによって、検証成功データ格納部１７０を更新する（図３１：ステップＳ１３１）。本実施の形態では、検証成功データ格納部１７０については、例えば図１５のようなデータを格納する。すなわち、同一のレコードについては１レコードのみを残し、重複レコード数を登録する。既に検証成功データ格納部１７０に同一のレコードが含まれている場合には、重複レコード数を増分する。なお、このようなレコードの集約を行ってしまうので、レコード管理ＩＤは認証成功データ格納部１７０には格納されない。
【００７７】
さらに、配布処理部１８０は、検証成功レコード、復元データ及び秘匿化された検証失敗レコードを結合して配布データを生成する（ステップＳ１３３）。そして、配布処理部１８０は、生成された配布データを、ターゲットシステムＣ及びＤに配布する（ステップＳ１３５）。例えば、図３２に示すようなデータを、ターゲットシステムＣ及びＤに配布する。上でも述べたように、番号３、番号４、番号８及び番号１０のレコードについては秘匿化されているので、「年齢」「身長」「体重」の項目値がｎｕｌｌに設定されている。そして呼び出し元の処理に戻る。
【００７８】
このような処理を実施すれば、匿名化が確保されていると検証されたレコードについてはデータ変換後のデータをそのままターゲットシステムに配布し、匿名性が確保されていないレコードについては秘匿化したデータをターゲットシステムに配布する。これにより、ターゲットシステムにおいて適切な処理を行うことができる。
【００７９】
なお、次のタイミングで収集されたデータに対してデータ変換処理を実施すると、図１７のようなデータが得られた場合について説明する。
【００８０】
このような場合、第３検証処理においては、図１３に示した前回の検証失敗レコードと今回のレコードとを結合して、それらのレコードについて同一のレコードを探索する。そうすると図１８に示すように、番号３と番号１２のレコードが一致し、番号１０と番号１５のレコードが一致し、番号４と番号１３のレコードが一致し、番号８と番号１４のレコードが一致している。
【００８１】
従って、図３３に示すように、番号３、番号４、番号８及び番号１０のレコードについては、復元データとして特定される。また、図３４に示すように、番号１２乃至１５のレコードについては、検証成功レコードとして特定される。さらに、図３５に示すように、番号１１のレコードについては、検証失敗レコードとして特定され、検証失敗データ格納部１５０に一旦格納される。検証成功レコード及び検証失敗レコードについては、第１検証処理部１４０においてレコード管理ＩＤを付与するようにしても良いし、配布処理部１８０において付与するようにしてもよい。
【００８２】
その後、第４検証処理において、図３５に示した検証失敗レコードについては、図１５に示し且つ検証成功データ格納部１７０に格納されているデータとの照合を行う。そうすると、図１５における最初のレコードと一致していることが分かるので、図３５に示した検証失敗レコードについても配布データ格納部１９０に格納される。さらに、図１５に示した検証成功データ格納部１７０に格納されているデータは、図２１に示すように更新される。すなわち、新たに検証成功とされたレコードについては追加され、同一のレコードが検出されれば重複レコード数が増分される。このような処理を繰り返すことになる。
【００８３】
また、配布処理部１８０は、復元データ、検証成功レコード及び秘匿化された検証失敗レコードを結合して配布データを生成するが、上で述べた例では検証失敗レコードが存在しないので、復元データ及び検証成功レコードによって、図３６に示すような配布データが生成される。本実施の形態ではレコード管理ＩＤも配布データに含まれる。ターゲットシステム側では、既に受信したレコードのレコード管理ＩＤと同一のレコード管理ＩＤを含むレコードを受信すると、今回受信した配布データに含まれるレコードで更新を行う。すなわち、元々のレコードのデータを復元することになる。図３６の例では、上の４行については既に配布されているレコードを更新するために送信される。一方、新たに検証成功レコードとして特定されたレコードについては、ターゲットシステム側では、同一レコードは存在していないので、ターゲットシステム側のデータベースに追加されることになる。そして、ターゲットシステムＣ及びＤでは、図３２に示すようなデータは、図３７に示すようなデータに更新される。
【００８４】
以上本技術の実施の形態を説明したが、本技術はこれに限定されるものではない。上で述べた機能ブロック図は一例であって、必ずしも実際のプログラムモジュールと一致するわけではない。また、データ構造やデータ保持の態様についても一例であって、上で述べた例は一例に過ぎない。さらに、上では１種類のデータについて処理を行う例を示したが、複数種類のデータを取り扱う場合もある。その場合には、検証成功レコード、検証失敗レコード及び復元データについて識別子を付して区別する。
【００８５】
また、処理フローについては、処理結果が変わらない限りにおいてステップの実行順番を入れ替えたり、並列実行する場合もある。
【００８６】
なお、上で述べた情報処理装置１０００、ソースシステムＡ及びＢ、並びにターゲットシステムＣ及びＤは、１又は複数のコンピュータ装置であって、図３８に示すように、メモリ２５０１とＣＰＵ（Central Processing Unit）２５０３とハードディスク・ドライブ（ＨＤＤ：Hard Disk Drive）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施例における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。ＣＰＵ２５０３は、アプリケーション・プログラムの処理内容に応じて表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ２５０１に格納されるが、ＨＤＤ２５０５に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
【００８７】
以上述べた本実施の形態をまとめると、以下のようになる。
【００８８】
本実施の形態に係る情報処理方法は、（Ａ）第１のシステムから取得した複数のレコードから、予め定められた同一性の条件を満たすレコードの数が所定数以上となっているレコードである第１のレコードを抽出する第１の処理と、（Ｂ）複数のレコードのうち第１のレコード以外のレコードである第２のレコードから、予め定められた同一性の条件を満たすレコードの数が所定数以上となっているレコードとして既に抽出され且つデータ格納部に格納されているレコード群と第２のレコードとの組み合わせで上記予め定められた同一性の条件を満たすレコードの数が所定数以上となっているレコードである第３のレコードを抽出する第２の処理と、（Ｃ）第１のレコードと第３のレコードとを、第２のシステムに出力する第３の処理とを含む。
【００８９】
このような処理を実施することで、より多くのレコードを第２のシステムに出力することができるようになる。すなわち、匿名性が確保されたより多くのレコードを第２のシステムで活用できるようになる。データ格納部には、予め定められた同一性を有するレコードを集約したデータを保持しておいても良いし、全てのレコードを蓄積するようにしても良い。
【００９０】
また、上で述べた複数のレコードが、新たに第１のシステムから取得したレコードと、前回第１のシステムから取得されたが第１の処理及び第２の処理にて抽出されなったレコードとを含むようにしてもよい。このようにすることで、一度検証に失敗した場合でも、後に得たレコード群との関係で匿名性が確保できる可能性もある。
【００９１】
さらに、上記情報処理方法は、（Ｄ）複数のレコードのうち第１のレコード及び第３のレコード以外のレコードである第４のレコードの少なくとも一部の属性値を秘匿化して第５のレコードを生成する第４の処理と、（Ｅ）第５のレコードを第２のシステムに出力する第５の処理と、（Ｆ）第１のシステムから新たに取得したレコードと第４のレコードとから、上記予め定められた同一性の条件を満たすレコードの数が所定数以上となっているレコードを抽出する第６の処理と、（Ｇ）第６の処理で抽出されたレコードが第４のレコードである場合には、第５のレコードを第４のレコードに復元するためのデータを第２のシステムに出力する第７の処理とをさらに含むようにしてもよい。このようにすることで、匿名性が確保できないレコードについては秘匿化を行った上で第２のシステムに出力することができるようになる。さらに、後に収集されたレコードによって匿名性が確保できれば、秘匿化を行ったレコードについて元のデータを復元するように指示することもできるようになる。
【００９２】
さらに、本実施の形態に係る情報処理装置（図３９：４０００）は、（Ａ）第１のシステムから取得した複数のレコードから、予め定められた同一性の条件を満たすレコードの数が所定数以上となっているレコードである第１のレコードを抽出する第１処理部（図３９：４１００）と、（Ｂ）複数のレコードのうち第１のレコード以外のレコードである第２のレコードから、上記予め定められた同一性の条件を満たすレコードの数が所定数以上となっているレコードとして既に抽出され且つデータ格納部（図３９：４３００）に格納されているレコード群と第２のレコードとの組み合わせで上記予め定められた同一性の条件を満たすレコードの数が所定数以上となっているレコードである第３のレコードを抽出する第２処理部（図３９：４２００）と、（Ｃ）第１のレコードと第３のレコードとを、第２のシステムに出力する第３処理部（図３９：４４００）とを有する。
【００９３】
なお、上で述べたような処理をコンピュータに実施させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、ＣＤ−ＲＯＭなどの光ディスク、光磁気ディスク、半導体メモリ（例えばＲＯＭ）、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。なお、処理途中のデータについては、ＲＡＭ等の記憶装置に一時保管される。
【００９４】
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
【００９５】
（付記１）
第１のデータ群に含まれるＮ（Ｎは自然数）個以上のデータとの間で所定の関係を持つ、複数のデータを格納部に格納し、
前記第１のデータ群と異なる第２のデータ群に含まれるあるデータが、前記第２のデータ群に含まれるＮ個以上のデータとの間で前記所定の関係を持たない場合に、前記あるデータが、前記格納部に格納された前記複数のデータに含まれるＮ個以上のデータと前記所定の関係を持つか否かの判定を行い、
前記判定により、前記所定の関係を持つと判定した場合に、前記あるデータを前記格納部に格納する
ことをコンピュータに実行させるための判定プログラム。
【００９６】
（付記２）
前記所定の関係は、一方のデータの所定部分と他方のデータの所定部分とが共通する関係を含むことを特徴とする付記１記載の判定プログラム。
【００９７】
（付記３）
前記第２のデータ群が、前記第１のデータ群のうち前記複数のデータ以外のデータを含む
付記１又は２記載の判定プログラム。
【００９８】
（付記４）
前記第１のデータ群のうち前記複数のデータ以外のデータの各々の少なくとも一部を秘匿化し、少なくとも一部が秘匿化されたデータを第２の格納部に格納し、
前記第１のデータ群のうち前記複数のデータ以外のデータが、前記第１のデータ群と異なる第３のデータ群に含まれるＮ個以上のデータとの間で前記所定の関係を持つ場合には、前記第２の格納部において前記少なくとも一部が秘匿化されたデータの秘匿化された部分を元のデータに復元させる
付記１乃至３のいずれか１つ記載の判定プログラム。
【００９９】
（付記５）
第１のデータ群に含まれるＮ（Ｎは自然数）個以上のデータとの間で所定の関係を持つ、複数のデータを格納部に格納し、
前記第１のデータ群と異なる第２のデータ群に含まれるあるデータが、前記第２のデータ群に含まれるＮ個以上のデータとの間で前記所定の関係を持たない場合に、前記あるデータが、前記格納部に格納された前記複数のデータに含まれるＮ個以上のデータと前記所定の関係を持つか否かの判定を行い、
前記判定により、前記所定の関係を持つと判定した場合に、前記あるデータを前記格納部に格納する
ことをコンピュータが実行する情報処理方法。
【０１００】
（付記６）
格納部と、
第１のデータ群に含まれるＮ（Ｎは自然数）個以上のデータとの間で所定の関係を持つ、複数のデータを前記格納部に格納し、前記第１のデータ群と異なる第２のデータ群に含まれるあるデータが、前記第２のデータ群に含まれるＮ個以上のデータとの間で前記所定の関係を持たない場合に、前記あるデータが、前記格納部に格納された前記複数のデータに含まれるＮ個以上のデータと前記所定の関係を持つか否かの判定を行い、前記判定により、前記所定の関係を持つと判定した場合に、前記あるデータを前記格納部に格納する処理部と、
を有する情報処理装置。
【符号の説明】
【０１０１】
１０００情報処理装置
１００データ収集部
１１０収集データ格納部
１２０データ変換部
１３０変換データ格納部
１４０第１検証処理部
１５０検証失敗データ格納部
１６０第２検証処理部
１７０検証成功データ格納部
１８０配布処理部
１９０配布データ格納部
２００定義管理部
２１０定義データ格納部

【特許請求の範囲】
【請求項１】
第１のデータ群に含まれるＮ（Ｎは自然数）個以上のデータとの間で所定の関係を持つ、複数のデータを格納部に格納し、
前記第１のデータ群と異なる第２のデータ群に含まれるあるデータが、前記第２のデータ群に含まれるＮ個以上のデータとの間で前記所定の関係を持たない場合に、前記あるデータが、前記格納部に格納された前記複数のデータに含まれるＮ個以上のデータと前記所定の関係を持つか否かの判定を行い、
前記判定により、前記所定の関係を持つと判定した場合に、前記あるデータを前記格納部に格納する
ことをコンピュータに実行させるための判定プログラム。
【請求項２】
前記所定の関係は、一方のデータの所定部分と他方のデータの所定部分とが共通する関係を含むことを特徴とする請求項１記載の判定プログラム。
【請求項３】
前記第２のデータ群が、前記第１のデータ群のうち前記複数のデータ以外のデータを含む
請求項１又は２記載の判定プログラム。
【請求項４】
前記第１のデータ群のうち前記複数のデータ以外のデータの各々の少なくとも一部を秘匿化し、少なくとも一部が秘匿化されたデータを第２の格納部に格納し、
前記第１のデータ群のうち前記複数のデータ以外のデータが、前記第１のデータ群と異なる第３のデータ群に含まれるＮ個以上のデータとの間で前記所定の関係を持つ場合には、前記第２の格納部において前記少なくとも一部が秘匿化されたデータの秘匿化された部分を元のデータに復元させる
請求項１乃至３のいずれか１つ記載の判定プログラム。
【請求項５】
第１のデータ群に含まれるＮ（Ｎは自然数）個以上のデータとの間で所定の関係を持つ、複数のデータを格納部に格納し、
前記第１のデータ群と異なる第２のデータ群に含まれるあるデータが、前記第２のデータ群に含まれるＮ個以上のデータとの間で前記所定の関係を持たない場合に、前記あるデータが、前記格納部に格納された前記複数のデータに含まれるＮ個以上のデータと前記所定の関係を持つか否かの判定を行い、
前記判定により、前記所定の関係を持つと判定した場合に、前記あるデータを前記格納部に格納する
ことをコンピュータが実行する情報処理方法。
【請求項６】
格納部と、
第１のデータ群に含まれるＮ（Ｎは自然数）個以上のデータとの間で所定の関係を持つ、複数のデータを前記格納部に格納し、前記第１のデータ群と異なる第２のデータ群に含まれるあるデータが、前記第２のデータ群に含まれるＮ個以上のデータとの間で前記所定の関係を持たない場合に、前記あるデータが、前記格納部に格納された前記複数のデータに含まれるＮ個以上のデータと前記所定の関係を持つか否かの判定を行い、前記判定により、前記所定の関係を持つと判定した場合に、前記あるデータを前記格納部に格納する処理部と、
を有する情報処理装置。

【図１】