説明

変換処理方法、装置及びプログラム、復元処理方法、装置及びプログラム

【課題】データの分布からデータ漏洩が生ずることを防止する。
【解決手段】変換処理方法は、(A)第1データ格納部に格納されており且つ各々複数の属性項目について属性値を有する複数のレコードについて、複数の属性項目のうち特定の属性項目について出現する属性値の出現頻度についての第1の分布を検出するステップと、(B)第1の分布を当該第1の分布とは異なる第2の分布となるように、上記属性値のうち少なくとも一部の属性値の各々を、予め定められた第1のルールに従って特定される複数の第2の属性値のいずれかに変換するステップとを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本技術は、データ秘匿化技術に関する。
【背景技術】
【0002】
例えば、図1A乃至図1Cに示すように、大学の工学部、薬学部及び商学部の各学生について、複数の属性項目(例えば、性別、学年の高低、体力点数及び疾患の有無(1=あり、0=なし))の各々の属性値が保持されている場合を検討する。さらに、このようなデータ全体(ここでは大学全体)について、特定の属性項目の属性値毎に、当該属性値が出現するレコード群を特定して、当該レコード群における、他の属性項目の属性値の出現回数を算出するクロス集計を行う場合を考える。
【0003】
例えば、図1A乃至図1Cに示すようなデータをそのままクロス集計を実施する集計者に渡してしまうと個人が特定されてしまうので、プライバシ情報の漏洩を防止するため、簡単な方法として一部の属性項目について暗号化またはハッシュ関数による秘匿化を行う場合がある。例えば、性別という属性項目について暗号化を行う場合、例えばM(男性)をabcに暗号化し、F(女性)をdefに暗号化した場合には、図2A乃至図2Cのようなデータが得られる。このようなデータであれば、このデータのみからは個人が特定できるわけではない。なお、性別と疾患についてクロス集計を実施すれば、図3に示すような集計結果が得られる。
【0004】
しかしながら、例えば工学部は女性が少ないという背景知識があったり、薬学部は男性が少ないという背景知識があったりすれば、abc=M(男性)、def=F(女性)であることが集計者側には分かってしまう。さらに、個人も特定できてしまい、その個人について疾患の有無というセンシティブな情報も特定されてしまう可能性もある。これは、値そのものが秘匿されても、秘匿前の値と秘匿後の値とが一対一対応であれば、値の分布も秘匿化前後で全く変化しないために生ずる問題である。
【0005】
なお、文字や数字をそれとの恣意的な対応が規定された数字や記号列に変換する手法では、同じ数字や記号列の暗号文中における出現の規則性により、容易に解読されてしまうという危険性について考慮した従来技術が存在している。この従来技術では、秘匿後の文字列として既にあらわれた文字列と同じ場合に、変換規則を一部改変することで、変換規則の判別を困難にするものである。しかしながら、秘匿化後のデータの分布や秘匿化した後のクロス集計などの集計処理については考慮されていない。
【0006】
また、変換処理対象として指定された電子文書中の文字列を、他の文字列に変換する技術も存在している。具体的には、予め変換文字と、各変換文字を一意に識別する識別子とを定義した文字リストを保持しておき、変換指示の入力を受け付け、変換対象としての文字列に含まれる各文字を文字リストから検索して、当該文字リストから変換対象文字に付与された識別子に基づき、予め定義された変換規則に従って文字リスト中の他の文字に変換する。一方、復元指示の入力を受け付け、変換後の文字を、変換規則に対応した復元規則により、文字リストに含まれる変換対象文字に復元する。しかしながら、秘匿化後のデータの分布やクロス集計などの集計処理については考慮されていない。
【0007】
さらに、ファイル中の機密情報部分は保護しつつ、それ以外の部分は容易に一般に開示できるようにすると共に、管理者が元のファイルを復元できるようにする技術も存在している。この技術では、置換対象文字に対する置換後文字を、ファイル内に存在しない文字の中から選択し、当該選択した置換後文字と置換対象文字との対応関係を示す置換マップを作成し、置換マップに基づいてファイル内に存在する変換対象文字列中の置換対象文字を置換後文字に置き換える。また、置換マップに基づいてファイル内に存在する置換後文字を置換対象文字に戻す。しかしながら、秘匿化後のデータの分布やクロス集計などの集計処理については考慮されていない。
【0008】
また、暗号強度を強化又は保持する目的で、順序関係を保持したまま、確率暗号で1つの値を複数に散らすという技術も存在している。しかしながら、秘匿化後のデータの分布やクロス集計などの集計処理について考慮したものではない。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2002−374243号公報
【特許文献2】特開2007−102540号公報
【特許文献3】特開2007−156861号公報
【非特許文献】
【0010】
【非特許文献1】"Order-Preserving Symmetric Encryption" EUROCRYPT '09 Proceedings of the 28th Annual International Conference on Advances in Cryptology: the Theory and Applications of Cryptographic Techniques Springer-Verlag Berlin, Heidelberg, 2009 ISBN: 978-3-642-01000-2
【発明の概要】
【発明が解決しようとする課題】
【0011】
従って、本技術の目的は、一側面によれば、データの分布からデータ漏洩が生ずることを防止するための技術を提供することである。
【課題を解決するための手段】
【0012】
本技術の第1の態様に係る変換処理方法は、(A)第1データ格納部に格納されており且つ各々複数の属性項目について属性値を有する複数のレコードについて、複数の属性項目のうち特定の属性項目について出現する属性値の出現頻度についての第1の分布を検出するステップと、(B)第1の分布を当該第1の分布とは異なる第2の分布となるように、上記属性値のうち少なくとも一部の属性値の各々を、予め定められた第1のルールに従って特定される複数の第2の属性値のいずれかに変換するステップとを含む。
【0013】
本技術の第2の態様に係る復元処理方法は、(A)集計対象の複数のレコードにおける第1の属性項目について出現する第1属性値から、予め定められたルールに従って複数の第2属性値を生成するステップと、(B)第1の属性項目について出現した第3属性値の各々について第2の属性項目の属性値の計数値又は属性値の合計値を含む集計結果を格納する第1データ格納部において、複数の第2属性値の各々について、当該第2の属性値と一致する第3属性値が存在するか判断し、存在すれば当該第3属性値に対応付けられている第2の属性項目の属性値毎の計数値又は属性値の合計値を第1データ格納部から読み出し、当該第2の属性項目の属性値毎に累計し又は当該第2の属性項目の属性値を累計し、累計結果を前記第2の属性値に対応付けて第2データ格納部に格納するステップとを含む。
【発明の効果】
【0014】
データの分布からデータ漏洩が生ずることを防止できるようになる。
【図面の簡単な説明】
【0015】
【図1A】図1Aは、従来技術の問題を説明するための図である。
【図1B】図1Bは、従来技術の問題を説明するための図である。
【図1C】図1Cは、従来技術の問題を説明するための図である。
【図2A】図2Aは、従来技術の問題を説明するための図である。
【図2B】図2Bは、従来技術の問題を説明するための図である。
【図2C】図2Cは、従来技術の問題を説明するための図である。
【図3】図3は、クロス集計の一例を示す図である。
【図4】図4は、本実施の形態におけるシステム概要を示す図である。
【図5】図5は、情報処理装置の機能ブロック図である。
【図6】図6は、本実施の形態における処理の処理フローを示す図である。
【図7】図7は、提供データの一例を示す図である。
【図8】図8は、提供データから得られる分布の一例を示す図である。
【図9】図9は、分布変換データ生成処理の処理フローを示す図である。
【図10A】図10Aは、分布変換データの生成過程を示す図である。
【図10B】図10Bは、分布変換データの生成過程を示す図である。
【図10C】図10Cは、分布の変換を説明するための図である。
【図11】図11は、変換処理の処理フローを示す図である。
【図12】図12は、変換処理後のデータの一例を示す図である。
【図13A】図13Aは、暗号化の演算を模式的に示す図である。
【図13B】図13Bは、暗号化された変換後属性値の一例を示す図である。
【図14A】図14Aは、図1Aのデータの変換例を示す図である。
【図14B】図14Bは、図1Bのデータの変換例を示す図である。
【図14C】図14Cは、図1Cのデータの変換例を示す図である。
【図15A】図15Aは、図1Aのデータの暗号化データの例を示す図である。
【図15B】図15Bは、図1Bのデータの暗号化データの例を示す図である。
【図15C】図15Cは、図1Cのデータの暗号化データの例を示す図である。
【図16A】図16Aは、図15A乃至図15Cのクロス集計の一例を示す図である。
【図16B】図16Bは、図15A乃至図15Cのクロス集計の一例を示す図である。
【図16C】図16Cは、図15A乃至図15Cのクロス集計の一例を示す図である。
【図16D】図16Dは、図15A乃至図15Cのクロス集計の一例を示す図である。
【図17】図17は、分布データの他の例を示す図である。
【図18】図18は、分布変換データの他の例を示す図である。
【図19】図19は、分布の変換を説明するための図である。
【図20】図20は、本実施の形態における処理の処理フローを示す図である。
【図21A】図21Aは、属性値生成処理部の処理内容を示す図である。
【図21B】図21Bは、属性値生成処理部の処理内容を示す図である。
【図22】図22は、本実施の形態における処理の処理フローを示す図である。
【図23】図23は、復元集計結果の一例を示す図である。
【図24】図24は、復元集計処理結果の他の例を示す図である。
【図25】図25は、分布変換データの他の例を示す図である。
【図26】図26は、コンピュータの機能ブロック図である。
【発明を実施するための形態】
【0016】
図4に、本実施の形態に係るシステム構成例を示す。インターネットなどのネットワーク1には、クロス集計などの集計処理を実施する集計サーバ300と、集計サーバ300に対してデータ提供を行ったり集計結果を利用する処理を実施する複数の情報処理装置(図4では情報処理装置A乃至C)とが接続されている。集計サーバ300は、情報処理装置から集計対象のデータを受信するデータ受信部310と、データ受信部310により受信された集計対象のデータを格納するデータ格納部320と、情報処理装置からの集計要求に応じてクロス集計などの集計処理を実施して要求元の情報処理装置に集計結果を返信する集計処理部330とを有する。集計サーバ300の処理内容は従来と変わらないので、これ以上述べない。
【0017】
図5に、情報処理装置の機能ブロック図を示す。情報処理装置は、提供データ格納部101と、分布検出部102と、分布データ格納部103と、分布変換データ生成部104と、ルール格納部105と、分布変換データ格納部106と、変換処理部107と、変換済データ格納部108と、暗号化処理部109と、キー格納部110と、暗号化データ格納部111と、送信部112と、集計要求処理部121と、集計結果格納部122と、復元処理部123と、属性値生成部124と、復元集計結果格納部126とを有する。なお、情報処理装置は、各属性項目について出現する属性値のデータを格納する属性値格納部125を有する場合もある。
【0018】
なお、情報処理装置には、他のネットワークを介して当該情報処理装置を管理する管理者等が操作する端末装置が接続されており、当該端末装置からの指示に従って情報処理装置は処理を行う。例えば、端末装置から送られてきた提供データを受信すると、提供データ格納部101に格納する。
【0019】
提供データ格納部101は、集計サーバ300に送信すべきデータである提供データを格納する。分布検出部102は、提供データ格納部101に格納されている複数のレコードに対して、例えば管理者により指定された特定の属性項目について各属性値について出現頻度を計数する処理、属性値を合計する処理などを実施して、処理結果を分布データ格納部103に格納する。
【0020】
分布変換データ生成部104は、ルール格納部105に格納されているルールデータに従って、分布データ格納部103に格納されている分布データを処理することで、提供データに含まれる複数のレコードにおける特定の属性項目の属性値を変換するためのデータを生成し、分布変換データ格納部106に格納する。変換処理部107は、分布変換データ格納部106に格納されているデータに従って、提供データ格納部101に格納されている複数のレコードにおける特定の属性項目についての属性値を変換して、変換後のデータを変換済データ格納部108に格納する。
【0021】
暗号化処理部109は、キー格納部110に格納されているキーと所定のハッシュ関数に従って、変換済データ格納部108に格納されている複数のレコードにおける特定の属性項目についての属性値を暗号化する処理を実施し、処理結果を暗号化データ格納部111に格納する。送信部112は、暗号化データ格納部111に格納されているデータを、集計サーバ300に送信する。
【0022】
集計要求処理部121は、情報処理装置のユーザからの指示に応じて集計要求を集計サーバ300に送信し、集計サーバ300から集計結果を受信し、集計結果格納部122に格納する。復元処理部123は、属性値生成部124と連携して集計結果格納部122に格納されている集計結果のうち暗号化されており且つ属性値の変換が行われている属性項目の属性値を復元する処理を実施し、処理結果を復元集計結果格納部126に格納する。属性値生成部124は、分布データ格納部103(又は属性値格納部125)に格納されている特定の属性項目の属性値をルール格納部105に格納されているルールデータに従って変換すると共に、キー格納部110に格納されているキーと所定のハッシュ関数で暗号化することによって暗号化した変換済属性値を生成して、復元処理部123に出力する。
【0023】
図5の例では、情報処理装置は、提供データを集計サーバ300に送信するための処理を行う部分と、集計サーバ300から集計結果を受信して復元するための処理を行う部分とを含む。しかし、それらが別の装置に設けられるようにしても良い。キー格納部110に格納されているキーとハッシュ関数とについては、集計結果を共用する者又は会社で共有される。また、属性値格納部125については、集計結果を共用する者又は会社で、特定の属性項目について出現する可能性のある属性値のバリエーションを共通して格納するものである。これに用いることで自らの提供データには含まれない属性値が集計結果に出現しても対処することができるようになる。同様に、ルール格納部105についても、集計結果を共用する者又は会社で、共通のルールデータが格納されている。
【0024】
次に、図6乃至図25を用いて、情報処理装置の処理内容について説明する。なお、既に提供データについては提供データ格納部101に格納されているものとする。まず、分布検出部102は、提供データ格納部101に格納されている提供データである複数のレコードにおいて、処理の対象である特定の属性項目の属性値毎に出現頻度を計数し、出現頻度の平均値(場合によっては最小値など)を算出し、分布データ格納部103に格納する(図6:ステップS1)。
【0025】
例えば図7のような提供データが提供データ格納部101に格納されている場合には、特定の属性項目が「性別」であれば図8に示すようなデータが得られる。図8の例では、属性値「M」の出現頻度と、属性値「F」の出現頻度と、それらの平均値が含まれる。平均値は、出現頻度の偏りを判断するための基準値として用いられる。なお、最小値を、基準値として用いる場合もある。
【0026】
次に、分布変換データ生成部104は、分布変換データ生成処理を実施する(ステップS3)。分布変換データ生成処理については、図9乃至図10Cを用いて説明する。
【0027】
分布変換データ生成部104は、分布データ格納部103に格納されている分布データにおいて未処理の属性値を1つ特定する(図9:ステップS11)。そして、分布変換データ生成部104は、特定された属性値の出現頻度が基準値未満であるか判断する(ステップS13)。例えば平均値を基準値として用いる場合について説明すると、図8の場合、属性値「M」の場合には、平均値以上の出現頻度が得られており、属性値「F」の場合には、平均値未満の出現頻度が得られている。
【0028】
特定された属性値の出現頻度が基準値未満であれば(ステップS13:Yesルート)、分布変換データ生成部104は、ルール格納部105に格納されているルールデータに従って変換後属性値を1つ生成し、当該変換後属性値及び変換確率「100%」を含むレコードを生成して、分布変換データ格納部106に格納する(ステップS15)。そしてステップS23に移行する。
【0029】
ルール格納部105に格納されているルールデータは、例えば変換前の属性値にシリアルに番号を付加することで変換後属性値を生成するというルールを表すデータであるとすると、属性値「F」の場合、変換後属性値は「F1」となる。なお、ルールデータが、例えば変換前の属性値に、所定範囲内の整数値をランダムに選択するようなルールを表すデータである場合もある。このようなルールは一例であって、規則的に変換できればどのようなルールであってもよい。
【0030】
図8の例では、図10Aに示すように変換前の属性値「F」に対応付けて変換後の属性値「F1」及び確率「100」が格納される。
【0031】
一方、特定された属性値の出現頻度が基準値以上であれば(ステップS13:Noルート)、分布変換データ生成部104は、展開数(分割数とも言う)を算出する(ステップS17)。例えば、特定された属性値の出現頻度を、基準値を下回るまで「2」で割り算を行い、展開数=2N(Nは割り算の回数)というように算出するようにしても良い。また、特定された属性値の出現頻度を、基準値を下回るまで基準値で引き算してゆき、引き算の回数を展開数とするようにしてもよい。さらに、特定された属性値の出現頻度を基準値で割り算した場合の解(余りがある場合には、+1)を、展開数とするようにしてもよい。
【0032】
図8の例で、変換前属性値「M」については、出現頻度「10」及び平均値「6.5」が得られているので、「2」で割り算する方法でも、基準値で引き算を行う方法でも、基準値で割り算する方法でも、展開数は「2」と算出される。
【0033】
そして、分布変換データ生成部104は、ルール格納部105に格納されているルールデータに従って算出された展開数に応じた個数の変換後属性値を生成し、当該変換後属性値を含むレコードを展開数だけ生成し、分布変換データ格納部106に格納する(ステップS19)。図8の例では、展開数が「2」であるので、変換後属性値「M1」「M2」が生成され、それらについてレコードが生成され、分布変換データ格納部106に格納する。さらに、分布変換データ生成部104は、生成したレコードに、変換確率を設定する(ステップS21)。変換確率は、「100」を展開数で除することで均一な値を設定するようにしても良い。図10Bに示すように、展開数が「2」であれば「50」が設定される。なお、変換確率は全て加算すると100になればよく、51と49といったように揺らぎを持たせるようにしても良い。不自然に均一な分布にならないようにするためである。
【0034】
このように変換確率は「50」%であれば、属性値「M1」は出現頻度が「5」となり、属性値「M2」は出現頻度が「5」となり、属性値「F」は出現頻度が「3」である。そうすると、図10Cに示すように、属性値「M」に偏った分布が、是正されていることが分かる。すなわち、図10Cの左側に示すように、変換前で属性値「M」の出現頻度が突出しているが、図10Cの右側に示すように、変換後では、全ての属性値の出現頻度が、平均値を下回っており、出現頻度の差が少なくなっている。
【0035】
その後、分布変換データ生成部104は、未処理の属性値が存在しているか判断する(ステップS23)。未処理の属性値が存在している場合にはステップS11に戻る。一方、未処理の属性値が存在していない場合には呼び出し元の処理に戻る。
【0036】
このような処理を実施すれば、図10Bに示すような分布変換データが生成される。この分布変換データによって、特定の属性項目について属性値の出現頻度の分布を、秘匿化という目的において適切に変換することができるようになる。
【0037】
図6の処理の説明に戻って、変換処理部107及び暗号化処理部109は、変換処理を実施する(ステップS5)。変換処理については、図11乃至図13Bを用いて説明する。
【0038】
まず、変換処理部107は、提供データ格納部101に格納されている提供データに含まれる複数のレコードのうち未処理のレコードを1つ特定する(図11:ステップS31)。そして、変換処理部107は、特定されたレコードにおける処理の対象である特定の属性項目の属性値から、分布変換データの該当部分を特定する(ステップS33)。図7に示すようなデータの最初のレコードにおける属性項目「性別」の属性値「M」の場合には、図10Bの分布変換データであれば、変換前の属性値「M」の行を特定する。
【0039】
そして、変換処理部107は、分布変換データの該当部分に規定されている確率に応じて、特定されたレコードにおける特定の属性項目の属性値を、変換後属性値に変換し、処理後のレコードを変換済データ格納部108に格納する(ステップS35)。変換後属性値が複数でそれらの確率が均一の場合には、ラウンドロビンで順番に変換後属性値を採用するようにしても良い。また、乱数を発生させて、確率値に応じて変換後属性値をその都度選択するようにしても良い。
【0040】
例えば図7のような提供データの場合、図10Bの分布変換データに従えば、ステップS35を実施すると、例えば図12に示すようなデータが得られる。性別の属性値「M」に対しては「M1」と「M2」が均一に発生するように変換が行われる。また、性別の属性値「F」は「F1」に変換される。
【0041】
その後、暗号化処理部109は、キー格納部110に格納されているキーkと所定のハッシュ関数Hとで、変換済データ格納部108に格納されているレコードにおける特定の属性項目の変換後属性値を暗号化して、処理後のレコードを暗号化データ格納部111に格納する(ステップS37)。例えば、変換後属性値が「M1」であればH(M1,k)の演算を実施する。図12のようなデータが得られた場合には、図13Aに模式的に示すような演算を実施して、図13Bに示すような暗号化データを生成する。図13Bからも分かるように、「M1」であれば「abc25432」が生成される。なお、「M1」が出現する全てのレコードについて「abc25432」が生成されるので、クロス集計を実施しても、「M1」について疾患有「1」のレコード数及び疾患無「0」のレコード数を計数することができる。但し、「M2」に対応する「awe34565」との関連は、暗号化データにおいては不明であるから、「abc25432」と「awe34565」とが同一視されることはない。
【0042】
そして、変換処理部107は、未処理のレコードが存在するか判断する(ステップS39)。未処理のレコードが存在する場合にはステップS31に戻る。一方、未処理のレコードが存在しない場合には、呼び出し元の処理に戻る。
【0043】
このような処理を実施すれば、特定の属性項目において属性値の出現頻度の分布を、異なった分布に変換し、さらに秘匿化されたデータが生成できたことになる。
【0044】
図6の処理の説明に戻って、送信部112は、暗号化データ格納部111に格納されているデータを集計サーバ300に送信する(ステップS7)。
【0045】
集計サーバ300における処理については、上で述べたように、暗号化されたデータを受信して、データ格納部320に格納し、要求に応じて又は自動的に所定の集計処理(例えばクロス集計)を実施する。
【0046】
例えば、図1Aのようなデータ(一部)の場合、性別「M」を「M1」乃至「M6」に展開し、性別「F」を「F1」に変換するという分布変換データが生成されたとする。そうすると、例えば図14Aに示すようなデータが得られる。さらに、図1Bのようなデータ(一部)の場合、性別「M」を「M1」に変換し、性別「F」を「F1」乃至「F5」に展開するという分布変換データが生成されたとする。そうすると、例えば図14Bに示すようなデータが得られる。さらに、図1Cのようなデータ(一部)の場合、性別「M」を「M1」乃至「M3」に展開し、性別「F」を「F1」乃至「F3」に展開するという分布変換データが生成されたとする。そうすると、例えば図14Cに示すようなデータが得られる。さらに、キーkとハッシュ関数Hとで暗号化を行うと、図14Aのデータは図15Aのようになり、図14Bのデータは図15Bのようになり、図14Cのデータは図15Cのようになる。図15A、図15B及び図15Cのデータが、集計サーバ300に送信され、データ受信部310によりデータ格納部320に格納されるものとする。
【0047】
その後、集計処理部330は、自動的に又は要求に応じて、データ格納部320に格納されているデータに対して例えば性別毎に疾患の発生状況を集計するクロス集計を実施するとする。そうすると、図16A乃至図16Dに示すような集計結果が得られる。図16Aの例では、各学部について、性別毎に疾患の属性値「0」の出現頻度及び属性値「1」の出現頻度を計数した結果を示している。また、図16Bの例では、各学部について、性別毎に疾患の属性値「1」の出現頻度を計数した結果を示している。さらに、図16Cの例では、学部に関係なく全学部について、性別毎に疾患の属性値「0」の出現頻度及び属性値「1」の出現頻度を計数した結果を示している。さらに、図16Dの例では、学部に関係なく全学部について、性別毎に属性値「1」の出現頻度を計数した結果を示している。
【0048】
なお、上でも述べたように展開数を算出する場合の基準値については出現頻度の最小値を採用するようにしてもよい。例えば図8の場合には、最小値「3」を基準値として、属性値「M」については出現頻度「10」から上で述べたような方法で展開数を算出すると、図17に示すように展開数「4」が得られる。一方、属性値「F」については出現頻度「3」から上で述べたようなで展開数を算出すると、展開数「0」が得られる。このような展開数の場合には、属性値「M」については属性値「M1」乃至「M4」に展開し、属性値「F」を属性値「F1」に変換する。すなわち、図18に示すような分布変換データが生成される。なお、出現頻度「10」で変換確率「25」%の場合であっても、変換後属性値は整数回出現するので、例えば「M1」が3回、「M2」が2回、「M3」が3回、「M4」が2回出現する。
【0049】
すなわち、図19に示すように、出現頻度の偏りが少なくなるように、出現頻度の分布が変換されている。すなわち、図19の左側のような分布から、図19の右側のように、出現頻度が基準値である最小値以下になるように、分布の変換が行われている。
【0050】
なお、上で述べた例では、出現頻度がフラットになる方向で分布の変換を行う例を示したが、変換後の分布から変換前の分布が推定できなくなればよいので、例えば、変換前に正規分布でない分布が得られた場合に、正規分布になるように変換を行うようにしても良い。
【0051】
また、上で述べた例では処理対象の属性項目については、予め指定される例を示したが、属性値の出現頻度の分布から処理対象の属性項目を特定するようにしても良い。例えば、分布検出部102が、平均値だけではなく、標準偏差σを算出する。そして、分布変換データ生成部104が、平均値からプラスマイナス3σの範囲を超えるような出現頻度の属性値が存在するか確認し、このような属性値が存在すれば当該属性値の属性項目を処理の対象として選択する。
【0052】
次に、集計結果を集計サーバ300から取得した際の処理について図20乃至図24を用いて説明する。集計要求処理部121は、例えば集計サーバ300に、例えばユーザからの要求に従って特定の集計処理を要求する集計要求を送信する。集計サーバ300の集計処理部330は、当該集計要求に従って集計処理を実施し、集計結果を、要求元の情報処理装置に返信する。
【0053】
そうすると、集計要求処理部121は、集計サーバ300から集計結果を受信し、集計結果格納部122に格納する(図20:ステップS41)。次に、属性値生成部124は、集計要求処理部121からの指示に応じて、分布データ格納部103又は属性値格納部125に格納されている、処理対象の特定の属性項目における未処理の属性値を1つ特定する(ステップS43)。また、属性値生成部124は、カウンタNを1に初期化する(ステップS45)。
【0054】
属性値生成部124は、ルール格納部105に格納されているルールデータから、特定された属性値からN番目の変換後属性値を決定する(ステップS47)。例えば、性別で、特定された属性値が「M」であれば、ルールデータに従えば「M1」が最初に決定される。
【0055】
その後、属性値生成部124は、N番目の変換後属性値に対して、キー格納部110に格納されているキーk及び所定のハッシュ関数Hから暗号化された変換後属性値を算出する(ステップS49)。例えば図21Aに示すように、属性値「M」について「M1」が生成されると、H(M1,k)という演算を実施して、暗号化された変換後属性値を算出する。属性値「F」についても同様に、図21Bに示すように、「F1」が生成されると、H(F1,k)という演算を実施して、暗号化された変換後属性値を算出する。属性値生成部124は、このような暗号化された変換後属性値を復元処理部123に出力する。
【0056】
復元処理部123は、集計結果格納部122に格納されている集計結果を、暗号化された変換後属性値で検索を実施する(ステップS51)。例えば、図16Cに示すような集計結果が取得された場合には、図16Cに示すような集計結果を、例えば「M1」に対応する「abc25432」で検索する。そうすると、1件目がヒットする。
【0057】
そして、復元処理部123は、集計結果に暗号化された変換後属性値が存在するか判断し(ステップS53)、集計結果に暗号化された変換後属性値が存在する場合には、ステップS43で特定された属性値のカウントを集計値だけ増分する(ステップS55)。計算結果については、復元集計結果格納部126に格納する。例えば図16Cの最初のレコードが特定された場合には、属性値「M」について、疾患「0」のカウント値に「2」を加算し、疾患「1」のカウント値に「1」を加算する。ここでは初期的にはカウント値が「0」であるから、疾患「0」のカウント値は「2」になり、疾患「1」のカウント値は「1」となる。そして、属性値生成部124は、Nを1インクリメントして(ステップS57)ステップS47に戻る。
【0058】
例えば、属性値「M」の場合には、次に「M2」が変換後属性値として決定され、図21Aに示すように、暗号化された変換後属性値「awe34565」が算出される。そして、図16Cの集計結果を「awe34565」で検索する。そうすると、2行目のレコードが特定され、疾患「0」のカウント値に「2」を加算して「4」が得られ、疾患「1」のカウント値に「1」を加算して「2」が得られる。
【0059】
一方、集計結果に暗号化された変換後属性値が存在していない場合には、端子Aを介して図22の処理に移行する。
【0060】
図22の処理の説明に移行して、属性値生成部124は、Nが、予め定められたNの最大値以上であるか判断する(ステップS59)。NがNの最大値以上でない場合には、属性値生成部124は、Nを1インクリメントして(ステップS61)、端子Bを介して図20のステップS47に戻る。一方、NがNの最大値以上である場合には、属性値生成部124は、分布データ格納部103又は属性値格納部125において未処理の属性値が存在するか判断する(ステップS63)。未処理の属性値が存在する場合には、端子Cを介して図20のステップS43に戻る。
【0061】
一方、未処理の属性値が存在しない場合には、例えば復元処理部123は、情報処理装置のユーザの端末などに、復元集計結果格納部126に格納されている復元集計結果を送信する(ステップS65)。
【0062】
このような処理を実施すれば、図16Cについては、図23に示すような結果が得られる。図23に示すように、属性項目「性別」の属性値「M」及び「F」について、疾患「0」の計数値及び疾患「1」の計数値が得られるようになる。同様に、図16Bについて処理を行えば、図24に示すような結果が得られる。図24の例では、学部毎に疾患「1」の計数値が、性別「M」及び「F」について計数された結果が得られるようになる。
【0063】
以上のような処理を実施すれば、集計サーバ300においては、暗号化もされているし、分布も変更されているので、元のデータを推定することは不可能であるが、集計結果については正しい結果を情報処理装置において復元することができる。よって、集計サーバ300にセンシティブな情報であっても登録しておき、クロス集計などの集計処理を実施させる。そして、情報処理装置においてクロス集計などの集計結果を復元して有効に活用することができるようになる。
【0064】
以上本技術の実施の形態を説明したが、本技術はこれらの実施の形態に限定されるわけではない。例えば、図5の機能ブロック図については、実際のプログラムモジュール構成は一致しない場合もある。また、処理フローについても、処理結果が変わらないかぎり、処理順番を入れ替えたり、並列実行するようにしても良い。例えば、ループを分割したり、ループを統合したりしても処理結果が変わらない場合には問題ない。例えば図20及び図22の処理フローにおいて、先に暗号化された変換後属性値を全て算出してから、集計結果の検索を実施するようにしても良い。同様に、図11の処理において、暗号化処理をループから外すようにしても良い。
【0065】
また、シリアルに番号を属性値に付加して変換後属性値を生成する場合には、ステップS59及びS61を設けないような処理フローであってもよい。
【0066】
また、分布変換データ格納部106に、暗号化された変換後属性値を登録して、変換前の属性値から直接暗号化された変換後属性値を抽出できるようにしてもよい。例えば図18のような分布変換データを、図25に示すように、暗号化された変換後属性値まで登録しておき、変換処理部107で直接暗号化された変換後属性値を、提供データ中の各レコードに割り当てるようにしても良い。
【0067】
なお、上で述べた例では、全ての情報処理装置A乃至Cが、同一の属性項目について分布の変換を行うような場合を説明したが、場合によっては一部の情報処理装置のみが特定の属性項目について分布の変換を実施したり、しなかったりする場合もある。従って、復元処理部123は、集計結果格納部122に処理がなされなかったレコードが残っている場合には、そのレコードをそのまま復元集計処理結果格納部126に格納するようにする。
【0068】
また、全ての情報処理装置A乃至Cで特定の属性項目について同一の属性値セットが出現しない可能性もある。その場合には、分布データ格納部103をベースに属性値生成部124が処理を行うと、未知の属性値については暗号化された変換後属性値を生成できない。このような場合にも、集計結果格納部122に処理がなされなかったレコードが残るので、そのレコードをそのまま復元集計処理結果格納部126に格納するようにする。但し、属性値格納部125に、情報処理装置A乃至Cで用いられる可能性のある全ての属性値を格納しておき、このデータを属性値生成部124が用いることにすれば、このような問題は生じない。
【0069】
なお、上で述べた情報処理装置及び集計サーバ300は、コンピュータ装置であって、図26に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
【0070】
以上述べた本実施の形態をまとめると、以下のようになる。
【0071】
本実施の形態の第1の側面に係る変換処理方法は、(A)第1データ格納部に格納されており且つ各々複数の属性項目について属性値を有する複数のレコードについて、複数の属性項目のうち特定の属性項目について出現する属性値の出現頻度についての第1の分布を検出する第1処理と、(B)第1の分布を当該第1の分布とは異なる第2の分布となるように、属性値のうち少なくとも一部の属性値の各々を、予め定められた第1のルールに従って特定される複数の第2の属性値のいずれかに変換する第2処理とを含む。
【0072】
このようにすれば、処理後のデータを見ても分布から元のデータを推定することが難しくなるので、データ漏洩を防止又は抑制することができる。
【0073】
また、上で述べた第2処理は、(b1)属性値の出現頻度についての第1の分布において所定基準以上の偏りを有する属性値を予め定められた第2のルールに従って複数の第2属性値に展開し、当該所定基準以上の偏りを有する属性値と複数の第2属性値との対応関係を第2データ格納部に格納する第3処理と、(b2)第2データ格納部に格納されている対応関係に従って、複数のレコードにおける特定の属性項目についての属性値を、複数の第2属性値のうちのいずれかの第2属性値に変換する第4処理とを含むようにしてもよい。このように出現頻度に偏りを有する属性値を複数の属性値のいずれかに変換すれば、出現頻度の偏りを是正して、分布の特徴を消すことができるようになる。すなわち、分布からのデータ漏洩を防止又は抑制できるようになる。
【0074】
また、上で述べた第2処理は、複数のレコードにおける特定の属性項目についての第2属性値を暗号化する第5処理をさらに含むようにしてもよい。上記対応関係において暗号化後の第2属性値も対応付けられている場合もあれば、このようにレコードについて暗号化処理を実施するようにしても良い。暗号化については、キーとハッシュ関数であってもよいし、他の暗号化手法を用いても良い。
【0075】
さらに、上で述べた第3処理が、特定の属性項目について出現する属性値のうち出現頻度が基準値を上回る属性値について、当該属性値の出現頻度及び基準値に基づき展開数を算出し、第2のルールに従って出現頻度が基準値を上回る属性値について展開数の第2属性値を生成するようにしてもよい。例えば第2属性値が均一に出現するように分布の変換を実施する場合には、出現頻度が基準値を下回るよう展開数を算出するようにしても良い。このようにすれば、出現頻度が突出した属性値を、見かけ上なくすことができるようになる。
【0076】
また、上で述べた第3処理が、展開数に応じて第2の属性値の各々について出現確率を算出し、対応関係に関連付けて第2データ格納部に格納する処理を含むようにしてもよい。その場合、上で述べた第4処理において、対応関係及び出現確率に従って、複数のレコードにおける特定の属性項目についての属性値を、複数の第2属性値のうちのいずれかの第2属性値に変換するようにしてもよい。出現確率を設定することで、柔軟に第2属性値を選択できるようになる。例えば、出現頻度が自然な形に揺らぐように出現確率を振れさせることで、分布の変換を第三者からわかりにくくすることができるようになる。
【0077】
さらに、本実施の形態の第1の側面において、第1の処理を行った後の複数のレコードを、集計処理を行うコンピュータに送信する処理をさらに含むようにしても良い。このように、集計処理を行うコンピュータでは様々な装置から得られたデータに対して総合した集計処理を実施することができる。
【0078】
本実施の形態の第2の側面に係る復元処理方法は、(A)集計対象の複数のレコードにおける第1の属性項目について出現する第1属性値から、予め定められたルールに従って複数の第2属性値を生成する第1処理と、(B)第1の属性項目について出現した第3属性値の各々について第2の属性項目の属性値毎の計数値又は属性値の合計値を含む集計結果を格納する第1データ格納部において、複数の第2属性値の各々について、当該第2の属性値と一致する第3属性値が存在するか判断し、存在すれば当該第3属性値に対応付けられている第2の属性項目の属性値毎の計数値又は属性値の合計値を第1データ格納部から読み出し、当該第2の属性項目の属性値毎に累計し又は当該第2の属性項目の属性値を累計し、累計結果を第2の属性値に対応付けて第2データ格納部に格納する第2処理とを含む。このようにすれば、特定の属性項目の属性値が複数の属性値に分けられている場合においても、その結果を集約することで、元々の集計結果を復元できるようになる。
【0079】
なお、上で述べた第1処理が、予め定められた第2のルールに従って、第1属性値を複数の第4属性値に展開する処理と、複数の第4属性値の各々を暗号化することで、複数の第2属性値を生成する処理とを含むようにしてもよい。
【0080】
なお、上で述べたような処理をコンピュータに実施させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROMなどの光ディスク、光磁気ディスク、半導体メモリ(例えばROM)、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。なお、処理途中のデータについては、RAM等の記憶装置に一時保管される。
【0081】
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0082】
(付記1)
第1データ格納部に格納されており且つ各々複数の属性項目について属性値を有する複数のレコードについて、前記複数の属性項目のうち特定の属性項目について出現する属性値の出現頻度についての第1の分布を検出する第1処理と、
前記第1の分布を当該第1の分布とは異なる第2の分布となるように、前記属性値のうち少なくとも一部の属性値の各々を、予め定められた第1のルールに従って特定される複数の第2の属性値のいずれかに変換する第2処理と、
を、コンピュータに実行させるための変換処理プログラム。
【0083】
(付記2)
前記第2処理は、
前記属性値の出現頻度についての第1の分布において所定基準以上の偏りを有する属性値を予め定められた第2のルールに従って複数の第2属性値に展開し、当該所定基準以上の偏りを有する属性値と前記複数の第2属性値との対応関係を第2データ格納部に格納する第3処理と、
前記第2データ格納部に格納されている前記対応関係に従って、前記複数のレコードにおける前記特定の属性項目についての属性値を、前記複数の第2属性値のうちのいずれかの第2属性値に変換する第4処理と、
を含む付記1記載の変換処理プログラム。
【0084】
(付記3)
前記第2処理は、
前記複数のレコードにおける前記特定の属性項目についての前記第2属性値を暗号化する第5処理
をさらに含む付記2記載の変換処理プログラム。
【0085】
(付記4)
前記第3処理が、
前記特定の属性項目について出現する属性値のうち出現頻度が基準値を上回る属性値について、当該属性値の出現頻度及び前記基準値に基づき展開数を算出し、
前記第2のルールに従って前記出現頻度が基準値を上回る属性値について前記展開数の第2属性値を生成する
処理を含む付記2又は3記載の変換処理プログラム。
【0086】
(付記5)
前記第3処理が、
前記展開数に応じて前記第2の属性値の各々について出現確率を算出し、前記対応関係に関連付けて前記第2データ格納部に格納する処理
を含み、
前記第4処理において、前記対応関係及び出現確率に従って、前記複数のレコードにおける前記特定の属性項目についての属性値を、前記複数の第2属性値のうちのいずれかの第2属性値に変換する
付記4記載の変換処理プログラム。
【0087】
(付記6)
前記第1の処理を行った後の前記複数のレコードを、集計処理を行うコンピュータに送信する処理
をさらに前記コンピュータに実行させるための付記1乃至5のいずれか1つ記載の変換処理プログラム。
【0088】
(付記7)
集計対象の複数のレコードにおける第1の属性項目について出現する第1属性値から、予め定められたルールに従って複数の第2属性値を生成する第1処理と、
前記第1の属性項目について出現した第3属性値の各々について第2の属性項目の属性値毎の計数値又は属性値の合計値を含む集計結果を格納する第1データ格納部において、前記複数の第2属性値の各々について、当該第2の属性値と一致する第3属性値が存在するか判断し、存在すれば当該第3属性値に対応付けられている前記第2の属性項目の属性値毎の計数値又は属性値の合計値を前記第1データ格納部から読み出し、当該第2の属性項目の属性値毎に累計し又は当該第2の属性項目の属性値を累計し、累計結果を前記第2の属性値に対応付けて第2データ格納部に格納する第2処理と、
を、コンピュータに実行させるための復元処理プログラム。
【0089】
(付記8)
前記第1処理が、
予め定められた第2のルールに従って、前記第1属性値を複数の第4属性値に展開する処理と、
前記複数の第4属性値の各々を暗号化することで、前記複数の第2属性値を生成する処理と、
を含む付記7記載の復元処理プログラム。
【0090】
(付記9)
第1データ格納部に格納されており且つ各々複数の属性項目について属性値を有する複数のレコードについて、前記複数の属性項目のうち特定の属性項目について出現する属性値の出現頻度についての第1の分布を検出する第1処理と、
前記第1の分布を当該第1の分布とは異なる第2の分布となるように、前記属性値のうち少なくとも一部の属性値の各々を、予め定められた第1のルールに従って特定される複数の第2の属性値のいずれかに変換する第2処理と、
を、コンピュータが実行する変換処理方法。
【0091】
(付記10)
集計対象の複数のレコードにおける第1の属性項目について出現する第1属性値から、予め定められたルールに従って複数の第2属性値を生成する第1処理と、
前記第1の属性項目について出現した第3属性値の各々について第2の属性項目の属性値毎の計数値又は属性値の合計値を含む集計結果を格納する第1データ格納部において、前記複数の第2属性値の各々について、当該第2の属性値と一致する第3属性値が存在するか判断し、存在すれば当該第3属性値に対応付けられている前記第2の属性項目の属性値毎の計数値又は属性値の合計値を前記第1データ格納部から読み出し、当該第2の属性項目の属性値毎に累計し又は当該第2の属性項目の属性値を累計し、累計結果を前記第2の属性値に対応付けて第2データ格納部に格納する第2処理と、
を、コンピュータが実行する復元処理方法。
【0092】
(付記11)
第1データ格納部に格納されており且つ各々複数の属性項目について属性値を有する複数のレコードについて、前記複数の属性項目のうち特定の属性項目について出現する属性値の出現頻度についての第1の分布を検出する分布検出部と、
前記第1の分布を当該第1の分布とは異なる第2の分布となるように、前記属性値のうち少なくとも一部の属性値の各々を、予め定められた第1のルールに従って特定される複数の第2の属性値のいずれかに変換する変換処理部と、
を有する情報処理装置。
【0093】
(付記12)
集計対象の複数のレコードにおける第1の属性項目について出現する第1属性値から、予め定められたルールに従って複数の第2属性値を生成する属性値生成部と、
前記第1の属性項目について出現した第3属性値の各々について第2の属性項目の属性値毎の計数値又は属性値の合計値を含む集計結果を格納する第1データ格納部において、前記複数の第2属性値の各々について、当該第2の属性値と一致する第3属性値が存在するか判断し、存在すれば当該第3属性値に対応付けられている前記第2の属性項目の属性値毎の計数値又は属性値の合計値を前記第1データ格納部から読み出し、当該第2の属性項目の属性値毎に累計し又は当該第2の属性項目の属性値を累計し、累計結果を前記第2の属性値に対応付けて第2データ格納部に格納する復元処理部と、
を有する情報処理装置。
【符号の説明】
【0094】
101 提供データ格納部
102 分布検出部
103 分布データ格納部
104 分布変換データ生成部
105 ルール格納部
106 分布変換データ格納部
107 変換処理部
108 変換済データ格納部
109 暗号化処理部
110 キー格納部
111 暗号化データ格納部
112 送信部
121 集計要求処理部
122 集計結果格納部
123 復元処理部
124 属性値生成部
125 属性値格納部
126 復元集計結果格納部

【特許請求の範囲】
【請求項1】
第1データ格納部に格納されており且つ各々複数の属性項目について属性値を有する複数のレコードについて、前記複数の属性項目のうち特定の属性項目について出現する属性値の出現頻度についての第1の分布を検出する第1処理と、
前記第1の分布を当該第1の分布とは異なる第2の分布となるように、前記属性値のうち少なくとも一部の属性値の各々を、予め定められた第1のルールに従って特定される複数の第2の属性値のいずれかに変換する第2処理と、
を、コンピュータに実行させるための変換処理プログラム。
【請求項2】
前記第2処理は、
前記属性値の出現頻度についての第1の分布において所定基準以上の偏りを有する属性値を予め定められた第2のルールに従って複数の第2属性値に展開し、当該所定基準以上の偏りを有する属性値と前記複数の第2属性値との対応関係を第2データ格納部に格納する第3処理と、
前記第2データ格納部に格納されている前記対応関係に従って、前記複数のレコードにおける前記特定の属性項目についての属性値を、前記複数の第2属性値のうちのいずれかの第2属性値に変換する第4処理と、
を含む請求項1記載の変換処理プログラム。
【請求項3】
前記第2処理は、
前記複数のレコードにおける前記特定の属性項目についての前記第2属性値を暗号化する第5処理
をさらに含む請求項2記載の変換処理プログラム。
【請求項4】
前記第3処理が、
前記特定の属性項目について出現する属性値のうち出現頻度が基準値を上回る属性値について、当該属性値の出現頻度及び前記基準値に基づき展開数を算出し、
前記第2のルールに従って前記出現頻度が基準値を上回る属性値について前記展開数の第2属性値を生成する
処理を含む請求項2又は3記載の変換処理プログラム。
【請求項5】
前記第3処理が、
前記展開数に応じて前記第2の属性値の各々について出現確率を算出し、前記対応関係に関連付けて前記第2データ格納部に格納する処理
を含み、
前記第4処理において、前記対応関係及び出現確率に従って、前記複数のレコードにおける前記特定の属性項目についての属性値を、前記複数の第2属性値のうちのいずれかの第2属性値に変換する
請求項4記載の変換処理プログラム。
【請求項6】
前記第1の処理を行った後の前記複数のレコードを、集計処理を行うコンピュータに送信する処理
をさらに前記コンピュータに実行させるための請求項1乃至5のいずれか1つ記載の変換処理プログラム。
【請求項7】
集計対象の複数のレコードにおける第1の属性項目について出現する第1属性値から、予め定められたルールに従って複数の第2属性値を生成する第1処理と、
前記第1の属性項目について出現した第3属性値の各々について第2の属性項目の属性値毎の計数値又は属性値の合計値を含む集計結果を格納する第1データ格納部において、前記複数の第2属性値の各々について、当該第2の属性値と一致する第3属性値が存在するか判断し、存在すれば当該第3属性値に対応付けられている前記第2の属性項目の属性値毎の計数値又は属性値の合計値を前記第1データ格納部から読み出し、当該第2の属性項目の属性値毎に累計し又は当該第2の属性項目の属性値を累計し、累計結果を前記第2の属性値に対応付けて第2データ格納部に格納する第2処理と、
を、コンピュータに実行させるための復元処理プログラム。
【請求項8】
前記第1処理が、
予め定められた第2のルールに従って、前記第1属性値を複数の第4属性値に展開する処理と、
前記複数の第4属性値の各々を暗号化することで、前記複数の第2属性値を生成する処理と、
を含む請求項7記載の復元処理プログラム。
【請求項9】
第1データ格納部に格納されており且つ各々複数の属性項目について属性値を有する複数のレコードについて、前記複数の属性項目のうち特定の属性項目について出現する属性値の出現頻度についての第1の分布を検出する第1処理と、
前記第1の分布を当該第1の分布とは異なる第2の分布となるように、前記属性値のうち少なくとも一部の属性値の各々を、予め定められた第1のルールに従って特定される複数の第2の属性値のいずれかに変換する第2処理と、
を、コンピュータが実行する変換処理方法。
【請求項10】
集計対象の複数のレコードにおける第1の属性項目について出現する第1属性値から、予め定められたルールに従って複数の第2属性値を生成する第1処理と、
前記第1の属性項目について出現した第3属性値の各々について第2の属性項目の属性値毎の計数値又は属性値の合計値を含む集計結果を格納する第1データ格納部において、前記複数の第2属性値の各々について、当該第2の属性値と一致する第3属性値が存在するか判断し、存在すれば当該第3属性値に対応付けられている前記第2の属性項目の属性値毎の計数値又は属性値の合計値を前記第1データ格納部から読み出し、当該第2の属性項目の属性値毎に累計し又は当該第2の属性項目の属性値を累計し、累計結果を前記第2の属性値に対応付けて第2データ格納部に格納する第2処理と、
を、コンピュータが実行する復元処理方法。
【請求項11】
第1データ格納部に格納されており且つ各々複数の属性項目について属性値を有する複数のレコードについて、前記複数の属性項目のうち特定の属性項目について出現する属性値の出現頻度についての第1の分布を検出する分布検出部と、
前記第1の分布を当該第1の分布とは異なる第2の分布となるように、前記属性値のうち少なくとも一部の属性値の各々を、予め定められた第1のルールに従って特定される複数の第2の属性値のいずれかに変換する変換処理部と、
を有する情報処理装置。
【請求項12】
集計対象の複数のレコードにおける第1の属性項目について出現する第1属性値から、予め定められたルールに従って複数の第2属性値を生成する属性値生成部と、
前記第1の属性項目について出現した第3属性値の各々について第2の属性項目の属性値毎の計数値又は属性値の合計値を含む集計結果を格納する第1データ格納部において、前記複数の第2属性値の各々について、当該第2の属性値と一致する第3属性値が存在するか判断し、存在すれば当該第3属性値に対応付けられている前記第2の属性項目の属性値毎の計数値又は属性値の合計値を前記第1データ格納部から読み出し、当該第2の属性項目の属性値毎に累計し又は当該第2の属性項目の属性値を累計し、累計結果を前記第2の属性値に対応付けて第2データ格納部に格納する復元処理部と、
を有する情報処理装置。

【図1A】
image rotate

【図1B】
image rotate

【図1C】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図2C】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10A】
image rotate

【図10B】
image rotate

【図10C】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13A】
image rotate

【図13B】
image rotate

【図14A】
image rotate

【図14B】
image rotate

【図14C】
image rotate

【図15A】
image rotate

【図15B】
image rotate

【図15C】
image rotate

【図16A】
image rotate

【図16B】
image rotate

【図16C】
image rotate

【図16D】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21A】
image rotate

【図21B】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate