説明

個人情報の外部委託解析システム

【課題】 個人情報は、法に基づいた厳しい管理が求められることから、住所等の位置情報を含む顧客データを外部に提供して詳細な解析を行うことは事実上困難である。このような現状に対して本発明は、社内規則や自治体が持つ個人情報保護条例等に抵触することなく、外部機関で専門的なデータ解析が行えるようにする。
【解決手段】個人情報を保有する機関aのサーバ装置1で対象となるデータベース2から氏名を削除し、システム上にロードされた秘匿化ソフトウエアにより解析に支障をきたさない程度まで位置情報を抽象化する情報処理を行った後に、秘匿化されたデータを元に匿名化データベース3を作成し、外部機関bと共通の管理用IDを設定してデータを共有する。外部機関bは、外部機関データベース4を元に個人情報に付随する大量のデータに対してマーケティング等の空間解析を実施することを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、個人情報の秘匿化をコンピュータ上で行うことを目的としたソフトウエア、及びその秘匿化ソフトウエアを適用したアドレスマッチングによる情報処理を行うことにより、個人情報に付随するデータを外部機関へ提供し解析を可能にするシステムに関する。
【背景技術】
【0002】
顧客データ等の個人情報は、個人情報保護法に基づいた厳しい管理を必要とすることから、これらの大量なデータを用いた解析(データマイニング)は、組織内で対応が可能な一部の企業を除くと手つかずの状態であり、多くのデータが解析されず眠ったままの状態にある。これまで個人情報に関連するデータを外部提供する場合、データを保有する機関において個人情報から個人データを分離して、残った個人識別情報を信託機関に提供し識別子により管理することで非個人化を行い、外部機関に提供する方法が知られていた。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2000-324094号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、このような複雑なプロセスから成るシステム下で個人情報を外部提供するには、時間とコストがかかることが予想される。また、組織内で高度な解析を行う場合においても専門スタッフの確保を含めコストがかかり、一部の企業を除くとマーケティング等に関するデータマイニングを組織の内部で実施する事は難しい。さらに、データを外部提供する際の秘匿化に関しても、個人情報保護を担保する定められたルールが存在しないのが現状である。
【0005】
一方で、大量のデータからマーケティング等に関する空間解析を実施する場合には、個人が持つ住所等の位置情報を位置座標に変える事で、カーネル密度関数等を利用して個人に付随した情報を元にGIS(地理情報システム)により特定集団の分布地図を作成する方法が実用化されており、この場合はピンポイントで個人の位置情報を特定する必要がない。したがって、このような条件下で個人情報の秘匿化を行う場合、氏名を削除した後に個人が特定されないよう位置情報を位置座標に変換することが可能と考えられる。
【0006】
変換によって得られた位置座標から個人が特定されないためには、個人が存在する地域の特性が大きく関わる。例えば、過疎地域における個人の位置情報は過密地域における位置情報と比較してより厳密な抽象化が求められる。住所を例に取ると ○町△丁目X番地□号において、○町△丁目X番地を代表する位置座標で十分秘匿化される場合と、○町△丁目を代表する位置座標でないと十分秘匿化されない場合など、地域の特性や解析目的により要求されるアドレスマッチングの処理レベルも種々のケースが想定される。
【0007】
そこで、本発明は、大量の個人情報をコンピュータ上で外部提供できる状態まで秘匿化する際に、地域の特性を考慮した最適の位置情報の抽象化プロセスを加えることで、外部機関において解析に支障をきたさない程度まで個人情報が含まれるデータベースを秘匿化し、匿名化されたデータベースを共有することにより個人情報に付随するデータについて、外部機関でマーケティング等の解析を可能にする事を目的とする。
【課題を解決するための手段】
【0008】
以上の課題を解決するため、国勢調査等で公表されている人口密度や世帯密度等を元にした丁目単位等の密度分布地図をベースに位置情報の抽象化レベルを複数定め、アドレスマッチング処理をレベル別に実施可能とする。これらの基礎データを元に、解析目的に応じて地域の特性に合ったアドレスマッチングの処理レベルを自動的に判断し、コンピュータ上で種々の抽象化手法を用いたデータ処理を行うソフトウエアをシステム上で実行し、個人情報が含まれたデータベースから匿名化データベースを作成し、これを外部機関と共有するシステムである。
【発明の効果】
【0009】
本発明に基づくシステムを導入することで、企業のみならず自治体が保有する個人情報についても、法を遵守した上で外部委託機関において個人情報に付随するデータの空間解析が低いコストで可能となり、現状把握と解決すべき問題への介入等、多くの部署において保有データの有効活用が期待できる。
【図面の簡単な説明】
【0010】
【図1】本システムにおける個人情報を含むデータの流れである。
【図2】位置情報から位置座標データへの抽象化処理方法である。
【図3】地域密度レベルに基づいた位置情報の抽象化処理方法の一例である。
【図4】位置情報を処理し、秘匿化された位置座標の一例である。
【図5】位置特定処理手段における抽象化処理方法1である。
【図6】位置特定処理手段における抽象化処理方法2である。
【図7】抽象化処理を外部機関で行う場合の個人情報を含むデータの流れである。
【発明を実施するための形態】
【0011】
本発明の実施方法について図を用いて説明する。データ保有機関aが管理する個人情報が含まれた内部データを、解析を行う外部機関bに提供するまでの流れを図1に示す。個人情報を保有する機関aは、購入もしくはレンタルで本システムにおいて使用するソフトウエアをあらかじめ組織内部のサーバ装置1にロードし、個人情報の秘匿化処理についてプライベートLANの端末より指示が受けられる状態とする。
【0012】
LANに接続された端末からの指示で、データベース2より対象となるファイルのデータから氏名を削除し、代わりに管理用IDが付与されたデータファイルを作成する。この操作の後に、あらかじめロードされた秘匿化ソフトウエアを用いて位置情報の抽象化処理をサーバ装置1で実施する。
【0013】
秘匿化ソフトウエアによる位置データの処理過程を図2に示す。対象となるデータは、アドレスマッチング処理について指示を受ける入力手段20より位置座標を特定する位置特定処理手段21に送られ、位置辞書22を用いて位置特定処理手段21に設けた住所参照テーブル上で位置座標データを特定し、必要な抽象化処理を行った後に位置座標データとして出力手段23より出力する。
【0014】
個人の位置情報を地域密度に対応した位置座標に抽象化して変換するアドレスマッチングについて説明する。位置辞書22内に住所に対応した位置座標データと国勢調査に基づいた人口密度や世帯密度等より得られた地域の密度レベルデータを格納し、位置特定処理手段21に設けた、図3に示す住所欄と地域密度欄、座標欄からなる住所参照テーブルにおいて、個人の位置情報(住所等)と地域密度別の位置座標(緯度経度等)の対応づけを行う。
【0015】
位置座標の抽象化について図3で一例を示す。あらかじめ町字、丁目、番地、号まで可能な限り詳細な位置座標を設定し、地域密度が標準的な地域においては、詳細なアドレスマッチングを行った後、緯度経度の小数点N(図3ではN=5)桁以下(A,B)を乱数変換(C,D)する。人口密度の高い地域においては個人が特定され難いことから、詳細なアドレスマッチング処理を行った後に、必要に応じて緯度経度の小数点N+1桁以下をランダムに座標変換する。一方人口密度の低い地域においては、個人が特定され易い事を考慮して、同様のアドレスマッチング処理した後に、緯度経度の小数点以下N−1桁以下をランダムに座標変換する。このようにコンピュータ上で国勢調査に基づいた人口密度や世帯密度等より得られた地域の密度レベルデータを元にアドレスマッチング精度を自動的に判断し、個人が特定されず解析に支障をきたさない必要十分なレベルで位置情報(住所等)を抽象化処理する。
【0016】
実際の住所に相当する位置座標 (x座標、y座標)を (x、y)とすると、抽象化処理をした後の座標 (x、y)との距離のずれSは、以下の計算式より近似値が求められる。R:平均曲率半径 m:座標系の原点における縮尺係数
【0017】
【数1】

【0018】
【数2】

【0019】
10進法表示された緯度経度において、仮に小数点以下5桁目を乱数表示すると、図4に示すように実際の座標と最大100m程度のずれが生じる。個人が特定されないよう住所を座標変換して大量のデータから空間解析を行う場合、解析目的にもよるがこの値を超えないずれは、都道府県単位の解析を行う場合において結果に大きな影響を与えないと考えられ、過疎地を除けば、位置情報の抽象化レベルとして適当な情報処理と考えられる。さらに、人口密集地域を含む市区町村単位の解析を行う場合であれば、小数点以下6桁目の乱数表示により実際とのずれを最小にして精度の高い空間解析も可能であり、本発明におけるアドレスマッチングレベルの設定は、解析目的と人口密度、世帯密度等の地域特性に応じて変更することが可能である。
【0020】
位置特定処理手段21において、地域の密度レベルデータを元に位置情報(住所等)を抽象化処理する他の方法を、図5に示す。Cに示すように、実際の座標A1を一定の範囲rにあるAの位置にランダムに座標変換する以外に、Dに示すように実際の座標B1を番地や号レベルのエリアを代表とする座標B(重心座標等)に変換処理する方法等がある。
【0021】
位置情報が住所以外の郵便番号等の文字情報で提供される場合など、必要に応じて文字情報を代表するポリゴン(領域)の重心座標等(図5のB)を基準にして、図5のCに示した一定の範囲にランダムに座標変換する等の方法を組み合わせて変換処理を実施することも可能である。
【0022】
最初のアドレスマッチングで、番地、号までマッチングできない場合は、最も近いレベルのデータを暫定的に出力し、空間解析への影響の有無を判断できるよう非マッチングデータとし、必要に応じて再処理できるようグループ化する
【0023】
秘匿化処理が終わったデータは、アドレスマッチング処理のエラー等について検証した後に、共有IDにより匿名化データベース3で管理し、インターネットもしくはフラッシュメモリー等の記録媒体により専門的な解析を行う外部機関bのデータベース4に提供を行う。
【0024】
外部機関bにおいて空間解析を実施し、はずれ値や非マッチングデータを含め不適切な秘匿化処理が疑われるデータについては、共有IDにより照会し必要に応じて個人情報を保有する機関aのシステム上でデータの再処理を行い匿名化データベース3の修正を行う。外部機関bは、完成した匿名化データベース3より作成されたデータベース4を用いて、依頼を受けたマーケティング等の解析を実施する。
【0025】
さらに、アドレスマッチング処理を必要としないGPSによる位置情報サービス等を利用する場合や、より詳細に住所等の位置情報を位置特定処理手段21おいて抽象化処理する際には、図6に示すように密集地域Eにおいては、実際の位置情報A1〜A3を格子等を用いて小さく領域化して格子を代表する重心座標A等の異なった座標に変換する。さらに、変換後の重心座標を基準にして、図5のCに示すように一定の範囲にランダムに座標変換する方法を組み合わせることも可能である。
【0026】
格子の大きさや形は対象地域の密度レベルに応じて変化させ、過疎地域Fの位置情報B1〜B3はより大きな領域の重心座標B等に変換することで厳密に個人の位置情報の抽象化処理が可能である。これらの方法で作成された匿名化データベース3を元に、外部機関bにおいてマーケティング等の解析を同様に実施する。
【0027】
以上は、位置情報(住所等)の外部漏出を防ぐために、個人情報の秘匿化処理をデータ保有機関aの内部で行うシステムであるが、データ保有機関aが位置情報のみ外部提供を認める場合は、図7に示すように秘匿化処理を行う外部機関5にID管理された位置情報のみを提供し、前述したデータの抽象化処理を実施する。この後データ保有機関aにおいて、個人情報に付随するデータを再結合して匿名化データベース3を作成し、これを元に解析を行う外部機関bにおいてマーケティング等のデータマイニングを実施する。
【符号の説明】
【0028】
1 サーバ装置
2 個人情報が含まれたデータベース
3 匿名化データベース
4 外部機関データベース
5 秘匿化を行う外部機関
a データ保有機関
b 解析を行う外部機関
20 入力手段
21 位置特定処理手段
22 位置辞書
23 出力手段
r 一定の範囲
A1〜3 実際の座標
A 変換後の座標
B1〜3 実際の座標
B 変換後の座標
C 一定の範囲にランダムに配置する抽象化
D エリアを代表する座標に配置する抽象化
E 密集地域
F 過疎地域

【特許請求の範囲】
【請求項1】
解析目的に応じて個人情報を秘匿化して外部提供するシステムであって、位置情報に関するアドレスマッチング処理について指示を受ける入力手段と、アドレスマッチングレベルに対応可能な位置座標データを記述した位置辞書と、処理レベルに応じて、位置辞書から位置座標データを特定する位置特定処理手段と、特定した位置座標データを出力する出力手段を備え、個人情報が含まれたデータベースを外部提供が可能な匿名化データベースに変換処理することを特徴としたシステム。
【請求項2】
アドレスマッチング処理において、どのレベルで秘匿化を行うか位置情報の抽象化処理を行うプロセスを加え、個人が特定されないよう位置座標データに変換し秘匿化するシステム。
【請求項3】
対象となる地域の人口密度や世帯密度等の特性に応じて、秘匿化のレベルを自動的に判断することを特徴としたアドレスマッチング処理システム。
【請求項4】
秘匿化処理後、個人情報に付随するデータを匿名化データベースの形で外部機関と共有し、マーケティング等の解析を外部機関において実施するシステム。
【請求項5】
抽象化処理を行うプロセスにおいて、住所等の位置情報に加えGPS等により得られた位置情報に対して格子等を用いた領域化を行い、格子の大きさや形を変化させることにより位置情報を抽象化して匿名化データベースを作成し、請求項4と同様にマーケティング等の解析を外部機関で実施するシステム。
【請求項6】
データ保有機関が位置情報のみ外部提供を認める場合、データを分離して位置情報の秘匿化を行う外部機関に提供し、抽象化処理した後にデータ保有機関において個人情報に付随するデータを再結合して匿名化データベースを作成し、請求項4と同様にマーケティング等の解析を外部機関で実施するシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2011−123712(P2011−123712A)
【公開日】平成23年6月23日(2011.6.23)
【国際特許分類】
【出願番号】特願2009−281371(P2009−281371)
【出願日】平成21年12月11日(2009.12.11)
【出願人】(309039255)
【Fターム(参考)】