説明

特定情報抽出装置および特定情報抽出プログラム

【課題】Webページのような他者が設計、実装したフィールドであっても特定情報を抽出することができる特定情報抽出装置を提供する。
【解決手段】Webページが格納されたWebページDB110から1つのWebページを読み取り、該ページと同一構造を持つページがWebページDB110に存在するか否かを判定する同一ページ判定部101と、前記同一ページ判定部101によって前記同一構造を持つページが存在すると判定された場合に、当該同一構造を持つページ間で内容に差分が有るか否かを検出する差分検出部102と、前記差分検出部102によって差分が有ると検出された場合に、差分のある場所を差分領域として特定し、当該差分領域に記載された情報を差分データとして抽出し、前記差分領域および差分データを特定情報として差分データDB120に格納する差分データ抽出部102と、を備えた。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Webサイトから、例えば個人情報のような特定情報を抽出する特定情報抽出技術に関する。
【背景技術】
【0002】
コンピュータのCPU、メモリ等の性能向上、大容量ストレージの低価格化により、ライフログ等の個人が発信する情報を活用する機会が増えてきている。ブログやECサイトでの売買等のWeb上に発信されたログを活用して、より利用者の嗜好に応じた商品やサービスを提供していく機会も増えてきている。ログの活用に際しては、個人情報のように発信者が公開したくない情報を特定し、必要に応じて除去することが必須となる。
【0003】
特定情報を除去する方法としては、特許文献1に開示されているように、情報内で特定情報が記載される場所をあらかじめ登録しておき、その場所から得られた情報を特定情報とし、情報全体にあるかマッチングを行い、あった場合に除去する方法がある。
【0004】
尚、本発明の実施形態例で利用する名字辞典は、例えば非特許文献1に記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−4111号公報
【非特許文献】
【0006】
【非特許文献1】「名字辞典−Weblio辞書・百科辞典」、インターネット<URL:http://www.weblio.jp/cat/dictionary/mjkbr>、[平成22年10月28日検索]
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来の方法では、あらかじめ特定情報の記載場所を抽出ルールとして登録しておく必要があり、Webページのような他者が設計、実装した場合には、記載場所を目視により確認し、特定することが必要になる。また、タグの情報を基に類推する方法においても多種多様な表現全てに対応することは、困難であり、場所を特定することは困難である。
【0008】
本発明の目的は、Webページのような他者が設計、実装したフィールドであっても特定情報が記載される場所を検出し、当該場所に記載された特定情報を抽出することができる特定情報抽出装置および特定情報抽出プログラムを提供することにある。
【課題を解決するための手段】
【0009】
本発明では、上記の課題を解決するため、収集されたログの中から同一のフィールドをもつログを判定し、当該ログにおける差分を差分データとして検出し、当該差分データを抽出し、当該抽出データとして蓄積するように構成した。
【0010】
すなわち、本発明の特定情報抽出装置は、Webページが格納されたWebページデータベースから1つのWebページを読み取り、該ページと同一構造を持つページがWebページデータベースに存在するか否かを判定する同一ページ判定手段と、前記同一ページ判定手段によって前記同一構造を持つページが存在すると判定された場合に、当該同一構造を持つページ間で内容に差分が有るか否かを検出する差分検出手段と、前記差分検出手段によって差分が有ると検出された場合に、差分のある場所を差分領域として特定し、当該差分領域に記載された情報を差分データとして抽出し、前記差分領域および差分データを特定情報として差分データデータベースに格納する差分データ抽出手段と、を備えたことを特徴としている。
【発明の効果】
【0011】
(1)請求項1〜3に記載の発明によれば、Webページのような他者が設計、実装したフィールドであっても特定情報が記載される場所を検出し、記載された特定情報を抽出することができる。
(2)請求項2に記載の発明によれば、ログ情報を活用する際に、抽出された特定情報を公開すべきでない情報として、マスキングを行うことが可能になり、データの公開前に目視等により、チェックを行う必要がなくなる。
【図面の簡単な説明】
【0012】
【図1】本発明の一実施形態例にかかる特定情報抽出装置のブロック図。
【図2】本発明の一実施形態例における特定情報抽出処理の流れを示すフローチャート。
【図3】Webページの一例を示す説明図。
【図4】図3のWebページと同一構造であり、内容に差分が生じているWebページの一例を示す説明図。
【図5】本発明の他の実施形態例における特定情報抽出処理の流れを示すフローチャート。
【発明を実施するための形態】
【0013】
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図1は本発明の一実施形態例における特定情報抽出装置100の構成を示し、図2は図1の装置における特定情報抽出処理の流れを示している。
【0014】
図1において、特定情報抽出装置100は、同一ページ判定手段としての同一ページ判定部101、差分検出手段としての差分検出部102、差分データ抽出手段としての差分データ抽出部103、WebページDB(データベース)110および差分データDB120を備えている。
【0015】
前記同一ページ判定部101は、Webページが格納されたWebページDB110から1つのWebページを読み取り、該ページと同一構造を持つページがWebページDB110に存在するか否かを判定する。
【0016】
差分検出部102は、同一ページ判定部101によって前記同一構造を持つページが存在すると判定された場合に、当該同一構造を持つページ間で内容に差分が有るか否かを検出する。
【0017】
差分データ抽出部103は、前記差分検出部102によって差分が有ると検出された場合に、差分のある場所を差分領域として特定し、当該差分領域に記載された情報を差分データとして抽出し、前記差分領域および差分データを特定情報として差分データDB120に格納する。
【0018】
前記特定情報抽出装置100は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM、RAM、CPU、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。
【0019】
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、特定情報抽出装置100は、図1に示すように、同一ページ判定部101、差分検出部102、差分データ抽出部103、WebページDB110、差分データDB120を実装する。
【0020】
前記WebページDB110、差分データDB120は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。
【0021】
まず同一ページ判定部101は、図2のステップS1においてWebページDB110から1ページ読み取り、ステップS2において読み取るページが存在するか否かの判定を行う。読み取るページが無い場合には、処理を終了する。
【0022】
読み取るページがある場合は、ステップS3において、当該ページと同一の構造を持つページが、WebページDB110にあるか否かの判定を行う。同一構造をもつページがない場合は、ステップS1において新たなページをWebページDB110から読み込む。
【0023】
同一構造をもつページがある場合は、差分検出部102が、ステップS4において、同一構造をもつページ間での差分があるか否かの検出を行う。差分が無い場合は、当該ページに対して、他の同一構造をもつページが無いかの判定をステップS3において行う。差分がある場合は、差分データ抽出部103が、差分のある場所を差分領域として特定し(ステップS5)、当該差分領域に記載された情報を差分データとして抽出し(ステップS6)、当該差分領域および差分データを差分データDB120へ書き込む(ステップS7)。
【0024】
次に本実施形態の具体例を説明する。
【0025】
図3、図4は、同一構造であり、内容に差分が生じている、WebページDB110に格納されたWebページの一例である。
【0026】
図3に示すページを同一ページ判定部101により、WebページDB110から読み込み、そのページに対して、URL、フレーム、タグが同一の構造をもつ他のページがWebページDB110にないか判定を行い、同一の構造をもつ図4に示すページを検出する(ステップS1〜S3)。
【0027】
なお、同一構造の判定については、前出の特許文献1に開示されているように、動的情報及び装飾情報を除いた枠組みを表すURL、フレーム、タグからなる木構造情報を用いて判定する手法が既出であるため、ここではそれを一例として適用することとする。
【0028】
ここで、URL、フレーム、タグが同一である2つのファイルに対して、ファイル間でのデータの差分を機械的に取る(ステップS4)。取得方法としては、unixコマンドのdiffを使用することにより容易に実現できる。ここで抽出された差分データについて、そのデータが記載されているタグをWebページDB110内の元のWebページから抽出し、そのタグを抽出された差分データの差分領域として紐付ける。図3、図4での例としては、姓、名、姓カナ、名カナ、郵便番号、市町村、電話番号のタグが差分領域として抽出される(ステップS5、S6)。
【0029】
そして前記姓、名、姓カナ、名カナ、郵便番号、市町村、電話番号の差分領域に紐付けられた差分データを、差分領域と共に、特徴情報として差分データDB120へ書き込み(ステップS7)、その後はステップS3に戻る。
【0030】
上記のように本実施形態例によれば、Webページのような他者が設計、実装したフィールドであっても特定情報(差分データ)が記載される場所を検出し、記載された特定情報を抽出することができる。
【0031】
次に、本発明の他の実施形態例を図5とともに説明する。図5は、本発明の他の実施形態例において、図1の特定情報抽出装置100が行なう処理の流れを示している。
【0032】
図5において、ステップS11の同一ページ判定処理では、同一ページ判定部101が前記ステップS1〜S3と同一の処理を行なって、前述した同一構造を持つページの有無を判定する。
【0033】
ステップS12の差分検出処理では、差分検出部102が前記ステップS4と同一の処理を行って、前述したページ間のデータの差分を検出する。
【0034】
ステップS13の差分データ抽出処理では、差分データ抽出部103が前記ステップS5〜S7と同一の処理を行なって、前述した差分領域および差分データを差分データDB120(図5では図示省略)に格納する。
【0035】
ステップS14の特定情報判定処理では、差分データ抽出部103が、前記差分データDB120に格納された差分データについて、一般的な言語処理、文字列マッチング等の処理により、人名であることの検証、数字であることの検証等を行なって特定情報を判定し、該判定された特定情報を特定情報DB130に格納する。
【0036】
例えば、姓の欄に記載の文字列に対しては、日本人の姓としての特徴(漢数字も含めた漢字(2バイトのコード)であること、姓として登録されている最大の文字数の範囲であることなど)の条件を満たし、一般に公開されている名字辞典(例えば、非特許文献1の名字辞典など)とのマッチングを実施し、検証を行なう。
【0037】
また、電話番号の欄に記載の文字列に対しては、日本の電話番号としての特徴(数字列(1バイトあるいは2バイトのコード)でること、桁数、既定の桁数毎にハイフォン(1バイトあるいは2バイトのコード)が入ることがあるなど)の条件を満たすことにより、検証を行なう。
【0038】
尚、この特定情報DB130も特定情報抽出装置100内のハードディスク或いはRAMなどの保存手段・記憶手段に構築されるものである。
【0039】
ステップS15の特定情報マスキング処理では、差分データ抽出部103が、前記特定情報DB130内の特定情報と、前記ステップS13において差分データDB120に格納された差分データとのマッチングを行って特定情報のマスキングを実施し、該マスキングされた特定情報によって前記WebページDB110のデータを更新する。
【0040】
上記のように本実施形態例によれば、ログ情報を活用する際に、抽出された特定情報を公開すべきでない情報として、マスキングを行うことが可能になり、データの公開前に目視等により、チェックを行う必要がなくなる。
【0041】
また、本実施形態の特定情報抽出装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の特定情報抽出方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
【符号の説明】
【0042】
101…同一ページ判定部
102…差分検出部
103…差分データ抽出部
110…WebページDB
120…差分データDB
130…特定情報DB

【特許請求の範囲】
【請求項1】
Webページが格納されたWebページデータベースから1つのWebページを読み取り、該ページと同一構造を持つページがWebページデータベースに存在するか否かを判定する同一ページ判定手段と、
前記同一ページ判定手段によって前記同一構造を持つページが存在すると判定された場合に、当該同一構造を持つページ間で内容に差分が有るか否かを検出する差分検出手段と、
前記差分検出手段によって差分が有ると検出された場合に、差分のある場所を差分領域として特定し、当該差分領域に記載された情報を差分データとして抽出し、前記差分領域および差分データを特定情報として差分データデータベースに格納する差分データ抽出手段と、
を備えたことを特徴とする特定情報抽出装置。
【請求項2】
前記差分データ抽出手段は、前記抽出された差分データから特定情報を判定し、該判定された特定情報を特定情報データベースに格納し、該格納された特定情報に対してマスキングを行い、該マスキングされた特定情報によって前記Webページデータベースの更新を行うことを特徴とする請求項1に記載の特定情報抽出装置。
【請求項3】
コンピュータを請求項1又は2に記載の各手段として機能させる特定情報抽出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−98855(P2012−98855A)
【公開日】平成24年5月24日(2012.5.24)
【国際特許分類】
【出願番号】特願2010−245040(P2010−245040)
【出願日】平成22年11月1日(2010.11.1)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.UNIX
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】