説明

プライバシーポリシーを強化するためにコンピュータが実行する方法

【課題】 プライバシーポリシーを強化する。
【解決手段】 トレーニングドキュメントのセットとプライバシーポリシーに関連付けられた少なくとも1つのシードキーワードとを取得し、前記トレーニングドキュメントから多数のキーワード候補を抽出し、前記キーワード候補に基づいて少なくとも1つのクエリーを立て、前記クエリーをコーパスに発し、前記クエリーに応答して、結果ドキュメントのセットを受け取り、該結果ドキュメントから抽出した各キーワードが少なくとも1つのシードキーワードにマッチするかどうかを判定し、前記判定に基づいて各キーワードに対応するキーワード候補をプライバシーポリシーに関連付けることによって、プライバシーポリシーを強化し、強化したプライバシーポリシーを対象ドキュメントに適用し、前記対象ドキュメントがプライバシーポリシーをトリガーするかどうかを示す結果を出す。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インテリジェントデータ処理の設計に関する。より具体的にいうと、本発明は推論検出によってプライバシーポリシーを強化するための方法およびシステムに関する。
【背景技術】
【0002】
インターネットの絶え間ない成長によって、今日ワールドワイドウェブ(ウェブ)は最も大きく最もアクセスしやすい情報のプールとなった。しかし、電子ドキュメントのセキュリティとプライバシーの管理がより困難になったということは決してない。今日では、ネットワーク記憶装置に保存されたファイル、eメールクライアントプログラムによって送受信されたeメール、ウェブサーバーにあるドキュメントといった多くの形式で、情報を電子的に送信したり保存したりすることができる。このようなオンラインリソースが、情報のプライバシーの保護をより難しくしている。
【発明の開示】
【発明が解決しようとする課題】
【0003】
従来のプライバシーポリシーは、一般的に、保護すべきドキュメントの特徴を特定する。例えば、あるプライバシーポリシーはファイル名、数個のキーワードおよび/またはセンシティブなドキュメントのファイルの種類もしくはカテゴリーを特定できる。あるドキュメントまたは任意の形式の電子情報がプライバシー保護の対象となるかどうかを判定する際にシステムが調査できるように、センシティブなキーワード全てを正確に抽出し徹底して列挙することは不可能ではないにしろ非常に難しい。したがって、ドキュメントの題材を説明するために使われている種々のコンテキストや言葉によってあいまいさが生じたり、センシティブなコンテンツが隠されてしまったり、ドキュメントがプライバシー保護から逃れてしまう可能性がある。
【課題を解決するための手段】
【0004】
本発明の1実施形態は、プライバシーポリシー強化システムを提供する。動作時、本システムはトレーニングドキュメントのセットとプライバシーポリシーに関連付けられた少なくとも1つのシードキーワードを取得する。本システムは、トレーニングドキュメントから多数のキーワード候補を抽出し、このキーワード候補に基づいて少なくとも1つのクエリーを立てる。次いで本システムは、このクエリーをコーパスに発する。クエリーに応答して、本システムは結果ドキュメントのセットを受け取る。さらに本システムは、結果ドキュメントから抽出した各キーワードが少なくとも1つのシードキーワードにマッチするかどうかを判定する。そして本システムは、この判定に基づいて各キーワードに対応するキーワード候補をプライバシーポリシーに関連付けることによって、プライバシーポリシーを強化する。さらに本システムは、強化したプライバシーポリシーを対象ドキュメントに適用し、対象ドキュメントがプライバシーポリシーをトリガーするかどうかを示す結果を出す。
【0005】
本発明の1実施形態は、プライバシーポリシー強化システムであって、トレーニングドキュメントのセットとプライバシーポリシーに関連付けられた少なくとも1つのシードキーワードとを取得する手段と、前記トレーニングドキュメントから多数のキーワード候補を抽出する手段と、前記キーワード候補に基づいて少なくとも1つのクエリーを立てる手段と、前記クエリーをコーパスに発する手段と、前記クエリーに応答して、結果ドキュメントのセットを受け取る手段と、前記結果ドキュメントから抽出した各キーワードが少なくとも1つのシードキーワードにマッチするかどうかを判定する手段と、前記判定に基づいて各キーワードに対応するキーワード候補をプライバシーポリシーに関連付けることによって、プライバシーポリシーを強化する手段と、強化したプライバシーポリシーを対象ドキュメントに適用する手段と、前記対象ドキュメントがプライバシーポリシーをトリガーするかどうかを示す結果を出す手段と、を備える。
【0006】
本実施形態の変形例では、本システムは結果ドキュメントのそれぞれに含まれる単語またはフレーズについて用語の出現頻度・ドキュメント逆出現頻度(TF.IDF)の重みを決定することで、結果ドキュメントからキーワードを抽出する。
【0007】
本実施形態の変形例では、強化したプライバシーポリシーを対象ドキュメントに適用するステップは、対象ドキュメントを検索してプライバシーポリシーに関連付けられたキーワード候補のいずれかの出現を探し出すステップを含む。
【0008】
本実施形態の変形例では、本システムはキーワード候補と各シードキーワードとの推論の強さを評価し、キーワード候補が少なくとも1つのシードキーワードにマッチするかどうかを判定する際に評価した強さを使用する。
【0009】
さらなる変形例では、キーワード候補とシードキーワードとの推論の強さを評価するステップは、キーワード候補とシードキーワードの両方を含むクエリーからの検索ヒット数と、キーワード候補のみを含むクエリーからの検索ヒット数との比を評価するステップを含む。
【0010】
本実施形態の変形例では、シードキーワードを取得するステップは、センシティブなトピックに基づくクエリーをコーパスに発し、このクエリーに応答して戻された多数のドキュメントからシードキーワードを抽出するステップを含む。
【0011】
本実施形態の変形例では、トレーニングドキュメントを取得するステップは、センシティブなトピックに基づくクエリーをコーパスに発し、このクエリーに応答して戻された所定数の最高ランクのドキュメントを引き出すステップを含む。
【発明を実施するための最良の形態】
【0012】
一般に組織は、ポリシー施行システムがアクセスや情報のセットの共有を監視したり制御したりするためのプライバシーポリシーのセットを持っている。例えば、ある企業は特定の製品に関連するドキュメントをその企業外の人または特定のグループ外の人と共有しないようにするポリシーを持っているかもしれない。センシティブな情報を含む通信を選別したりブロックしたりするためにプライバシーポリシーを使用することもできる。例えば、企業はある製品に関する一切のファイルをその企業外に送信したり公的にアクセス可能なネットワークドライブ上に保存したりしないようにすることができる。
【0013】
ドキュメントがプライバシーポリシーをトリガーするセンシティブな情報を含むかどうかを識別するというタスクは、非常に難しい。一般的には、ポリシー施行システムがファイル、テキストメッセージ、eメール通信などを検索し、幾つかのキーワード、ファイル名、ファイルの種類を探し出す。しかし、プライバシーポリシーの構築時にポリシー設計者がセンシティブな題材に関するキーワード全てを徹底して特定できるということはありそうにない。最初の「必要最低限の(bare-bones)」プライバシーポリシーは、センシティブな題材に関連する数個のキーワードしか含まないであろう。その結果、幾つかのドキュメントまたは通信がこのような最初に特定されたキーワードのいずれも含んでいないが、センシティブな題材を識別または導出するのに使用されるかもしれない他の言葉を含んでいても、このようなドキュメントまたは通信はプライバシーポリシーを逃れてしまう。
【0014】
例えば、ある組織がオサマビンラディン(Osama Bin Laden)に関するあらゆるテキストドキュメントを監視または選別したいとする。最初にプライバシーポリシーは、直接識別できる情報、例えば「オサマ」、「ビン」、「ラディン」、「OBL」などの単語を含むあらゆるドキュメントまたは通信がプライバシーポリシーをトリガーするであろうと指定する。しかし、ドキュメントが直接識別できる単語を一切含んでいなくても、そのドキュメントはオサマビンラディンに関連すると認識できるのにプライバシーポリシー施行システムにかからないかもしれない。例えば、「イエメン出身のサウジアラビア建設業界の大物の息子(the son of a Saudi construction magnate who came from Yemen)」という言葉を含むドキュメントによって、読者はこのセンテンスの主題はオサマビンラディンであることを容易に推察できる。その理由は、「サウジアラビア建設業界の大物、イエメン」というクエリーの検索でオサマビンラディンに関する多数のヒットが戻されるからである。しかしポリシー施行システムは、このセンテンスのみを含み直接識別できる単語を一切含まないドキュメントを捕獲することができないかもしれない。
【0015】
本発明の実施形態は、推論検出によってプライバシーポリシーを強化するメカニズムを提供しており、そのメカニズムでは、本システムはさらなるキーワードを識別し、これをプライバシーポリシーに関連付ける。その結果、プライバシーポリシーの正確性と強さが著しく向上する。1実施形態では、本システムはセンシティブな題材に関することが分かっているトレーニングドキュメントのセットを受け取る。次いで本システムは、このトレーニングドキュメントの分析を行い、多数のキーワードを抽出し、このキーワードに基づいて検索クエリーを構築する。さらに本システムは、このクエリーをウェブなどのドキュメントのあらゆる集合であるコーパスに発する。これに応答して、本システムは多数のヒットを受け取る。続いて本システムは、このようなヒットを分析し、キーワードのリストを抽出する。そしてこのキーワードをプライバシーポリシーの設計者が提供した幾つかのシードキーワードと比較する。マッチがあれば、これに対応するトレーニングドキュメントのキーワードをプライバシーポリシーに関連付け、対象ドキュメントがセンシティブな情報を含むかどうかを判定するために将来使用することができる。
【0016】
本開示物では、「コーパス」とはドキュメントの集合のことをいう。1実施形態では、コーパスはウェブ上で利用可能なドキュメント全てを含むことができる。コーパスは、製品マニュアル、eメール通信、ファイルサーバーに保存されているファイルといった組織内部のドキュメントのセットでもよい。さらに本システムは、1つまたはそれより多くのコーパスに基づいて作動できる。ここでは、「ドキュメント」はテキストドキュメント、スプレッドシート、プレゼンテーション、画像、ビデオ、音声、マルチメディアなどを含めたあらゆる形式のコンテンツを含むものと理解される。さらに、ドキュメントは紙ベースでも電子的なものでもよい。
【0017】
以下の説明は、推論検出に基づくプライバシーポリシー強化ツールの例示的な動作モデルを示している。このモデルは制限的なものではなく、単なる例示目的のものである。さらに、このモデルを実施する種々の方法が存在する。例えば、本発明の実施形態をコンピュータシステムまたはサーバーファーム、コンピュータ群、分散コンピューティングコラボレーションなどのネットワークコンピュータの集合にわたって実施できる。種々の実施形態をハードウェアおよび/またはソフトウェアでも実施できる。問題の数学的な説明を以下に示す。
【0018】
プライバシーポリシーの施行を考慮している1つまたはそれより多くのドキュメントをCとし、コーパスまたはコーパスの集合をRとする。コーパスが基準ドキュメントの集合であることに注目されたい。例えば、集合Cは企業のイントラネットに保存されている1つまたはそれより多くのドキュメントを含み、集合Rはウェブ上で公的に入手可能なドキュメント全てを含むことができる。
【0019】
プライベートな集合Cから計算可能な知識全てをK(C)とする。セットK(C)は、集合Cに含まれる情報から導出可能なステートメントや事実全てを表している。理論上は、セットK(C)はCの公理が全て与えられれば、完全且つ確かな定理証明器によって計算できる。しかし実際には、このような計算のコストはひどく高い。したがって、本発明の1実施形態はCに含まれる単語のリストである、K(C)の近似的表現を使用する。同様に、参照集合Rから計算可能な知識全てをK(R)とする。
【0020】
プライベートな集合と参照集合との和集合K(C∪R)から抽出された知識がCとRから別々に抽出された知識の和集合K(C)∪K(R)よりも大きい場合に、望ましくない推論(そのドキュメントをプライバシーポリシーの対象とすることはできるがこのポリシーによって捕獲できない)が生じる可能性がある。したがって推論検出とプライバシーポリシー強化の問題は、差δ(C,R)=K(C∪R)−{K(C)∪K(R)}の制御の問題である。
【0021】
例えば、集合Cが「イエメン出身のサウジアラビア建設業界の大物」という言葉を含むが「オサマビンラディン」という明確な単語は一切含まないドキュメントであるとする。さらに、Rがウェブ上で公的に入手可能な情報全てを含むとする。「あるドキュメントがオサマビンラディンに関連する」というステートメントSが正しい場合にトリガーされるプライバシーポリシーをSとする。そのドキュメントが関連する人物のアイデンティティがドキュメントにはっきりと開示されていないため、CのみからステートメントSを導出するのは不可能ではないにしろ非常に難しい。したがって、下記(1)に示す関係となる。CにはあるがRにはないドキュメントに関するステートメントをRのみから導出することはできないため、ステートメントSは明らかにK(R)にもない。したがってSはK(C)∪K(R)に属さない。ただし先に示したように、ステートメントSはK(C∪R)には属する。すなわち、そのドキュメントは「サウジ」、「建設」、「大物」、「イエメン」などのキーワードによって特徴付けられる人物に関連することがCから学習できる。さらに、このようなキーワードが「オサマビンラディン」と密接に関連することがRから学習できる。上に示したように、こういった2つの情報源を組み合わせることでステートメントSがドキュメントCについて高い可能性で正しいことが学習できる。
【数1】

【0022】
プライバシーポリシーを実施する前にδ(C,R)を理解し、このようなプライバシーポリシーの対象となるドキュメントが望ましくない推論を許容しないように保証することがプライバシーポリシー設計者にとって重要である。プライバシーポリシー施行システムは、差δ(C,R)の評価に基づいてドキュメントの通信を抑制または阻止できる。K*で示される、リークしてはいけないセンシティブな知識のセットがはっきりと特定される場合もある。この場合、プライバシーポリシー強化の問題は、積集合δ(C,R)∩K*を空でなくするドキュメントCを選別するために使用可能なキーワードを識別する問題になる。
【0023】
本明細書中の説明では、トレーニングドキュメントCの集合はプライバシーポリシーをトリガーすることが分かっている任意の数のドキュメントを含むことができる。特に、このようなドキュメントはXMLベースのドキュメントなどの構造データに限定されない。1実施形態では、本システムに対して十分な特権を有する管理者またはユーザが、このトレーニングドキュメントの集合を本システムに与えることができる。トレーニングドキュメントは手作業で収集してもよいし、本システムによって参照コーパスから作成してもよい。例えば、本システムはセンシティブな題材を含むクエリーをウェブに発し、多数の最高ランクのドキュメントをトレーニングドキュメントとして収集できる。さらに、集合Rはあらゆるドキュメントのコーパスを含むものとする。1実施形態では、Rはウェブ上で公的に入手可能な情報全てを含む。一般に、推論検出に基づくプライバシーポリシー強化を促進するシステムは以下の動作を実行する。最初に、本システムはトレーニングドキュメントCにあるドキュメントのコンテンツを学習する。次に本システムは、CとRの組み合わせから導出できる推論を決定する。そして本システムは、このような推論をプライバシーポリシーに関連付ける。
【0024】
1実施形態では、Cのトレーニングドキュメントから知識を導出するために、本システムは自動コンテンツ分析を利用し、ドキュメントのキーワードを抽出する。本システムは、テキスト抽出から徹底した言語分析に及ぶあらゆる自然言語処理(NLP)ツールを使用できる。1実施形態では、本システムは「用語の出現頻度・ドキュメントの逆出現頻度」(TF.IDF)分析に基づいてキーワードを選択する。本開示物で使用している用語「キーワード」は1つの単語に限定されず、複数の単語、フレーズ、略語、同義語、または言語記号の任意の組み合わせを含んでもよいことに注目されたい。
【0025】
TF.IDF分析では、本システムはトレーニングドキュメントの各単語にTF.IDFの重みを割り当てる。本システムは、統計的尺度であるこの重みを使用し、その単語があるコーパスのドキュメントにとってどの程度重要かを評価する。単語の重要性は、その単語がドキュメントに登場する回数に比例して高まるが、コーパスにおける用語の出現頻度によって弱められる。例えば、所与のドキュメントに対する単語iのTF.IDFの重み(tiで示す)は以下のように計算できる。
【0026】
【数2】

【0027】
式(2)において、用語の出現頻度(下記(3))はドキュメントにおける単語出現全てによって正規化された、ドキュメントにおけるtiの出現回数である。ドキュメントの逆出現頻度(下記(4))は、その単語の一般的な重要性の尺度であり、コーパス内の全てのドキュメント数を単語tiを含むドキュメントの数で割った商の対数として計算される。
【数3】

【数4】

【0028】
TF.IDFの重みを計算するための式(2)は、TF.IDF定義のほんの一例である。種々のアプリケーションに対して、種々のTF.IDF定義を採用できる。さらに、本発明の実施形態はドキュメントから知識を導出するために他の言語分析法も使用できる。
【0029】
CとRの組み合わせから導出できる推論を決定するために、本システムは既に抽出されているキーワードのサブセットにマッチするドキュメントの検索クエリーを発する。本システムは、このようなクエリーをパブリックウェブまたは内部ドキュメントの集合といった参照コーパスR内に発する。そして本システムは、その検索クエリーが戻したドキュメント(すなわち、「ヒット」)を元のトレーニングドキュメント(単数または複数)にないキーワードについて分析する。このような追加のキーワードに基づいて、本システムはトレーニングドキュメント(単数または複数)から抽出されたキーワードによって導出できる幾つかの推論の可能性を自動的に評価できる。1実施形態では、危険な可能性のある推論にフラグを立て、手作業で再検討する。そして本システムは、望ましくない推論を生じさせるキーワードをプライバシーポリシーに関連付けることで、そのプライバシーポリシーの施行をより正確且つ確固たるものにできる。
【0030】
図1は、本発明の1実施形態に係るプライバシーポリシー強化システムの例示的なブロック図を示す。このシステムは、まずプライバシーポリシー100と、プライバシーポリシー100をトリガーするであろうと見込まれたトレーニングドキュメントと見なされる既知のセンシティブなドキュメントのセット102とを受け取る。1実施形態では、このシステムはトレーニングドキュメント102にNLP分析104を適用する。これに応答して、本システムはプライベートドキュメント102について知識表現のセット106を取得する。1実施形態では、本システムはTF.IDF分析をトレーニングドキュメント102に対して行い、所定数の最高ランクのキーワード106を取得する。
【0031】
抽出されたキーワード106に基づき、本システムは多数のクエリー110を立て、これらのクエリーを検索エンジン112に発する。検索エンジン112は、基準ドキュメントのセット(コーパス)108に対して検索を行う。1実施形態ではコーパス108はウェブ上で公開されている情報全てを含むが、コーパス108は他の形式の媒体も含むことができることに注目されたい。例えば、コーパス108は公の裁判所の文書全て、カルテ、図書館の全ての本でもよい。コーパス108は、公的に入手できない内部文書のコレクションを含んでもよい。
【0032】
検索エンジン112は、多数のヒット114を戻す。本システムはヒットの分析116を行い、分析結果とシードキーワードのセット106とを比較する。1実施形態では、本システムは所定数の最高ランクのヒットの中の戻されたヒットドキュメントそれぞれに対してTF.IDF分析を実行し、分析したヒットドキュメントそれぞれについて所定数の最高ランクのキーワードを抽出する。そして、本システムはヒットドキュメントの各キーワードとシードキーワード106とを比較し、マッチするヒットドキュメントにフラグを立てる。マッチがある場合、本システムはキーワード106中の対応するキーワードをセンシティブな単語としてフラグを立てる。全てのキーワード106についてこのようにすることで、本システムはプライバシーポリシー100に関連し得る多数のセンシティブな単語108を識別できる。
【0033】
ここで説明するプライバシーポリシー強化システムは、本発明の1実施形態しか示していない。広範囲に及ぶNLPツールを一般的なプライバシーポリシー強化モデルに組み込むことができ、ほぼ同様の結果を得ることができる。以下のセクションでは、プライバシーポリシーの強化のための一般的な推論検出モデルの入力、出力、パラメータについて説明する。
【0034】
入力:トレーニングドキュメントの集合C={C1,...,Cn}と、基準ドキュメントの集合Rと、センシティブな知識を表すシードキーワードのリストK*である。
【0035】
出力:CとRの和集合から導出できるセンシティブな単語のリストLである。センシティブな単語はそれぞれ、少なくとも1つのシードキーワードから導出され得るある推論に対応する。システムの出力が、センシティブな情報を含むドキュメントを識別するプライバシーポリシーを強化するために使用可能なセンシティブな単語のリストであることに注目されたい。本システムは、センシティブな推論を検出できなければ、空のリストを戻す。
【0036】
パラメータ:このプライバシーポリシー強化モデルは、4つのパラメータによってパラメータ化されている。パラメータαは、CのドキュメントのNLP分析の深度を制御する。パラメータβとγは、Cに関連するR内のドキュメントの検索深度を制御する。パラメータδは、検索エンジンによって引き出されたドキュメント、すなわちヒットドキュメントのNLP分析の深度を制御する。1実施形態では、α、β、γ、δの値は全て正の整数である。モデルの実行時間と推論検出の完全性および品質との種々のトレードオフを得るために、このようなパラメータを調節可能である。
【0037】
本システムは、以下の段階を踏んでプライバシーポリシー強化モデルを実装し、実行する。
【0038】
トレーニングドキュメントC内のドキュメントの理解:本システムはTF.IDF分析を行い、集合C内の各ドキュメントCiからCiを最も代表する上位α個のキーワードを抽出する。ドキュメントCiから抽出された上位α個のキーワードのセットをSiとする。
【0039】
推論検出:センシティブな単語のリストLは、最初は空である。本システムは、サイズ│C’│≦βのサブセットC’⊆Cごとに順に検討する。このような各サブセットC’=(Ci1,...,Cik)(k≦β)について、本システムは以下の動作を実行する。カルテシアン積Si1×...×Sikにおけるキーワード(Wi1,...,Wik)の各ベクトルについて、以下を実行する。
1. 本システムは検索エンジンを使用し、基準ドキュメントの集合Rからキーワード(Wi1,...,Wik)全てを含む上位γ個のドキュメントを引き出す。
2. TF.IDF分析によって、本システムはこのγ個のドキュメントの集合から上位δ個のキーワードを抽出する。1実施形態では、このようなキーワードは個々のドキュメントから抽出されるのではなく、全てのドキュメントが単一の大きなドキュメントへと連結されているかのように、γ個のドキュメントを集めた集合から抽出される。
3. 動作2から取得したδ個のキーワードとシードキーワードのセットK*との積集合をW*とする。W*が空でなければ、本システムはキーワードベクトル(Wi1,...,Wik)をLに追加する。そして本システムは、リストLを出力し、終了する。
【0040】
さらに本システムは、リストLの取得後に、さらなるクエリーを使用してトレーニングドキュメント内の識別されたキーワード候補(単数または複数)とシードキーワードとの間の推論の強さを測定、すなわちランク付けできる。1実施形態では、本システムはセンシティブなヒットの比率を計算し、これは1実施形態ではキーワード候補(単数または複数)のみを含むクエリーからの検索ヒット数に対するキーワード候補(単数または複数)とシードキーワードの両方を含むクエリーからの検索ヒット数として定義される。そして本システムはトレーニングドキュメントのキーワードを推論の強さに応じてランク付けする。例えば、「ナルトレキソン」という単語を使用して「アルコール中毒者」を推察できる可能性を評価するために、本システムは「ナルトレキソン」について第1のクエリーを発してx個のドキュメントを引き出し、「ナルトレキソンアルコール依存症」について第2のクエリーを発してy個のドキュメントを引き出すことができる。そして本システムは、比率y/xを計算できる。この比率が極めて1に近ければ、ナルトレキソンをアルコール依存症に関連する全てのドキュメントを選別するように設計されたプライバシーポリシーに関連付けられると判断できるかもしれない。
【0041】
本システムが推論を識別するために上述のセンシティブなヒットの比率の計算方法をアドオンではなくメインアプローチとして使用することもできることに注目されたい。1実施形態では、本システムはまずNLPツールを使用してトレーニングドキュメントのセットからキーワードを抽出する。トレーニングドキュメントから抽出された各キーワードについて、本システムはシードキーワードそれぞれに対して抽出された各キーワードのセンシティブなヒットの比率を計算する。抽出されたキーワードとシードキーワードとのセンシティブなヒットの比率が所与の閾値よりも大きければ、本システムは抽出されたキーワードを対応するプライバシーポリシーに関連付けられるセンシティブな単語として識別する。さらに、本システムはシードキーワードまたはキーフレーズのセットを受け取ることもでき、抽出されたキーワードは1つまたはそれより多くのマルチワード(複数の単語からなる)フレーズを含んでもよい。例えば、本システムは「充血した目(blood shot eyes)」、「記憶喪失(memory loss)」「肝疾患(liver disease)」という3つのフレーズを抽出し、「アルコール依存症」、「アルコール」、「アルコール中毒者」、「酔っ払い(drunk)」、「飲酒(drinking)」といったアルコール依存症に関連するセンシティブな単語についてセンシティブなヒットの比率を計算できる。センシティブなヒットの比率を計算するために、本システムはまず「充血した目、記憶喪失、肝疾患」についてクエリーを発し、次いで「充血した目、記憶喪失、肝疾患AND(アルコール依存症ORアルコールORアルコール中毒者OR酔っ払いOR飲酒)」についてクエリーを発する。そして本システムは、第1のクエリーが戻したヒット数に対する第2のクエリーが戻したヒット数の比率を計算する。一般に、本システムはクエリーを作成する際に任意の数の抽出された単語またはフレーズを組み合わせることができる。
【0042】
上述のプライバシーポリシー強化モデルを種々のアプリケーションに合わせて調整できる。
【0043】
幾つかの実施形態では、本システムは多数のキーワードに基づいてクエリーを立てる際にあらゆる所与の論理関係を利用できる。ここに説明する例はスペースで区切られた(space-separated)キーワードを含むクエリーに基づいているが、本システムはブール式のクエリーも採用できる。例えば、本システムはキーワードの間に「AND」や「OR」を挿入できる。高度な検索エンジンを使えば、本システムは、例えばある数のパラグラフ内、センテンス内、単語内といったようにキーワードがどのようにドキュメントに現れるかを特定することもできる。さらに本システムは、キーワードを分析しその分析に基づいてクエリーを立てることもできる。例えば、2つのキーワードが同義語であるかまたは密接に関連するとシステムが判定したならば、このシステムはクエリーを立てる際にこれらのキーワードの間に「OR」をオプションで挿入することができる。
【0044】
さらなる実施形態では、本システムはテストされるドキュメントに応じて異なるコーパスを賢明に選択できる。本システムは、意図する視聴者に基づいてコーパスを選択することもできる。
【0045】
上述のモデルは、センシティブな知識K*がシードキーワードのセットとして与えられることを想定している。センシティブな知識の他の表現も可能である。1実施形態では、センシティブな知識はシードキーワードのリストではなくアルコール依存症または性感染症といった1単語のみを含むトピックに基づいてもよい。このようなケースを扱うために、本システムはセンシティブなトピックをシードキーワードのリストに変換する前処理動作を実行する。これを行う一つの方法として、センシティブなトピックを含む参照集合Rのドキュメントについて検索クエリーを発し、TF.IDF分析を使用してこのようなドキュメントからセンシティブなトピックについてのシードキーワードの拡張セットを抽出するという方法がある。
【0046】
図2は、本発明の1実施形態に係るプライバシーポリシー強化プロセスを示す例示的なフローチャートである。動作時、本システムはプライバシーポリシー、トレーニングドキュメントのセット、シードキーワードのセットを受け取る(動作202)。本システムはこのトレーニングドキュメントを分析してキーワードを抽出し(動作204)、これに対応する検索クエリーを作成する(動作206)。検索エンジンはこのクエリーに基づいてウェブ(または別の種類のコーパス)上で検索を実行し、多数のヒットを戻す(動作208)。
【0047】
引き続き本システムはNLP技術を使用して検索エンジンが戻したヒットを分析し(動作210)、このヒットからキーワードを抽出する(動作212)。次いで本システムは、ヒットから抽出したキーワードがシードキーワードのいずれかにマッチするかどうかを判定する(動作214)。もしマッチするならば、本システムは動作204で得た対応するキーワードをセンシティブな単語のリストに追加する(動作216)。マッチしなければ(もしくは動作216が終了すると)、本システムはヒットから抽出した全てのキーワードをシードキーワードと比較したかどうかの判定に進む(動作218)。判定が否定されると、本システムは動作214に戻る。判定が肯定されると、本システムはセンシティブな単語のリストを戻し、このセンシティブな単語をプライバシーポリシーに関連付ける(動作220)。
【0048】
図3は、本発明の1実施形態に係るプライバシーポリシーの強化および実行のためのコンピュータシステムを示す。コンピュータシステム302は、プロセッサ304、メモリ306、記憶装置308を含む。コンピュータシステム302は、ディスプレイ314、キーボード310、ポインティングデバイス312に接続もしている。記憶装置308は、プライバシーポリシー強化アプリケーション316とアプリケーション320、322を保存している。さらに、プライバシーポリシー強化アプリケーション316は、プライバシーポリシー強化プロセス時にドキュメントからのキーワードの抽出を行うTF.IDF分析モジュール318を含む。動作時、プライバシーポリシー強化アプリケーション316はメモリ306にロードされ、プロセッサ304によって実行される。コンピュータシステム302をインターネットに接続することで別個の検索エンジンによってウェブ検索を行えることに注目されたい。
【図面の簡単な説明】
【0049】
【図1】本発明の1実施形態に係るプライバシーポリシー強化システムの例示的なブロック図である。
【図2】本発明の1実施形態に係るプライバシーポリシー強化プロセスを示す例示的なフローチャートである。
【図3】本発明の1実施形態に係るプライバシーポリシーの強化および実行のためのコンピュータシステムを示す。
【符号の説明】
【0050】
100 プライバシーポリシー
106 キーワード
108 コーパス
112 検索エンジン

【特許請求の範囲】
【請求項1】
プライバシーポリシーを強化するためにコンピュータが実行する方法であって、
トレーニングドキュメントのセットとプライバシーポリシーに関連付けられた少なくとも1つのシードキーワードとを取得し、
前記トレーニングドキュメントから多数のキーワード候補を抽出し、
前記キーワード候補に基づいて少なくとも1つのクエリーを立て、
前記クエリーをコーパスに発し、
前記クエリーに応答して、結果ドキュメントのセットを受け取り、
前記結果ドキュメントから抽出した各キーワードが少なくとも1つのシードキーワードにマッチするかどうかを判定し、
前記判定に基づいて各キーワードに対応するキーワード候補をプライバシーポリシーに関連付けることによって、プライバシーポリシーを強化し、
強化したプライバシーポリシーを対象ドキュメントに適用し、
前記対象ドキュメントがプライバシーポリシーをトリガーするかどうかを示す結果を出す、
方法。
【請求項2】
結果ドキュメントそれぞれに含まれる単語またはフレーズについて用語の出現頻度・ドキュメントの逆出現頻度(TF.IDF)の重みを決定することで、前記結果ドキュメントからキーワードを抽出する、ことをさらに含む、請求項1記載の方法。
【請求項3】
前記強化したプライバシーポリシーを対象ドキュメントに適用することが、
前記対象ドキュメントを検索してプライバシーポリシーに関連付けられたキーワード候補のいずれかの出現を探し出す、
ことを含む、請求項1記載の方法。
【請求項4】
キーワード候補と各シードキーワードとの推論の強さを評価し、
キーワード候補が少なくとも1つのシードキーワードにマッチするかどうかを判定する際に評価した強さを使用する、
ことをさらに含む、請求項1記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2009−134714(P2009−134714A)
【公開日】平成21年6月18日(2009.6.18)
【国際特許分類】
【出願番号】特願2008−286373(P2008−286373)
【出願日】平成20年11月7日(2008.11.7)
【出願人】(502096543)パロ・アルト・リサーチ・センター・インコーポレーテッド (393)
【氏名又は名称原語表記】Palo Alto Research Center Incorporated
【Fターム(参考)】