プライバシーポリシーを強化するためにコンピュータが実行する方法

【課題】プライバシーポリシーを強化する。
【解決手段】トレーニングドキュメントのセットとプライバシーポリシーに関連付けられた少なくとも１つのシードキーワードとを取得し、前記トレーニングドキュメントから多数のキーワード候補を抽出し、前記キーワード候補に基づいて少なくとも１つのクエリーを立て、前記クエリーをコーパスに発し、前記クエリーに応答して、結果ドキュメントのセットを受け取り、該結果ドキュメントから抽出した各キーワードが少なくとも１つのシードキーワードにマッチするかどうかを判定し、前記判定に基づいて各キーワードに対応するキーワード候補をプライバシーポリシーに関連付けることによって、プライバシーポリシーを強化し、強化したプライバシーポリシーを対象ドキュメントに適用し、前記対象ドキュメントがプライバシーポリシーをトリガーするかどうかを示す結果を出す。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、インテリジェントデータ処理の設計に関する。より具体的にいうと、本発明は推論検出によってプライバシーポリシーを強化するための方法およびシステムに関する。
【背景技術】
【０００２】
インターネットの絶え間ない成長によって、今日ワールドワイドウェブ（ウェブ）は最も大きく最もアクセスしやすい情報のプールとなった。しかし、電子ドキュメントのセキュリティとプライバシーの管理がより困難になったということは決してない。今日では、ネットワーク記憶装置に保存されたファイル、ｅメールクライアントプログラムによって送受信されたｅメール、ウェブサーバーにあるドキュメントといった多くの形式で、情報を電子的に送信したり保存したりすることができる。このようなオンラインリソースが、情報のプライバシーの保護をより難しくしている。
【発明の開示】
【発明が解決しようとする課題】
【０００３】
従来のプライバシーポリシーは、一般的に、保護すべきドキュメントの特徴を特定する。例えば、あるプライバシーポリシーはファイル名、数個のキーワードおよび／またはセンシティブなドキュメントのファイルの種類もしくはカテゴリーを特定できる。あるドキュメントまたは任意の形式の電子情報がプライバシー保護の対象となるかどうかを判定する際にシステムが調査できるように、センシティブなキーワード全てを正確に抽出し徹底して列挙することは不可能ではないにしろ非常に難しい。したがって、ドキュメントの題材を説明するために使われている種々のコンテキストや言葉によってあいまいさが生じたり、センシティブなコンテンツが隠されてしまったり、ドキュメントがプライバシー保護から逃れてしまう可能性がある。
【課題を解決するための手段】
【０００４】
本発明の１実施形態は、プライバシーポリシー強化システムを提供する。動作時、本システムはトレーニングドキュメントのセットとプライバシーポリシーに関連付けられた少なくとも１つのシードキーワードを取得する。本システムは、トレーニングドキュメントから多数のキーワード候補を抽出し、このキーワード候補に基づいて少なくとも１つのクエリーを立てる。次いで本システムは、このクエリーをコーパスに発する。クエリーに応答して、本システムは結果ドキュメントのセットを受け取る。さらに本システムは、結果ドキュメントから抽出した各キーワードが少なくとも１つのシードキーワードにマッチするかどうかを判定する。そして本システムは、この判定に基づいて各キーワードに対応するキーワード候補をプライバシーポリシーに関連付けることによって、プライバシーポリシーを強化する。さらに本システムは、強化したプライバシーポリシーを対象ドキュメントに適用し、対象ドキュメントがプライバシーポリシーをトリガーするかどうかを示す結果を出す。
【０００５】
本発明の１実施形態は、プライバシーポリシー強化システムであって、トレーニングドキュメントのセットとプライバシーポリシーに関連付けられた少なくとも１つのシードキーワードとを取得する手段と、前記トレーニングドキュメントから多数のキーワード候補を抽出する手段と、前記キーワード候補に基づいて少なくとも１つのクエリーを立てる手段と、前記クエリーをコーパスに発する手段と、前記クエリーに応答して、結果ドキュメントのセットを受け取る手段と、前記結果ドキュメントから抽出した各キーワードが少なくとも１つのシードキーワードにマッチするかどうかを判定する手段と、前記判定に基づいて各キーワードに対応するキーワード候補をプライバシーポリシーに関連付けることによって、プライバシーポリシーを強化する手段と、強化したプライバシーポリシーを対象ドキュメントに適用する手段と、前記対象ドキュメントがプライバシーポリシーをトリガーするかどうかを示す結果を出す手段と、を備える。
【０００６】
本実施形態の変形例では、本システムは結果ドキュメントのそれぞれに含まれる単語またはフレーズについて用語の出現頻度・ドキュメント逆出現頻度（ＴＦ．ＩＤＦ）の重みを決定することで、結果ドキュメントからキーワードを抽出する。
【０００７】
本実施形態の変形例では、強化したプライバシーポリシーを対象ドキュメントに適用するステップは、対象ドキュメントを検索してプライバシーポリシーに関連付けられたキーワード候補のいずれかの出現を探し出すステップを含む。
【０００８】
本実施形態の変形例では、本システムはキーワード候補と各シードキーワードとの推論の強さを評価し、キーワード候補が少なくとも１つのシードキーワードにマッチするかどうかを判定する際に評価した強さを使用する。
【０００９】
さらなる変形例では、キーワード候補とシードキーワードとの推論の強さを評価するステップは、キーワード候補とシードキーワードの両方を含むクエリーからの検索ヒット数と、キーワード候補のみを含むクエリーからの検索ヒット数との比を評価するステップを含む。
【００１０】
本実施形態の変形例では、シードキーワードを取得するステップは、センシティブなトピックに基づくクエリーをコーパスに発し、このクエリーに応答して戻された多数のドキュメントからシードキーワードを抽出するステップを含む。
【００１１】
本実施形態の変形例では、トレーニングドキュメントを取得するステップは、センシティブなトピックに基づくクエリーをコーパスに発し、このクエリーに応答して戻された所定数の最高ランクのドキュメントを引き出すステップを含む。
【発明を実施するための最良の形態】
【００１２】
一般に組織は、ポリシー施行システムがアクセスや情報のセットの共有を監視したり制御したりするためのプライバシーポリシーのセットを持っている。例えば、ある企業は特定の製品に関連するドキュメントをその企業外の人または特定のグループ外の人と共有しないようにするポリシーを持っているかもしれない。センシティブな情報を含む通信を選別したりブロックしたりするためにプライバシーポリシーを使用することもできる。例えば、企業はある製品に関する一切のファイルをその企業外に送信したり公的にアクセス可能なネットワークドライブ上に保存したりしないようにすることができる。
【００１３】
ドキュメントがプライバシーポリシーをトリガーするセンシティブな情報を含むかどうかを識別するというタスクは、非常に難しい。一般的には、ポリシー施行システムがファイル、テキストメッセージ、ｅメール通信などを検索し、幾つかのキーワード、ファイル名、ファイルの種類を探し出す。しかし、プライバシーポリシーの構築時にポリシー設計者がセンシティブな題材に関するキーワード全てを徹底して特定できるということはありそうにない。最初の「必要最低限の（bare-bones）」プライバシーポリシーは、センシティブな題材に関連する数個のキーワードしか含まないであろう。その結果、幾つかのドキュメントまたは通信がこのような最初に特定されたキーワードのいずれも含んでいないが、センシティブな題材を識別または導出するのに使用されるかもしれない他の言葉を含んでいても、このようなドキュメントまたは通信はプライバシーポリシーを逃れてしまう。
【００１４】
例えば、ある組織がオサマビンラディン（Osama Bin Laden）に関するあらゆるテキストドキュメントを監視または選別したいとする。最初にプライバシーポリシーは、直接識別できる情報、例えば「オサマ」、「ビン」、「ラディン」、「ＯＢＬ」などの単語を含むあらゆるドキュメントまたは通信がプライバシーポリシーをトリガーするであろうと指定する。しかし、ドキュメントが直接識別できる単語を一切含んでいなくても、そのドキュメントはオサマビンラディンに関連すると認識できるのにプライバシーポリシー施行システムにかからないかもしれない。例えば、「イエメン出身のサウジアラビア建設業界の大物の息子（the son of a Saudi construction magnate who came from Yemen）」という言葉を含むドキュメントによって、読者はこのセンテンスの主題はオサマビンラディンであることを容易に推察できる。その理由は、「サウジアラビア建設業界の大物、イエメン」というクエリーの検索でオサマビンラディンに関する多数のヒットが戻されるからである。しかしポリシー施行システムは、このセンテンスのみを含み直接識別できる単語を一切含まないドキュメントを捕獲することができないかもしれない。
【００１５】
本発明の実施形態は、推論検出によってプライバシーポリシーを強化するメカニズムを提供しており、そのメカニズムでは、本システムはさらなるキーワードを識別し、これをプライバシーポリシーに関連付ける。その結果、プライバシーポリシーの正確性と強さが著しく向上する。１実施形態では、本システムはセンシティブな題材に関することが分かっているトレーニングドキュメントのセットを受け取る。次いで本システムは、このトレーニングドキュメントの分析を行い、多数のキーワードを抽出し、このキーワードに基づいて検索クエリーを構築する。さらに本システムは、このクエリーをウェブなどのドキュメントのあらゆる集合であるコーパスに発する。これに応答して、本システムは多数のヒットを受け取る。続いて本システムは、このようなヒットを分析し、キーワードのリストを抽出する。そしてこのキーワードをプライバシーポリシーの設計者が提供した幾つかのシードキーワードと比較する。マッチがあれば、これに対応するトレーニングドキュメントのキーワードをプライバシーポリシーに関連付け、対象ドキュメントがセンシティブな情報を含むかどうかを判定するために将来使用することができる。
【００１６】
本開示物では、「コーパス」とはドキュメントの集合のことをいう。１実施形態では、コーパスはウェブ上で利用可能なドキュメント全てを含むことができる。コーパスは、製品マニュアル、ｅメール通信、ファイルサーバーに保存されているファイルといった組織内部のドキュメントのセットでもよい。さらに本システムは、１つまたはそれより多くのコーパスに基づいて作動できる。ここでは、「ドキュメント」はテキストドキュメント、スプレッドシート、プレゼンテーション、画像、ビデオ、音声、マルチメディアなどを含めたあらゆる形式のコンテンツを含むものと理解される。さらに、ドキュメントは紙ベースでも電子的なものでもよい。
【００１７】
以下の説明は、推論検出に基づくプライバシーポリシー強化ツールの例示的な動作モデルを示している。このモデルは制限的なものではなく、単なる例示目的のものである。さらに、このモデルを実施する種々の方法が存在する。例えば、本発明の実施形態をコンピュータシステムまたはサーバーファーム、コンピュータ群、分散コンピューティングコラボレーションなどのネットワークコンピュータの集合にわたって実施できる。種々の実施形態をハードウェアおよび／またはソフトウェアでも実施できる。問題の数学的な説明を以下に示す。
【００１８】
プライバシーポリシーの施行を考慮している１つまたはそれより多くのドキュメントをＣとし、コーパスまたはコーパスの集合をＲとする。コーパスが基準ドキュメントの集合であることに注目されたい。例えば、集合Ｃは企業のイントラネットに保存されている１つまたはそれより多くのドキュメントを含み、集合Ｒはウェブ上で公的に入手可能なドキュメント全てを含むことができる。
【００１９】
プライベートな集合Ｃから計算可能な知識全てをＫ（Ｃ）とする。セットＫ（Ｃ）は、集合Ｃに含まれる情報から導出可能なステートメントや事実全てを表している。理論上は、セットＫ（Ｃ）はＣの公理が全て与えられれば、完全且つ確かな定理証明器によって計算できる。しかし実際には、このような計算のコストはひどく高い。したがって、本発明の１実施形態はＣに含まれる単語のリストである、Ｋ（Ｃ）の近似的表現を使用する。同様に、参照集合Ｒから計算可能な知識全てをＫ（Ｒ）とする。
【００２０】
プライベートな集合と参照集合との和集合Ｋ（Ｃ∪Ｒ）から抽出された知識がＣとＲから別々に抽出された知識の和集合Ｋ（Ｃ）∪Ｋ（Ｒ）よりも大きい場合に、望ましくない推論（そのドキュメントをプライバシーポリシーの対象とすることはできるがこのポリシーによって捕獲できない）が生じる可能性がある。したがって推論検出とプライバシーポリシー強化の問題は、差δ（Ｃ，Ｒ）＝Ｋ（Ｃ∪Ｒ）−｛Ｋ（Ｃ）∪Ｋ（Ｒ）｝の制御の問題である。
【００２１】
例えば、集合Ｃが「イエメン出身のサウジアラビア建設業界の大物」という言葉を含むが「オサマビンラディン」という明確な単語は一切含まないドキュメントであるとする。さらに、Ｒがウェブ上で公的に入手可能な情報全てを含むとする。「あるドキュメントがオサマビンラディンに関連する」というステートメントＳが正しい場合にトリガーされるプライバシーポリシーをＳとする。そのドキュメントが関連する人物のアイデンティティがドキュメントにはっきりと開示されていないため、ＣのみからステートメントＳを導出するのは不可能ではないにしろ非常に難しい。したがって、下記（１）に示す関係となる。ＣにはあるがＲにはないドキュメントに関するステートメントをＲのみから導出することはできないため、ステートメントＳは明らかにＫ（Ｒ）にもない。したがってＳはＫ（Ｃ）∪Ｋ（Ｒ）に属さない。ただし先に示したように、ステートメントＳはＫ（Ｃ∪Ｒ）には属する。すなわち、そのドキュメントは「サウジ」、「建設」、「大物」、「イエメン」などのキーワードによって特徴付けられる人物に関連することがＣから学習できる。さらに、このようなキーワードが「オサマビンラディン」と密接に関連することがＲから学習できる。上に示したように、こういった２つの情報源を組み合わせることでステートメントＳがドキュメントＣについて高い可能性で正しいことが学習できる。
【数１】

【００２２】
プライバシーポリシーを実施する前にδ（Ｃ，Ｒ）を理解し、このようなプライバシーポリシーの対象となるドキュメントが望ましくない推論を許容しないように保証することがプライバシーポリシー設計者にとって重要である。プライバシーポリシー施行システムは、差δ（Ｃ，Ｒ）の評価に基づいてドキュメントの通信を抑制または阻止できる。Ｋ＊で示される、リークしてはいけないセンシティブな知識のセットがはっきりと特定される場合もある。この場合、プライバシーポリシー強化の問題は、積集合δ（Ｃ，Ｒ）∩Ｋ＊を空でなくするドキュメントＣを選別するために使用可能なキーワードを識別する問題になる。
【００２３】
本明細書中の説明では、トレーニングドキュメントＣの集合はプライバシーポリシーをトリガーすることが分かっている任意の数のドキュメントを含むことができる。特に、このようなドキュメントはＸＭＬベースのドキュメントなどの構造データに限定されない。１実施形態では、本システムに対して十分な特権を有する管理者またはユーザが、このトレーニングドキュメントの集合を本システムに与えることができる。トレーニングドキュメントは手作業で収集してもよいし、本システムによって参照コーパスから作成してもよい。例えば、本システムはセンシティブな題材を含むクエリーをウェブに発し、多数の最高ランクのドキュメントをトレーニングドキュメントとして収集できる。さらに、集合Ｒはあらゆるドキュメントのコーパスを含むものとする。１実施形態では、Ｒはウェブ上で公的に入手可能な情報全てを含む。一般に、推論検出に基づくプライバシーポリシー強化を促進するシステムは以下の動作を実行する。最初に、本システムはトレーニングドキュメントＣにあるドキュメントのコンテンツを学習する。次に本システムは、ＣとＲの組み合わせから導出できる推論を決定する。そして本システムは、このような推論をプライバシーポリシーに関連付ける。
【００２４】
１実施形態では、Ｃのトレーニングドキュメントから知識を導出するために、本システムは自動コンテンツ分析を利用し、ドキュメントのキーワードを抽出する。本システムは、テキスト抽出から徹底した言語分析に及ぶあらゆる自然言語処理（ＮＬＰ）ツールを使用できる。１実施形態では、本システムは「用語の出現頻度・ドキュメントの逆出現頻度」（ＴＦ．ＩＤＦ）分析に基づいてキーワードを選択する。本開示物で使用している用語「キーワード」は１つの単語に限定されず、複数の単語、フレーズ、略語、同義語、または言語記号の任意の組み合わせを含んでもよいことに注目されたい。
【００２５】
ＴＦ．ＩＤＦ分析では、本システムはトレーニングドキュメントの各単語にＴＦ．ＩＤＦの重みを割り当てる。本システムは、統計的尺度であるこの重みを使用し、その単語があるコーパスのドキュメントにとってどの程度重要かを評価する。単語の重要性は、その単語がドキュメントに登場する回数に比例して高まるが、コーパスにおける用語の出現頻度によって弱められる。例えば、所与のドキュメントに対する単語ｉのＴＦ．ＩＤＦの重み（ｔ_iで示す）は以下のように計算できる。
【００２６】
【数２】

【００２７】
式（２）において、用語の出現頻度（下記（３））はドキュメントにおける単語出現全てによって正規化された、ドキュメントにおけるｔ_iの出現回数である。ドキュメントの逆出現頻度（下記（４））は、その単語の一般的な重要性の尺度であり、コーパス内の全てのドキュメント数を単語ｔ_iを含むドキュメントの数で割った商の対数として計算される。
【数３】

【数４】

【００２８】
ＴＦ．ＩＤＦの重みを計算するための式（２）は、ＴＦ．ＩＤＦ定義のほんの一例である。種々のアプリケーションに対して、種々のＴＦ．ＩＤＦ定義を採用できる。さらに、本発明の実施形態はドキュメントから知識を導出するために他の言語分析法も使用できる。
【００２９】
ＣとＲの組み合わせから導出できる推論を決定するために、本システムは既に抽出されているキーワードのサブセットにマッチするドキュメントの検索クエリーを発する。本システムは、このようなクエリーをパブリックウェブまたは内部ドキュメントの集合といった参照コーパスＲ内に発する。そして本システムは、その検索クエリーが戻したドキュメント（すなわち、「ヒット」）を元のトレーニングドキュメント（単数または複数）にないキーワードについて分析する。このような追加のキーワードに基づいて、本システムはトレーニングドキュメント（単数または複数）から抽出されたキーワードによって導出できる幾つかの推論の可能性を自動的に評価できる。１実施形態では、危険な可能性のある推論にフラグを立て、手作業で再検討する。そして本システムは、望ましくない推論を生じさせるキーワードをプライバシーポリシーに関連付けることで、そのプライバシーポリシーの施行をより正確且つ確固たるものにできる。
【００３０】
図１は、本発明の１実施形態に係るプライバシーポリシー強化システムの例示的なブロック図を示す。このシステムは、まずプライバシーポリシー１００と、プライバシーポリシー１００をトリガーするであろうと見込まれたトレーニングドキュメントと見なされる既知のセンシティブなドキュメントのセット１０２とを受け取る。１実施形態では、このシステムはトレーニングドキュメント１０２にＮＬＰ分析１０４を適用する。これに応答して、本システムはプライベートドキュメント１０２について知識表現のセット１０６を取得する。１実施形態では、本システムはＴＦ．ＩＤＦ分析をトレーニングドキュメント１０２に対して行い、所定数の最高ランクのキーワード１０６を取得する。
【００３１】
抽出されたキーワード１０６に基づき、本システムは多数のクエリー１１０を立て、これらのクエリーを検索エンジン１１２に発する。検索エンジン１１２は、基準ドキュメントのセット（コーパス）１０８に対して検索を行う。１実施形態ではコーパス１０８はウェブ上で公開されている情報全てを含むが、コーパス１０８は他の形式の媒体も含むことができることに注目されたい。例えば、コーパス１０８は公の裁判所の文書全て、カルテ、図書館の全ての本でもよい。コーパス１０８は、公的に入手できない内部文書のコレクションを含んでもよい。
【００３２】
検索エンジン１１２は、多数のヒット１１４を戻す。本システムはヒットの分析１１６を行い、分析結果とシードキーワードのセット１０６とを比較する。１実施形態では、本システムは所定数の最高ランクのヒットの中の戻されたヒットドキュメントそれぞれに対してＴＦ．ＩＤＦ分析を実行し、分析したヒットドキュメントそれぞれについて所定数の最高ランクのキーワードを抽出する。そして、本システムはヒットドキュメントの各キーワードとシードキーワード１０６とを比較し、マッチするヒットドキュメントにフラグを立てる。マッチがある場合、本システムはキーワード１０６中の対応するキーワードをセンシティブな単語としてフラグを立てる。全てのキーワード１０６についてこのようにすることで、本システムはプライバシーポリシー１００に関連し得る多数のセンシティブな単語１０８を識別できる。
【００３３】
ここで説明するプライバシーポリシー強化システムは、本発明の１実施形態しか示していない。広範囲に及ぶＮＬＰツールを一般的なプライバシーポリシー強化モデルに組み込むことができ、ほぼ同様の結果を得ることができる。以下のセクションでは、プライバシーポリシーの強化のための一般的な推論検出モデルの入力、出力、パラメータについて説明する。
【００３４】
入力：トレーニングドキュメントの集合Ｃ＝｛Ｃ₁，．．．，Ｃ_n｝と、基準ドキュメントの集合Ｒと、センシティブな知識を表すシードキーワードのリストＫ＊である。
【００３５】
出力：ＣとＲの和集合から導出できるセンシティブな単語のリストＬである。センシティブな単語はそれぞれ、少なくとも１つのシードキーワードから導出され得るある推論に対応する。システムの出力が、センシティブな情報を含むドキュメントを識別するプライバシーポリシーを強化するために使用可能なセンシティブな単語のリストであることに注目されたい。本システムは、センシティブな推論を検出できなければ、空のリストを戻す。
【００３６】
パラメータ：このプライバシーポリシー強化モデルは、４つのパラメータによってパラメータ化されている。パラメータαは、ＣのドキュメントのＮＬＰ分析の深度を制御する。パラメータβとγは、Ｃに関連するＲ内のドキュメントの検索深度を制御する。パラメータδは、検索エンジンによって引き出されたドキュメント、すなわちヒットドキュメントのＮＬＰ分析の深度を制御する。１実施形態では、α、β、γ、δの値は全て正の整数である。モデルの実行時間と推論検出の完全性および品質との種々のトレードオフを得るために、このようなパラメータを調節可能である。
【００３７】
本システムは、以下の段階を踏んでプライバシーポリシー強化モデルを実装し、実行する。
【００３８】
トレーニングドキュメントＣ内のドキュメントの理解：本システムはＴＦ．ＩＤＦ分析を行い、集合Ｃ内の各ドキュメントＣ_iからＣ_iを最も代表する上位α個のキーワードを抽出する。ドキュメントＣ_iから抽出された上位α個のキーワードのセットをＳ_iとする。
【００３９】
推論検出：センシティブな単語のリストＬは、最初は空である。本システムは、サイズ│Ｃ’│≦βのサブセットＣ’⊆Ｃごとに順に検討する。このような各サブセットＣ’＝（Ｃ_i1，．．．，Ｃ_ik）（ｋ≦β）について、本システムは以下の動作を実行する。カルテシアン積Ｓ_i1×．．．×Ｓ_ikにおけるキーワード（Ｗ_i1，．．．，Ｗ_ik）の各ベクトルについて、以下を実行する。
１．本システムは検索エンジンを使用し、基準ドキュメントの集合Ｒからキーワード（Ｗ_i1，．．．，Ｗ_ik）全てを含む上位γ個のドキュメントを引き出す。
２．ＴＦ．ＩＤＦ分析によって、本システムはこのγ個のドキュメントの集合から上位δ個のキーワードを抽出する。１実施形態では、このようなキーワードは個々のドキュメントから抽出されるのではなく、全てのドキュメントが単一の大きなドキュメントへと連結されているかのように、γ個のドキュメントを集めた集合から抽出される。
３．動作２から取得したδ個のキーワードとシードキーワードのセットＫ＊との積集合をＷ＊とする。Ｗ＊が空でなければ、本システムはキーワードベクトル（Ｗ_i1，．．．，Ｗ_ik）をＬに追加する。そして本システムは、リストＬを出力し、終了する。
【００４０】
さらに本システムは、リストＬの取得後に、さらなるクエリーを使用してトレーニングドキュメント内の識別されたキーワード候補（単数または複数）とシードキーワードとの間の推論の強さを測定、すなわちランク付けできる。１実施形態では、本システムはセンシティブなヒットの比率を計算し、これは１実施形態ではキーワード候補（単数または複数）のみを含むクエリーからの検索ヒット数に対するキーワード候補（単数または複数）とシードキーワードの両方を含むクエリーからの検索ヒット数として定義される。そして本システムはトレーニングドキュメントのキーワードを推論の強さに応じてランク付けする。例えば、「ナルトレキソン」という単語を使用して「アルコール中毒者」を推察できる可能性を評価するために、本システムは「ナルトレキソン」について第１のクエリーを発してｘ個のドキュメントを引き出し、「ナルトレキソンアルコール依存症」について第２のクエリーを発してｙ個のドキュメントを引き出すことができる。そして本システムは、比率ｙ／ｘを計算できる。この比率が極めて１に近ければ、ナルトレキソンをアルコール依存症に関連する全てのドキュメントを選別するように設計されたプライバシーポリシーに関連付けられると判断できるかもしれない。
【００４１】
本システムが推論を識別するために上述のセンシティブなヒットの比率の計算方法をアドオンではなくメインアプローチとして使用することもできることに注目されたい。１実施形態では、本システムはまずＮＬＰツールを使用してトレーニングドキュメントのセットからキーワードを抽出する。トレーニングドキュメントから抽出された各キーワードについて、本システムはシードキーワードそれぞれに対して抽出された各キーワードのセンシティブなヒットの比率を計算する。抽出されたキーワードとシードキーワードとのセンシティブなヒットの比率が所与の閾値よりも大きければ、本システムは抽出されたキーワードを対応するプライバシーポリシーに関連付けられるセンシティブな単語として識別する。さらに、本システムはシードキーワードまたはキーフレーズのセットを受け取ることもでき、抽出されたキーワードは１つまたはそれより多くのマルチワード（複数の単語からなる）フレーズを含んでもよい。例えば、本システムは「充血した目（blood shot eyes）」、「記憶喪失（memory loss）」「肝疾患（liver disease）」という３つのフレーズを抽出し、「アルコール依存症」、「アルコール」、「アルコール中毒者」、「酔っ払い（drunk）」、「飲酒（drinking）」といったアルコール依存症に関連するセンシティブな単語についてセンシティブなヒットの比率を計算できる。センシティブなヒットの比率を計算するために、本システムはまず「充血した目、記憶喪失、肝疾患」についてクエリーを発し、次いで「充血した目、記憶喪失、肝疾患ＡＮＤ（アルコール依存症ＯＲアルコールＯＲアルコール中毒者ＯＲ酔っ払いＯＲ飲酒）」についてクエリーを発する。そして本システムは、第１のクエリーが戻したヒット数に対する第２のクエリーが戻したヒット数の比率を計算する。一般に、本システムはクエリーを作成する際に任意の数の抽出された単語またはフレーズを組み合わせることができる。
【００４２】
上述のプライバシーポリシー強化モデルを種々のアプリケーションに合わせて調整できる。
【００４３】
幾つかの実施形態では、本システムは多数のキーワードに基づいてクエリーを立てる際にあらゆる所与の論理関係を利用できる。ここに説明する例はスペースで区切られた（space-separated）キーワードを含むクエリーに基づいているが、本システムはブール式のクエリーも採用できる。例えば、本システムはキーワードの間に「ＡＮＤ」や「ＯＲ」を挿入できる。高度な検索エンジンを使えば、本システムは、例えばある数のパラグラフ内、センテンス内、単語内といったようにキーワードがどのようにドキュメントに現れるかを特定することもできる。さらに本システムは、キーワードを分析しその分析に基づいてクエリーを立てることもできる。例えば、２つのキーワードが同義語であるかまたは密接に関連するとシステムが判定したならば、このシステムはクエリーを立てる際にこれらのキーワードの間に「ＯＲ」をオプションで挿入することができる。
【００４４】
さらなる実施形態では、本システムはテストされるドキュメントに応じて異なるコーパスを賢明に選択できる。本システムは、意図する視聴者に基づいてコーパスを選択することもできる。
【００４５】
上述のモデルは、センシティブな知識Ｋ＊がシードキーワードのセットとして与えられることを想定している。センシティブな知識の他の表現も可能である。１実施形態では、センシティブな知識はシードキーワードのリストではなくアルコール依存症または性感染症といった１単語のみを含むトピックに基づいてもよい。このようなケースを扱うために、本システムはセンシティブなトピックをシードキーワードのリストに変換する前処理動作を実行する。これを行う一つの方法として、センシティブなトピックを含む参照集合Ｒのドキュメントについて検索クエリーを発し、ＴＦ．ＩＤＦ分析を使用してこのようなドキュメントからセンシティブなトピックについてのシードキーワードの拡張セットを抽出するという方法がある。
【００４６】
図２は、本発明の１実施形態に係るプライバシーポリシー強化プロセスを示す例示的なフローチャートである。動作時、本システムはプライバシーポリシー、トレーニングドキュメントのセット、シードキーワードのセットを受け取る（動作２０２）。本システムはこのトレーニングドキュメントを分析してキーワードを抽出し（動作２０４）、これに対応する検索クエリーを作成する（動作２０６）。検索エンジンはこのクエリーに基づいてウェブ（または別の種類のコーパス）上で検索を実行し、多数のヒットを戻す（動作２０８）。
【００４７】
引き続き本システムはＮＬＰ技術を使用して検索エンジンが戻したヒットを分析し（動作２１０）、このヒットからキーワードを抽出する（動作２１２）。次いで本システムは、ヒットから抽出したキーワードがシードキーワードのいずれかにマッチするかどうかを判定する（動作２１４）。もしマッチするならば、本システムは動作２０４で得た対応するキーワードをセンシティブな単語のリストに追加する（動作２１６）。マッチしなければ（もしくは動作２１６が終了すると）、本システムはヒットから抽出した全てのキーワードをシードキーワードと比較したかどうかの判定に進む（動作２１８）。判定が否定されると、本システムは動作２１４に戻る。判定が肯定されると、本システムはセンシティブな単語のリストを戻し、このセンシティブな単語をプライバシーポリシーに関連付ける（動作２２０）。
【００４８】
図３は、本発明の１実施形態に係るプライバシーポリシーの強化および実行のためのコンピュータシステムを示す。コンピュータシステム３０２は、プロセッサ３０４、メモリ３０６、記憶装置３０８を含む。コンピュータシステム３０２は、ディスプレイ３１４、キーボード３１０、ポインティングデバイス３１２に接続もしている。記憶装置３０８は、プライバシーポリシー強化アプリケーション３１６とアプリケーション３２０、３２２を保存している。さらに、プライバシーポリシー強化アプリケーション３１６は、プライバシーポリシー強化プロセス時にドキュメントからのキーワードの抽出を行うＴＦ．ＩＤＦ分析モジュール３１８を含む。動作時、プライバシーポリシー強化アプリケーション３１６はメモリ３０６にロードされ、プロセッサ３０４によって実行される。コンピュータシステム３０２をインターネットに接続することで別個の検索エンジンによってウェブ検索を行えることに注目されたい。
【図面の簡単な説明】
【００４９】
【図１】本発明の１実施形態に係るプライバシーポリシー強化システムの例示的なブロック図である。
【図２】本発明の１実施形態に係るプライバシーポリシー強化プロセスを示す例示的なフローチャートである。
【図３】本発明の１実施形態に係るプライバシーポリシーの強化および実行のためのコンピュータシステムを示す。
【符号の説明】
【００５０】
１００プライバシーポリシー
１０６キーワード
１０８コーパス
１１２検索エンジン

【特許請求の範囲】
【請求項１】
プライバシーポリシーを強化するためにコンピュータが実行する方法であって、
トレーニングドキュメントのセットとプライバシーポリシーに関連付けられた少なくとも１つのシードキーワードとを取得し、
前記トレーニングドキュメントから多数のキーワード候補を抽出し、
前記キーワード候補に基づいて少なくとも１つのクエリーを立て、
前記クエリーをコーパスに発し、
前記クエリーに応答して、結果ドキュメントのセットを受け取り、
前記結果ドキュメントから抽出した各キーワードが少なくとも１つのシードキーワードにマッチするかどうかを判定し、
前記判定に基づいて各キーワードに対応するキーワード候補をプライバシーポリシーに関連付けることによって、プライバシーポリシーを強化し、
強化したプライバシーポリシーを対象ドキュメントに適用し、
前記対象ドキュメントがプライバシーポリシーをトリガーするかどうかを示す結果を出す、
方法。
【請求項２】
結果ドキュメントそれぞれに含まれる単語またはフレーズについて用語の出現頻度・ドキュメントの逆出現頻度（ＴＦ．ＩＤＦ）の重みを決定することで、前記結果ドキュメントからキーワードを抽出する、ことをさらに含む、請求項１記載の方法。
【請求項３】
前記強化したプライバシーポリシーを対象ドキュメントに適用することが、
前記対象ドキュメントを検索してプライバシーポリシーに関連付けられたキーワード候補のいずれかの出現を探し出す、
ことを含む、請求項１記載の方法。
【請求項４】
キーワード候補と各シードキーワードとの推論の強さを評価し、
キーワード候補が少なくとも１つのシードキーワードにマッチするかどうかを判定する際に評価した強さを使用する、
ことをさらに含む、請求項１記載の方法。

【図１】

【図２】

【図３】

【公開番号】特開２００９−１３４７１４（Ｐ２００９−１３４７１４Ａ）
【公開日】平成２１年６月１８日（２００９．６．１８）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 不正行為から計算機を保護するためのセキュリティ装置 (22,301)
      - 直接データを保護することによるもの，例．ラベリング (8,970)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)

【出願番号】特願２００８−２８６３７３（Ｐ２００８−２８６３７３）
【出願日】平成２０年１１月７日（２００８．１１．７）
【出願人】（５０２０９６５４３）パロ・アルト・リサーチ・センター・インコーポレーテッド (393)
【氏名又は名称原語表記】Ｐａｌｏ　Ａｌｔｏ　Ｒｅｓｅａｒｃｈ　Ｃｅｎｔｅｒ　Ｉｎｃｏｒｐｏｒａｔｅｄ
【Ｆターム（参考）】

[ Back to top ]

プライバシーポリシーを強化するためにコンピュータが実行する方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

プライバシーポリシーを強化するためにコンピュータが実行する方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク