説明

自動推論検出によるインバウンド・コンテンツのフィルタリング

【課題】望ましくない電子メールを検出するシステムを提供する。
【解決手段】動作中、システムは電子メールを受信し(302)、電子メール本文からキーワードの組を抽出し(304)、電子メール本文から抽出された少なくとも1つのキーワードに基づいて、第1の検索クエリを構築する(306)。システムはさらに、第1の検索クエリのために用いられるキーワード及び少なくとも1つの付加的な語に基づいて、第2の検索クエリを構築する(306)。次に、システムは、第1及び第2の検索クエリに応答して、それぞれ第1の数のヒット及び第2の数のヒットを受信する(312)。システムは次に、第1の数及び第2の数に基づいて電子メールが望ましくないかどうかを判断し(314)、その判断に基づいて、該電子メールが望ましくないことを示す結果を生成する(318)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インテリジェント・データ処理の設計に関する。より具体的には、本発明は、推論検出によるインバウンド・コンテンツのフィルタリングのための方法及びシステムに関する。
【背景技術】
【0002】
インターネットの絶え間ない成長は、ワールド・ワイド・ウェブ(ウェブ)を今日最も大きく最もアクセスしやすい情報プールの1つにした。しかしながら、ユビキタス・インターネットの接続性はまた、スパム・メール及び悪意のあるウェブサイト等の望ましくない、時として悪意のある情報が、ユーザのコンピュータに達することができるようにもする。スパム・メールは、ユーザのメール・ボックスのスペースをふさぐだけでなく、ユーザから詐取し、慎重な扱いを要する個人データを得ることができる「フィッシング」メールである可能性もある。悪意のあるウェブサイトは、ユーザの帯域幅を消費し、トロイの木馬をインストールし、ユーザのコンピュータ及びネットワークのセキュリティを侵害することがある。
【発明の開示】
【発明が解決しようとする課題】
【0003】
インバウンド・コンテンツのフィルタリングは、企業又は大学等の組織にとって特に重要である。このようなフィルタリングはまた、ポルノ及び暴力等の有害なコンテンツから自分の子供を守りたいと思う親にとっても有用である。従来の電子メール及びウェブサイトのフィルタリング技術は、主として、キーワード・リスト、メール・サーバのブラックリスト、及びウェブ・アドレスのブラックリストに基づいたものである。例えば、スパム・メール・プログラムは、典型的には、「モーゲージ(mortgage)」及び「バイアグラ(viagra)」等のスパム・キーワードのリストを保持し、これらの語を含む電子メールをフィルタリングして除外しようと試みるものである。ウェブサイト・フィルタリング・プログラムは、典型的には、アクセスを制限すべきである識別されたウェブサイトのURLのリストを保持する。しかしながら、スパム・メール及び望ましくないウェブサイトのコンテンツ、並びにそれらのサーバ・アドレスは、絶えず変化しており、そのことが、キーワード・リスト及びブラックリストを最新の状態に保つことを困難にしている。
【課題を解決するための手段】
【0004】
本発明の一実施形態は、望ましくない電子メールを検出するシステムを提供する。動作中、システムは電子メールを受信し、電子メール本文からキーワードの組を抽出し、電子メール本文から抽出された少なくとも1つのキーワードに基づいて、第1の検索クエリを構築する。システムはさらに、第1の検索クエリのために用いられるキーワード及び少なくとも1つの付加的な語に基づいて、第2の検索クエリを構築する。次に、システムは、第1及び第2の検索クエリに応答して、それぞれ第1の数のヒット及び第2の数のヒットを受信する。システムは次に、第1の数及び第2の数に基づいて電子メールが望ましくないかどうかを判断し、その判断に基づいて、該電子メールが望ましくないことを示す結果を生成する。
【0005】
本実施形態の変形において、電子メール本文からキーワードを抽出することは、電子メール本文内に含まれるそれぞれの語又は句に関する単語出現頻度・逆出現頻度(TF.IDF)の重みを判断することを含む。
更に別の変形においては、電子メール本文からキーワードを抽出することは、そのTF.IDFの重みに基づいて、それぞれの語をランク付けすることをさらに含む。
【0006】
本実施形態の変形において、付加的な語は、スパム・トピック語(spam topic word)である。第2のクエリを構築することは、第1のクエリ内に付加的な語を含ませることを含む。
本実施形態の変形において、付加的な語は、電子メールの件名から抽出された語である。
本実施形態の変形において、第1の数及び第2の数に基づいて電子メールが望ましくないかどうかを判断することは、第1の数と第2の数との間の比を計算することを含む。
【0007】
本発明の一実施形態は、ウェブ・コンテンツをフィルタリングするシステムを提供する。動作中、システムは、制限されるべきトピックに関連する制限されたトピック語を受信する。システムは次に、制限されたトピック語に基づいてウェブを検索し、その検索に応答して文書の組を受信する。システムはさらに、受信された文書からキーワードを抽出し、少なくとも1つの抽出されたキーワードに基づいて第1の検索クエリを構築する。さらに、システムは、第1の検索クエリのために用いられるキーワード及び制限されたトピック語に基づいて、第2の検索クエリを構築する。システムは次に、第1及び第2の検索クエリに応答して、それぞれ第1の数のヒット及び第2の数のヒットを受信する。次に、システムは、第1の数及び第2の数に基づいて、キーワードが制限されたトピックに関連するかどうかを判断する。システムは、その判断に基づいて、キーワードが制限されたトピックに関連するかどうかを示す結果を生成し、これにより、制限されたトピックに関連するウェブページのフィルタリングが容易になる。
【0008】
本実施形態の変形において、受信された文書からキーワードを抽出することは、該文書内に含まれるそれぞれの語又は句に関するTF.IDFの重みを判断することを含む。
更に別の変形においては、受信された文書からキーワードを抽出することは、そのTF.IDFの重みに基づいて、それぞれの語をランク付けすることをさらに含む。
本実施形態の変形において、キーワードが制限されたトピックに関連するかどうかを判断することは、第1の数と第2の数との間の比を計算することを含む。
【発明を実施するための最良の形態】
【0009】
本発明の実施形態は、インバウンド・コンテンツを管理する又はフィルタリングするために用いることができる、1つ又はそれ以上の文書のコンテンツから引き出された推論を検出するための自動化された技術を提供する。特に、こうした推論検出技術は、スパム・メールを検出し、及び/又は、望ましくないウェブ・コンテンツをフィルタリングして、企業の従業員及び子供を守るために用いられる。
【0010】
スパム・メール及び望ましくないウェブサイトは、そこに含まれる真の主題を曖昧にする情報を含むことが多い。時には、受信するコンテンツの1つが、望ましくない主題に関連する明確な語を含まないことがあるが、それにもかかわらず、ユーザが主題を推論することを可能にする場合がある。例えば、組織が、オサマ・ビン・ラディン(Osama Bin Laden)に関連するあらゆる受信コンテンツ(例えば、電子メール、ウェブサイト)をフィルタリングすることを望むと仮定する。フィルタリング・システムは、例えば、「オサマ(Osama)」、「ビン(Bin)」、「ラディン(Laden)」及び「OBL」といった語等の明確な識別情報を含む、如何なる電子メール又はウェブサイトもフィルタリングすることができる。しかしながら、コンテンツの1つが如何なる明確な識別単語も含まないとき、それがフィルタリング・システムを通過することができるが、依然としてオサマ・ビン・ラディンに関連するものとして認識されることがある。例えば、「サウジアラビア、建設業界、大物、イエメン」というクエリによるウェブ検索がオサマ・ビン・ラディンに関する多数のヒットを返すので、「イエメン出身のサウジアラビア建設業界の大物の息子」という言語を含む電子メールは、読者が、この文の主題がオサマ・ビン・ラディンであると推論することを可能にする。それでも、フィルタリング・システムは、この電子メールを見つけることができないであろう。
【0011】
本発明の実施形態は、明確な語及び語句を捕らえることができるだけでなく、受信するコンテンツにおける推論を検出する新規な技術を提供し、これにより、システムが、不明瞭である望ましくないコンテンツをフィルタリングすることが可能になる。幾つかの実施形態において、ウェブ又は企業のイントラネット等の巨大なコーパスが人間の知識の代用として用いられ、電子メール又はウェブページ等の文書からどのような推論を引き出され得るかを理解することができるようにする。これらの実施形態に用いられる技術の1つは、文書からキーワードを抽出し、これらのキーワードを用いて検索エンジン・クエリを構築し、これらのクエリに応答して、返された結果(「ヒット」とも呼ばれる)を分析することである。幾つかの実施形態においては、システムは、ヒット数を調べる。更に別の実施形態において、システムは、ヒットのコンテンツを調べる。
【0012】
この開示において、「コーパス」という用語は、文書の集合をいう。一実施形態において、コーパスは、ウェブ上で利用可能な全ての文書を含むことができる。コーパスはまた、組織の内部文書の集合であってもよい。さらに、システムは、1つ又はそれ以上のコーパスに基づいて動作することができる。
【0013】
図1は、本発明の実施形態による、受信する電子メールをフィルタリングするシステムのための例示的なブロック図を示す。動作中、システムは電子メール102を受信し、電子メール102に対して自然言語処理(NLP)分析104を実行し、キーワードの組106を抽出する。システムは次に、多数のクエリを公式化し(動作110)、これらのクエリを検索エンジン112に発行する。検索エンジン112は、インターネット113において対応する検索を行い、多数のヒット114を返す。システムは次に、そのヒットを分析し(動作116)、電子メール102に関するスパム信号を生成する(動作108)。
【0014】
図2は、本発明の実施形態による、ウェブサイドをフィルタリングするシステムのための例示的なブロック図を示す。動作中、システムは、先ず、制限されたトピック語202を受信する。例えば、制限されたトピック語202は、「ギャンブル(gambling)」又は「貸付(lending)」とすることができる。システムは、次に、制限されたトピック語202に基づいて、検索クエリを検索エンジン212に発行する。検索エンジン212は、インターネット213において対応するウェブ検索を行い、ヒットの組204を返す。システムは次に、ヒット204に対してNLP分析205を実行し、キーワードの組206を抽出する。キーワード206に基づいて、システムは検索クエリの組を公式化し(動作210)、これらのクエリを検索エンジン212に発行する。これに応答して、検索エンジン212はヒットの組214を返す。システムは次に、ヒット214の分析を実行し(動作216)、制限されたトピックと関連付けられた要注意語(sensitive word)218のリストを取得する。システムは次に、この要注意語のリストを用いて、ウェブページをフィルタリングすることができる。
【0015】
一般的に実施されているスパミング技術の1つが難読化(obfuscation)である。難読化が用いられる場合、スパム・メールの発信者は、故意に電子メール内のキーワードのスペルミスをし、その電子メールの真のトピックを覆い隠す。例えば、表1に示される電子メールでは、「バイアグラ(viagra)」を「viarga」に故意にスペルミスする。
(表1)

【0016】
一実施形態において、システムは、受信された電子メールからキーワードを抽出し、その電子メールの真のトピックを判断することができる。本実施形態の1つの実施は、以下の動作を含む。
1.システムが、電子メールからキーワードを抽出する。一実施形態において、システムは、NLP技術を用いて上位にランク付けされた多数のキーワードを抽出する。
2.システムは次に、キーワード及びキーワードの組み合わせ(「句」ともいう)に基づいて、第1の組の検索クエリを構築する。{Qi}は、キーワード又はキーワードの組み合わせiに対応して発行するクエリの組を示すものとする。それぞれのクエリに用いられるキーワードの最大数及び発行されるクエリの数は、推論検出の所望の実行時間及び徹底度に基づいてユーザが調整できるパラメータであることが留意される。一実施形態において、それぞれのクエリは、選択されたキーワードを列挙し、これらのキーワードをスペースで分離することによって公式化される。他のクエリ公式化技術も可能である。
3.システムは、検索クエリ{Qi}を検索エンジンに発行し、それぞれの検索クエリQiに応答して、多数のヒットniを受信する。
4.システムはまた、第2の組の検索クエリを構築する。第2の組内のそれぞれの検索クエリは、第1の組内の対応するクエリと類似しているが、「バイアグラ(viagra)」、「くじ(lottery)」、「モーゲージ(mortgage)」といった、少なくとも1つの既知のスパム・トピック語を含む。この第2の組内のそれぞれのクエリは、{Qi、j}と示され、ここで、iは、対応するキーワード又はキーワードの組み合わせを示し、jは、スパム・トピック語を示す。例えば、Qi=”A B C”(一実施形態においては、実際のクエリは引用符を含まないことに留意されたい)である場合には、Qi、1=”A B C viagra”、Qi、2=”A B C lottery”等である。nijは、Qijに応答して、検索エンジンによって返されたヒットの数を示すものとする。
5.クエリQij及びQiについて、nij/niが十分に大きい場合には、システムは、その電子メールがトピック語jに関連するスパム・メールであり得ることを知らせる。電子メールをスパムとして処理する判断は、十分に大きいnij/ni比を有するこうしたクエリの対(即ち、Qi及びQij)の数、及び、対応するトピックが確かにスパム・トピックであるという可能性にも依存することに留意されたい。
【0017】
例えば、表1のスパム・メールを参照すると、Googleクエリ「sex medicine firm」は、約1,210,000件のヒットを返し、一方、クエリ「sex medicine firm viagra」は、約586,000件のヒットを返す。対応するnij/ni比は0.48であり、これは、一実施形態においては、その電子メールをスパムとしてマーク付けするのに十分である。
【0018】
一実施形態において、電子メールからキーワードを抽出するために、システムは、自動化されたコンテンツ分析を用いて、これらの文書内のキーワードを抽出する。システムは、テキスト抽出から綿密な言語分析に至る、任意のNLPツールを用いることができる。一実施形態において、システムは、「単語出現頻度・逆出現頻度」(term frequency−inverse document frequency、TF.IDF)分析に基づいてキーワードを選択する。本開示に用いられる「キーワード」という用語は、単一の語に制限されるものではなく、語、句、略語、同義語、又は言語記号の任意の組み合わせを含み得ることに留意されたい。
【0019】
TF.IDF分析では、システムは、電子メール内のそれぞれの語にTF.IDFの重みを割り当てる。システムは、統計的尺度であるこの重みを用いて、その語がコーパス(例えば、ウェブ)内の文書(即ち、電子メール)に対してどれだけ重要であるかを評価する。語の重要度は、その語が文書内で出現する回数に比例して高くなるが、コーパスにおける語の出現頻度によって相殺される。例えば、所定の文書に関するtiと示される用語iのTF.IDFの重みは、次の:

のように計算することができる。この式において、用語頻度

は、文書における全ての用語出現によって正規化された、文書におけるtiの出現数である。逆出現頻度

は、用語の一般的な重要度の尺度であり、用語tiを含む文書数で除算したコーパスにおける全文書数の対数として計算される。
【0020】
TF.IDFの重みを計算するための上記の式は、TF.IDF定義の一例にすぎない。異なる用途の場合には、異なるTF.IDF定義を採用することができる。さらに、本発明の実施形態はまた、分書から知識を得るために、他の言語分析手法を用いることもできる。
【0021】
図3は、本発明の実施形態による、電子メールから抽出されたキーワードに基づいて、受信する電子メールをフィルタリングする例示的なプロセスを示すフローチャートを表す。動作中、システムは、電子メールを受信する(動作302)。システムは次に、TF.IDF分析を用いて、電子メールを分析し、多数のキーワードを抽出する(動作304)。システムはさらに、キーワード又はキーワードの組み合わせiに基づいて構築されたクエリQiを発行する(動作306)。これに応答して、システムは、多数のヒットniを受信する(動作308)。
【0022】
次に、システムは、キーワード又はキーワードの組み合わせi、及び、スパム・トピック語jに基づいて構築されたクエリQi,jを発行する(動作310)。Qi,jに応答して、システムは、多数のヒットnijを受信する(動作312)。その後、システムは、全てのキーワード又はキーワードの組み合わせが評価されたかどうかを判断する(動作313)。全てのキーワード又はキーワードの組み合わせが評価されていない場合は、システムは、続けて次のキーワード又はキーワードの組み合わせを調べる(動作306)。全てのキーワード又はキーワードの組み合わせが評価された場合には、システムはさらに、十分に大きいnij/ni比を有する、十分なキーワード又はキーワードの組み合わせが存在するかどうかを判断する(動作314)。存在する場合は、システムは、随意的に、他の条件が満たされているかどうかを判断し(動作316)、その電子メールがスパムであり得ることを知らせる(動作318)。他の場合には、システムは終了する。
【0023】
別の一般的なスパミング技術は、電子メールの件名又は本文に非スパム語を挿入し、これにより、メッセージの統計値(例えば、語の頻度)を調べて電子メールがスパム・メールであるかどうかを判断する、統計的スパム・フィルタを阻止しようと試みるものである。これらの語は、スパム・フィルタをトリガする可能性が少ないランダム語又は注意深く選択された語であり得る。一実施形態において、システムは、スパム・メールから抽出されたワードに基づいてクエリから返されたヒット数を測定する。これは、典型的には、スパム・メールの件名における語はあまり意味をなさず、これらの語に基づいてクエリにより返されたヒット数が、正当な電子メールから抽出された語に基づいてクエリにより返されたヒット数よりもずっと少ないからである。表2は、スパム・メール及び正当な電子メールからの件名の例を示す。例えば、表2の第1行目は、正当な電子メールの件名からのGoogleクエリ「harassment awareness」(引用符なし)は約1,180,000件のヒットを返し、一方、スパム・メールからの件名「Chaos DDT」(引用符なし)に基づいたクエリは約240,000件のヒットを返すことを示す。特にスパム・メールの場合には、一般に、件名のキーワードを囲む引用符を使用することにより、ヒット・カウントが減少されることに留意されたい。さらに、正当な電子メールの件名から抽出されたクエリ内のキーワードが、必ずしも件名につながっているとは限らない。
表2

【0024】
更に別の実施形態において、システムは、電子メールの件名と本文との間の整合性を調べる。例えば、件名「楽天家 ガーデニング(optimist gardening)」のメッセージが実際にガーデニングに関するものである場合には、メッセージ内の語は、一般にガーデニングと関連した語を含むはずである。従って、件名が電子メール本文のトピックを表しているかどうかを評価することによって、システムは、その電子メールがスパム・メールである可能性が高いかどうかを判断することができる。一実施形態において、システムは以下の動作に従う。すなわち、
1.システムは、電子メールのテキスト本文からキーワードを抽出し、組Bを形成する。システムはさらに、件名からキーワードを抽出し、組Sを形成する。
2.システムは次に、Bから上位にランク付けされたキーワードBiの組を選択し、Sから上位にランク付けされたキーワードSiの組を選択する。(一実施形態において、ランク付けは、それぞれのキーワードのTF.IDFの重みに基づいて達成できることに留意されたい。)システムは次に、2つの組を併合し、併合された組からクエリを構築し、ここで、各々のクエリは、組Bからの少なくとも1つのキーワード、及び、組Sからの少なくとも1つのキーワードを含む。{Qi}は発行されたクエリの組を示し(即ち、Qiは、Bi∪Si内の語に基づいたクエリである)、niはクエリQiによって返されたヒットの数を示すものとする。各々のクエリに用いられたキーワードの数及び発行されるクエリの数は、推論検出の所望の実行時間及び徹底度に基づいてユーザによって調整可能なパラメータである。
3.電子メール本文から抽出された各々のキーワードB1、B2、...に関して、システムは別個の検索クエリを発行する。nBiは返されたヒットの数を示すものとする。
4.組B内のキーワードに関して、ni/nBi比が十分に小さい場合には、システムは、その電子メールがスパムであり得ることを知らせる。電子メールをスパムとして処理する判断は、小さいni/nBi比を有するこうしたクエリの対の数に依存する。
【0025】
図4は、本発明の一実施形態による、電子メールの本文及び電子メールの件名から抽出されたキーワードに基づいて受信する電子メールをフィルタリングする例示的なプロセスを示すフローチャートを表す。動作中、システムは電子メールを受信する(動作402)。システムは次に、TF.IDFを用いて電子メールの本文を分析し、キーワードの組Bを抽出する(動作404)。次に、システムは電子メールの件名を分析し、キーワードの組Sを抽出する(動作406)。一般に件名は短いので、動作406におけるTF.IDFの使用は随意的なものであることに留意されたい。
【0026】
次に、システムは、電子メール本文のキーワードBi及び電子メール件名のキーワードSiに基づいて構築されるクエリQiを発行する(動作408)。システムはその後、クエリQiに応答して多数のヒットniを受信する(動作410)。システムはさらに、電子メール本文のキーワードBiに関するクエリを発行し、該クエリに応答して多数のヒットnBiを受信する(動作412)。
【0027】
システムは次に、B及びS内の全てのキーワードが評価されたかどうかを判断する(動作418)。全てのキーワードが評価されていない場合には、システムは、続けて次のクエリQiを発行する(動作408)。B及びS内の全てのキーワードが評価された場合には、システムは次に、十分に小さいni/nBi比を有するクエリの対の数が十分に大きいかどうかを判断する(動作420)。十分に大きい場合には、システムは、この電子メールをスパムとして処理する(動作422)。他の場合には、システムは終了する。
【0028】
従来のウェブサイト・フィルタリング・システムは、どのサイトをブロックするべきかを判断するために、手動で生成されたブラックリスト、及び、限られた数の自動化された技術に依存する。本発明の実施形態は、ウェブを用いて、望ましくないウェブサイトと関連したキーワードを絶えず更新し、次に、これをウェブサイトのコンテンツと照合して、そのウェブサイトをブロックすべきかどうかを判断することができる。例えば、システムは、ウェブを積極的に調べ、「オマハ 高い(Omaha high)」又は「テキサス ホールデム(Texas holdem)」のような新しい句が、アクセスを制限すべきギャンブルのサイトに関連することを発見することができる。
【0029】
一実施形態において、システムは、以下の動作を実行することによってウェブサイトにおける推論を識別する。すなわち、
1.システムは、制限されたウェブサイトのトピックTl、・・・、Tk(例えば、「ギャンブル(gambling)」、「ポルノ(porn)」等)のリストを受信する。
2.それぞれの制限トピック語に関して、システムは検索クエリを発行し、多数のヒットを受信する。
3.システムは、返されたヒットからキーワードの組を抽出する。これらのキーワードに基づいて、システムは検索クエリQiを公式化する。niは、Qiに応答して返されたヒットの数を示すものとする。クエリに用いられたキーワードの数及び発行されるクエリの数は、推論検出の所望の実行時間及び徹底度に基づいてユーザによって調整可能なパラメータである。
4.それぞれのクエリQiに関して、システムは、Qi内のキーワード又はキーワードの組み合わせ及び制限されたトピック語を用いて、第2のクエリQiTを発行する。niTは返されたヒットの数であるものとする。
5.niT/niが十分に大きい場合には、システムは、Qi内の用語が制限されたトピックに関連する可能性が高いことに気付く。要注意用語を含むウェブサイトへのアクセスを制限する判断は、こうした推論を可能にするクエリの閾値数、及び、niT/ni比の値の識別に依存することができる。
【0030】
例えば、クエリ「オマハ 高い(Omaha high)」は、Googleから約3,000,000件のヒットを返す。クエリ「オマハ 高い ギャンブル(Omaha high gambling)」は、約1,460,000件のヒットを返す。niT/ni比は0.48であり、これは、システムが「オマハ 高い(Omaha high)」を要注意語であると識別し、この句を含むウェブサイドをブロックするのに十分に高いものである。
【0031】
図5は、本発明の一実施形態による、ウェブサイトをフィルタリングする例示的なプロセスを示すフローチャートを表す。動作中、システムは、制限されたトピック語を用いて検索クエリを発行する(動作502)。システムは次に、そのクエリに応答してヒットを受信する(動作506)。次に、システムは、受信されたヒットからキーワードを抽出する(動作508)。システムはその後、キーワード又はキーワードの組み合わせiに基づいて構築されたクエリQiを発行し、クエリQiに応答して多数のヒットniを受信する(動作510)。
【0032】
システムはさらに、キーワード又はキーワードの組み合わせi及び制限されたトピック語に基づいて構築されたクエリQiTを発行し、QiTに応答して多数のヒットniTを受信する(動作512)。次に、システムは、全てのキーワードが評価されたかどうかを判断する(動作516)。全てのキーワードが評価されていない場合には、システムは、次のクエリQiを発行する(動作510)。全てのキーワードが評価されている場合には、システムは次に、十分に大きいniT/ni比を有する全てのキーワード又はキーワードの組み合わせを推論可能なものとしてマーク付けする(動作518)。次に、システムは、推論可能なものである要注意語のリストを生成する(動作520)。次いで、システムは終了する。
【0033】
図6は、本発明の一実施形態による、受信する電子メール及びウェブサイトをフィルタリングするためのコンピュータ・システムを示す。コンピュータ・システム602は、プロセッサ604、メモリ606、及び記憶装置608を含む。コンピュータ・システム602は、インターネット603、ディスプレイ613、キーボード610、及び位置決め装置612に結合される。記憶装置608は、ウェブコンテンツ・フィルタリング・アプリケーション614、電子メール・スパム検出アプリケーション616、並びにアプリケーション620及び622を格納する。ウェブコンテンツ・フィルタリング・アプリケーション614は、TF.IDF分析モジュール615を含む。同様に、電子メール・スパム検出アプリケーション616は、TF.IDF分析モジュール618を含む。動作中、ウェブコンテンツ・フィルタリング・アプリケーション614及び/又は電子メール・スパム検出アプリケーション616はメモリ606内にロードされ、プロセッサ604によって実行される。これに応じて、上述のように、プロセッサ604は、推論検出ベースの電子メール・スパム検出及びウェブコンテンツ・フィルタリングを実行する。
【0034】
本発明の実施形態の上記の説明は、例証及び説明のために提示されたものにすぎない。これらは、網羅的であること、又は本発明を開示された形態に制限することを意図するものではない。従って、当業者であれば、多くの変更及び変形が明らかであろう。さらに、上記の開示は、本発明を制限することを意図するものではない。本発明の範囲は、添付の特許請求の範囲によって定められる。
【図面の簡単な説明】
【0035】
【図1】本発明の実施形態による、受信する電子メールをフィルタリングするシステムの例示的なブロック図を示す。
【図2】本発明の実施形態による、ウェブサイトをフィルタリングするシステムの例示的なブロック図を示す。
【図3】本発明の実施形態による、電子メールから抽出されたキーワードに基づいて受信する電子メールをフィルタリングする例示的なプロセスを示すフローチャートを表す。
【図4】本発明の一実施形態による、電子メールの本文及び電子メールの件名から抽出されたキーワードに基づいて受信する電子メールをフィルタリングする例示的なプロセスを示すフローチャートを表す。
【図5】本発明の一実施形態による、ウェブサイトをフィルタリングする例示的なプロセスを示すフローチャートを表す。
【図6】本発明の一実施形態による、受信する電子メール及びウェブサイトをフィルタリングするためのコンピュータ・システムを示す。
【符号の説明】
【0036】
102:電子メール
104、205:NLP分析
106、206:キーワード
108:スパム信号の生成
110、210:クエリの公式化
112、212:検索エンジン
113、213、603:インターネット
114、204、214:ヒット
116、216:ヒットの分析
202:制限されたトピック語
218:要注意語
602:コンピュータ・システム
604:プロセッサ
606:メモリ
608:記憶装置
610:キーボード
612:位置決め装置
613:ディスプレイ
614:ウェブコンテンツ・フィルタリング・アプリケーション
615、618:TF.IDF分析モジュール
616:電子メール・スパム検出アプリケーション
620、622:アプリケーション

【特許請求の範囲】
【請求項1】
望ましくない電子メールを検出するためのコンピュータ・システムであって、前記コンピュータ・システムが、
プロセッサと、
前記プロセッサに結合されたメモリと、
電子メールを受信するように構成された第1の受信機構と、
前記電子メール本文からキーワードの組を抽出するように構成されたキーワード抽出機構と、
前記電子メール本文から抽出された少なくとも1つのキーワードに基づいた第1の検索クエリと、
前記第1の検索クエリのために用いられるキーワード及び少なくとも1つの付加的な語に基づいた第2のクエリと、
を構築するように構成されたクエリ公式化機構と、
前記第1及び第2の検索クエリに応答して、それぞれ第1の数のヒット及び第2の数のヒットを受信するように構成されたヒット受信機構と、
前記第1の数及び前記第2の数に基づいて、前記電子メールが望ましくないかどうかを判断するように構成された判断機構と、
前記判断に基づいて、前記電子メールが望ましくないことを示す結果を生成するように構成された結果生成機構と、
を含むことを特徴とするコンピュータ・システム。
【請求項2】
前記電子メール本文から前記キーワードを抽出する間、前記キーワード抽出機構は、該電子メール本文内に含まれるそれぞれの語又は句に関する単語出現頻度・逆出現頻度(TF.IDF)の重みを判断するように構成されることを特徴とする、請求項1に記載のシステム。
【請求項3】
前記付加的な語はスパムのトピック語であり、
前記第2のクエリを構築する間、前記クエリ公式化は、前記第1のクエリ内に前記付加的な語を含ませるように構成されることを特徴とする、請求項1に記載のシステム。
【請求項4】
前記第1の数及び前記第2の数に基づいて前記電子メールが望ましくないかどうかを判断する間、前記判断機構は、該第1の数と該第2の数との間の比を計算するように構成されることを特徴とする、請求項1に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate