説明

迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラム

【課題】FP及びFNが既存のルールよりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定する迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラムを提供すること。
【解決手段】電子メールを受信する受信部11と、セッションの過程で受信部11により受信したヘッダ情報を解析する解析部12と、解析部12により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する第1の特徴ベクトル生成部13と、特徴ベクトルとラベルとを関連付けて迷惑メールの分類器を生成する分類器作成部14と、特徴ベクトルを分類器に入力し、特徴ベクトルに付与されているラベルを判定する第1の判定部15と、特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように受信部11を制御する制御部16とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、受信した電子メールが迷惑メールであるか又は正常メールであるかを判定する迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラムに関する。
【背景技術】
【0002】
近年、ネットワークの発展により、気軽に電子メール(以下、メールという)を送受信できるようになったことに伴い、スパムメール(spammail)の数も増大している。ここで、「スパムメール」とは、受信者の意図を無視して事前の要請や同意なしに、無差別かつ大量発信されるメールを意味するものである。なお、このスパムメールの同義語として、「迷惑メール」、「ジャンクメール」、「UCE(UnsolicitedCommercialEmail)」、「UBE(UnsolicitedBulkEmail)」等がある。
【0003】
このようなスパムメールは、添付ファイル等によるウイルス感染や、不要なメールの増加による受信者の業務生産性及び効率の低下や、トラフィックの増加によるサーバ及びネットワークへの負荷増大や、詐欺サイトへの誘導等によるプライバシーや機密情報の漏洩等の点において、個人及び団体を問わずに脅威となり得るものである。
【0004】
上記のようなスパムメールによる問題は、既に社会問題の域にまで達している。メールアドレスが安価に入手可能であることや、定額料金の高速通信が安価で提供されていること等を鑑みると、今後、スパムメールは減少することなくますます増加していくと考えられ、スパムメールに対する有効な対策が早急に要求されている。
【0005】
ここで、メール本文を受信する前に得られる情報(ヘッダ情報)からスパムメールかどうかを判断し、メール本文を受信することを拒否する技術が提案されている(非特許文献1を参照。)。この技術によると、スパムメールやスパムメール送信サーバに頻繁に出現する性質(文字列の特徴)を画一的なルールにしている。また、ユーザの報告に基づき作成されたIPアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定して、メール本文を受信することを拒否する技術が提案されている(非特許文献2を参照。)。なお、「ヘッダ情報」とは、SMTPセッション中のコマンドやIPアドレスも含めた概念である。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】スパムメール判定方法(S25R)、[平成21年7月15日]、インターネット<http://www.gabacho−net.jp/anti−spam/paper.html>
【非特許文献2】スパムメール判定方法(spamhaus)、[平成21年7月15日]、インターネット<http://www.spamhaus.org/>
【発明の概要】
【発明が解決しようとする課題】
【0007】
ところで、非特許文献1に係る技術では、ヘッダ情報に基づいてスパムメールか否かを判定するため、外部に通信先のホスト情報(SMTPサーバがどのメールサーバから電子メールを受信しているか等の情報)が漏洩することはないが、発明者等の研究によると、正常なメールをスパムメールと判断してしまう割合(false positive:FP)は10%以上も存在することが分かった。
【0008】
一方、非特許文献2に記載のspamhausのDNSBL(Domain Name System Black List)は、発明者等の研究によると、ユーザからの報告をもとにするため、スパムメールを見逃す割合(false negative:FN)が20%程度存在することが分かった。さらに、spamhausのDNSBLでは、通信先のホスト情報を全てクエリとして外部のDSNBLサーバに問い合わせを行うため、DNSBLサーバは、どのメールサーバとどのメールサーバが情報をやり取りしているのかを把握できてしまう。
【0009】
本発明は、FP及びFNが非特許文献1、2に示す技術よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定する迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明では、以下のような解決手段を提供する。
【0011】
(1)本発明に係る迷惑メール判定装置は、上記課題を解決するために、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信部と、前記セッションの過程で前記受信部により受信した前記ヘッダ情報を解析する解析部と、前記解析部により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する第1の特徴ベクトル生成部と、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成部と、前記第1の特徴ベクトル生成部により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する第1の判定部と、前記第1の判定部により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信部を制御する制御部とを備える。
【0012】
このような構成によれば、迷惑メール判定装置は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。
【0013】
よって、迷惑メール判定装置は、FP及びFNが既存のルール(例えば、S25Rや、DSNBL等)よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。
【0014】
(2)上記迷惑メール判定装置では、前記分類器作成部は、前記教師データとして複数のメールログデータ又は電子メールを収集する収集部と、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する第2の特徴ベクトル生成部と、前記所定の判定方法に基づいて、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する第2の判定部と、前記第2の判定部によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較部と、前記比較部の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与部と、前記ラベル付与部により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する前記分類器を作成する作成部とを備えることが好ましい。
【0015】
このような構成によれば、迷惑メール判定装置は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成し、既存の判定ルール(例えば、S25Rや、DNSBL等)によりメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールか否かの判定を行い、当該判定結果に基づいて特徴ベクトルにラベルを付与し、この付与されたラベルに基づいて分類器を作成する。
【0016】
よって、迷惑メール判定装置は、既存のルールに基づいてヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなくヘッダ情報を多用した学習に基づくスパムメールの分類器を作成することができる。また、迷惑メール判定装置は、受信する電子メールのヘッダ情報に基づいて特徴ベクトルを生成し、生成した特徴ベクトルを作成した分類器にかけることにより、電子メールがスパムメールか否かを判定するので、単純に既存のルールを使用することによる誤検知、すなわち正常なメールをスパムメールであると誤検知する割合(false positive:FP)を低減することができる。
【0017】
また、迷惑メール判定装置は、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて電子メールがスパムメールであるか否かを判定できるので、電子メールの本文(Body)を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。また、迷惑メール判定装置は、人手によらず分類器を作成することができるので、分類器の作成過程において、人為的な要素を排除してコールドスタート的な動作ができる。
【0018】
(3)上記迷惑メール判定装置では、前記ラベル付与部は、第1の条件のみを満たす場合には、特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、第2の条件を満たす場合には、特徴ベクトルriに対して正常メールであることを示すラベルHを付与することが好ましい。
【数1】

【0019】
このような構成によれば、迷惑メール判定装置は、k1とk2を任意に設定することにより(例えば、k1=0.001、k2=0)、正常なメールをスパムメールであると誤って判定されることがなくなる。
【0020】
(4)上記迷惑メール判定装置では、前記ラベル付与部は、前記特徴ベクトル生成部により生成された特徴ベクトルriをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて、第1の特徴ベクトルsiと第2の特徴ベクトルtiに分割し、第3の条件を満たす場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、前記第3の条件を満たさないが、第4の条件を満たす場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与し、前記第3の条件及び前記第4の条件を満たさない場合であって、第5の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第1のラベルs1を付与し、前記第5の条件を満たさないが第6の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第2のラベルh1を付与し、前記第5の条件及び前記第6の条件を満たさない場合には、前記第1の特徴ベクトルsiに対して第3のラベルn1を付与し、第7の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第4のラベルs2を付与し、前記第7の条件を満たさないが第8の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第5のラベルh2を付与し、前記第7の条件及び前記第8の条件を満たさない場合には、前記第2の特徴ベクトルtiに対して第6のラベルn2を付与し、前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、前記第1のラベルs1と前記第4のラベルs2の組み合わせ、前記第1のラベルs1と前記第6のラベルn2の組み合わせ、又は前記第3のラベルn1と前記第4のラベルs2の組み合わせの場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与することが好ましい。
【数2】

但し、kr1,ks1,kt1、kr2,ks2,kt2は、0≦kr1<1、0≦ks1<1、0≦kt1<1、0≦kr2<1、0≦ks2<1、0≦kt2<1を満たす任意の値である。
【0021】
このような構成によれば、迷惑メール判定装置は、kr1、kr2、ks1、ks2、kt1及びkt2を任意に設定することにより(例えば、kr1=ks1=kt1=0.001、kr2=ks2=kt2=0)、受信する全てのメールについて、スパムメールであるか又は正常なメールであるかの判定を行い、正常なメールをスパムメールであると誤って判定することがない。
【0022】
(5)本発明に係る迷惑メール判定方法は、上記課題を解決するために、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とを備えることを特徴とする。
【0023】
このような構成によれば、迷惑メール判定方法は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。
【0024】
よって、迷惑メール判定方法は、FP及びFNが既存のルール(例えば、S25Rや、DSNBL等)よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。
【0025】
(6)本発明に係る迷惑メール判定プログラムは、上記課題を解決するために、迷惑メールであるか又は正常メールであるかを判定する方法をコンピュータによって実現するための迷惑メール判定プログラムであって、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とをコンピュータによって実現することを特徴とする。
【0026】
このような構成によれば、迷惑メール判定プログラムは、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。
【0027】
よって、迷惑メール判定プログラムは、FP及びFNが既存のルール(例えば、S25Rや、DSNBL等)よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。
【発明の効果】
【0028】
本発明によれば、FP及びFNが既存のルール(例えば、S25Rや、DSNBL等)よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。
【図面の簡単な説明】
【0029】
【図1】本実施形態に係る迷惑メール判定装置の構成を示すブロック図である。
【図2】本実施形態に係る迷惑メール判定装置の分類器生成部の構成を示すブロック図である。
【図3】本実施形態に係る迷惑メール判定装置を利用したスパムメール判定システムの構成を示すブロック図である。
【図4】スパムメールか否かを判定する手順についての説明に供するフローチャートである。
【発明を実施するための形態】
【0030】
以下、本発明の実施形態の一例について図1から図4を参照しながら説明する。本発明の実施形態に係る迷惑メール判定装置1は、電子メールの送受信を行う一連のセッションにおいて、ヘッダ情報を受信した状態、すなわち本文を受信する前の状態において、電子メールが迷惑メール(以下、スパムメールという。)であるか否かを判定し、スパムメールであると判定した場合には、電子メールの本文の受信を破棄(ブロック)する装置である。なお、「ヘッダ情報」とは、SMTPセッション中のコマンドやIPアドレスも含めた概念である。
【0031】
迷惑メール判定装置1は、図1に示すように、受信部11と、解析部12と、第1の特徴ベクトル生成部13と、分類器作成部14と、第1の判定部15と、制御部16とを備える。
受信部11は、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する。また、受信部11は、MTA(message transfer agent)としての機能を有しており、ユーザの端末から送信されてきた電子メールを受信して、他のサーバと連携して目的地となるサーバまで配送したり、他のサーバから配送されてきた電子メールをユーザの端末が受信するまで保管したりする機能を有している。
【0032】
解析部12は、電子メールを受信する一連のセッションの過程で受信部11により受信したヘッダ情報を解析する。解析部12は、具体的には、ヘッダ情報に含まれている情報から、マッピングテーブルを参照して国情報を取得したり、IPアドレスの逆引き等を行ったりする。
第1の特徴ベクトル生成部13は、解析部12により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する。なお、特徴ベクトルの具体的な生成方法については後述する。
【0033】
分類器作成部14は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、特徴ベクトルとラベルとを関連付けて迷惑メールの分類器を生成する。なお、メールログデータとは、SMTPサーバ上に残される記録データのことである。また、分類器の具体的な生成方法については後述する。
【0034】
第1の判定部15は、第1の特徴ベクトル生成部13により生成された特徴ベクトルを分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する。
制御部16は、第1の判定部15により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように受信部11を制御する。
【0035】
このような構成によれば、迷惑メール判定装置1は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。
【0036】
よって、迷惑メール判定装置1は、ヘッダ情報に基づいて単に、逆引きできないクライアントを許否したり、逆引き名からメールサーバでないと推定されるクライアントを許否するものでなく、また、単に、ユーザの報告に基づき作成されたIPアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定し、メール本文を受信することを拒否するものでないので、FP及びFNが既存のルール(例えば、S25RやDSNBL等)よりも小さくすることができ、かつDSNBLのように通信先のホスト情報を外部に漏洩することがなく、安全かつ効率的にスパムメールであるか否かを判定することができる。
【0037】
つぎに、分類器作成部14の具体的な構成と動作について説明する。分類器作成部14は、図2に示すように、収集部21と、第2の特徴ベクトル生成部22と、第2の判定部23と、比較部24と、ラベル付与部25と、作成部26とを備える。
【0038】
収集部21は、教師データとして複数のメールログデータ又は電子メールを収集する。具体的には、収集部21は、過去に受信したメールログデータ又は電子メールや、ネットワーク50を介して他のサーバに蓄積されているメールログデータ又は電子メールを教師データとして収集する。なお、収集したメールログデータ又は電子メールには、スパムメールと判定されたメールや、正常なメールであると判定されたメールが含まれている。
【0039】
第2の特徴ベクトル生成部22は、収集部21により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する。なお、特徴ベクトルの生成方法については後述する。また、第2の特徴ベクトル生成部22は、第1の特徴ベクトル生成部13と同一の機能を有するので、第1の特徴ベクトル生成部13を兼用する構成であっても良い。
【0040】
第2の判定部23は、所定の判定ルール(例えば、S25Rや、DNSBL等)に基づいて、収集部21により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールがスパムメールであるか又は正常メールであるかを判定する。本実施例においては、第2の判定部23は、S25RとDNSBLの双方においてスパムメールであると判定された場合には、スパムメールであると判定するが、これに限られない。
【0041】
比較部24は、第2の判定部23によって判定された結果に基づいて、特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する。ラベル付与部25は、比較部24の比較結果に基づいて、特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与する。
【0042】
作成部26は、ラベル付与部25により特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する。
【0043】
このような構成によれば、迷惑メール判定装置1は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成し、既存の判定ルール(例えば、S25RやDNSBL等)によりメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールか否かの判定を行い、当該判定結果に基づいて特徴ベクトルにラベルを付与し、この付与されたラベルに基づいて分類器を作成する。
【0044】
よって、迷惑メール判定装置1は、既存のルールに基づいてヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなくヘッダ情報を多用した学習に基づくスパムメールの分類器を作成することができる。また、迷惑メール判定装置1は、受信する電子メールのヘッダ情報に基づいて特徴ベクトルを生成し、生成した特徴ベクトルを作成した分類器にかけることにより、電子メールがスパムメールか否かを判定するので、単純に既存のルールを使用することによる誤検知、すなわち正常なメールをスパムメールであると誤検知する割合(false positive:FP)を低減することができる。
【0045】
また、迷惑メール判定装置1は、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて電子メールがスパムメールであるか否かを判定できるので、電子メールの本文(Body)を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。また、迷惑メール判定装置1は、人手によらず分類器を作成することができるので、分類器の作成過程において、人為的な要素を排除してコールドスタート的な動作ができる。
【0046】
<特徴ベクトルの生成方法>
ここで、第2の特徴ベクトル生成部22において、教師データから特徴ベクトルを生成する方法について説明する。教師データに含まれるメールログデータ又は電子メールのそれぞれに関して、特徴ベクトルriを以下のように定義する。なお、第1の特徴ベクトル生成部13により特徴ベクトルが生成される方法も同様である。
=(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11,xi12
【0047】
また、特徴ベクトルriの各要素(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11及びxi12)を以下のように定義する。
i1:SMTP(Simple Mail Transfer Protocol)セッション中のMAIL FROMコマンド中のメールアドレスのドメインが、IPアドレスのDNS逆引きホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
i2:SMTPセッション中のMAIL FROMコマンド中のメールアドレスのドメインがIPアドレスのDNS逆引きした際のAuthority section中のホスト名のドメインの中の少なくとも1つ以上と一致する場合を「1」とし、それ以外を「0」とする。
i3:SMTPセッション中のMAIL FROMコマンド中のメールアドレスのドメインがHELO/EHLOコマンド内のホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
i4:IPアドレスのDNS逆引きホスト名のドメインがIPアドレスのDNS逆引きした際のAuthority section中のホスト名のドメインの中の少なくとも1つ以上と一致する場合を「1」とし、それ以外を「0」とする。
i5:IPアドレスのDNS逆引きホスト名のドメインがHELO/EHLOコマンド内のホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
【0048】
i6:IPアドレスのDNS逆引きした際のAuthority section中のホスト名のドメインの中の少なくとも1つ以上がHELO/EHLOコマンド内のホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
i7:IPアドレスのDNS逆引きホスト名が存在する場合は「1」とし、それ以外「0」とする。
i8:(HELO/EHLOコマンド内のホスト名の中の数字の数)≧(IPアドレスに使われている数字の数)(e.g.HELO/EHLOコマンド内のホスト名:10.5.5.1,log−helo:10−5−5−1.example.com)の場合を「1」とし、それ以外を「0」とする。
i9:(IPアドレスのDNS逆引きホスト名の中の数字の数)≧(IPアドレスに使われている数字の数)の場合を「1」とし、それ以外を「0」とする。
i10:log−heloがトップレベルドメインで終わっていない場合を「1」とし、それ以外を「0」とする。
i11:自国から来ている場合を「1」とし、それ以外を「0」とする。また、IPアドレスと国との関係は、マッピングテーブルを参照することにより取得が可能である。迷惑メール判定装置1は、マッピングテーブルを自身が保有していても良いし、また、ネットワーク50を介してマッピングテーブルを保有している他の装置にアクセスして国情報を取得しても良い。
i12:HELO/EHLOコマンド内のホスト名にドットが含まれていない、又は、HELO/EHLOコマンド内のホスト名がIPアドレス形式でかつ実際のIPアドレスと一致しない、又は、HELO/EHLOコマンド内のホスト名のドメインが、RCPT TOコマンド内のメールアドレス(宛先メールアドレス)のドメインと一致した場合を「1」とし、それ以外を「0」とする。
【0049】
なお、本実施例では、「ドメイン」は、WHOISサーバ等に登録されている第2レベルドメイン又は第3レベルドメインまでと定義する。
【0050】
第2の特徴ベクトル生成部22は、例えば、電子メールaのヘッダ情報を解析し、解析結果に基づいて各要素を決定し、以下のように特徴ベクトルraを生成する。
ra=(xa1,xa2,xa3,xa4,xa5,xa6,xa7,xa8,xa9,xa10,xa11,xa12)=(1,1,1,1,1,1,1,1,1,1,0,0)
第2の特徴ベクトル生成部22は、このような特徴ベクトルriを教師データとして収集された全てのメールログデータ又は電子メールについて生成する。また、特徴ベクトルriは、本実施例においては、要素が12種類ある。したがって、理論的には、メールログデータ又は電子メールを4096種類に分類することができる。なお、上述した特徴ベクトルriの各定義は、例示であって、これ以外の要素が追加されても良く、要素を増加することにより4096種類以上にメールログデータ又は電子メールを分類することができ、要素の数に応じてメールログデータ又は電子メールを仔細に分類することができる。
【0051】
<ラベル付与(1)>
また、ラベル付与部25は、第2の特徴ベクトル生成部22により生成した特徴ベクトルriに対して、以下に示す第1の条件のみを満たす場合には、迷惑メールであることを示すラベルS(Spam)を付与し、以下に示す第2の条件を満たす場合には、正常メールであることを示すラベルH(Ham)を付与する。
【数3】

【0052】
このような構成によれば、迷惑メール判定装置1は、k1とk2を任意に設定することにより(例えば、k1=0.001、k2=0)、正常なメールをスパムメールであると誤って判定されることがなくなる。
【0053】
<ラベル付与(2)>
また、ラベル付与部25は、第2の特徴ベクトル生成部22により生成された特徴ベクトルriをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて第1の特徴ベクトルsiと第2の特徴ベクトルtiに分割し、以下の手順によって特徴ベクトルriに対してラベルS又はラベルHを付与しても良い。
=(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11,xi12
si=(xi1,xi2,xi3,xi4,xi5,xi6
ti=(xi7,xi8,xi9,xi10,xi11,xi12
【0054】
ラベル付与部25は、以下に示す第3の条件を満たす場合には、特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、第3の条件を満たさないが、以下に示す第4の条件を満たす場合には、特徴ベクトルriに対して正常メールであることを示すラベルHを付与する。
【0055】
また、ラベル付与部25は、第3の条件及び第4の条件を満たさない場合には、以下の手順によって特徴ベクトルriに対して第1のラベルs1から第6のラベルn2のいずれかを付与する。
ラベル付与部25は、以下に示す第5の条件を満たす場合には、第1の特徴ベクトルsiに対して第1のラベルs1を付与し、第5の条件を満たさないが、以下に示す第6の条件を満たす場合には、第1の特徴ベクトルsiに対して第2のラベルh1を付与し、第5の条件及び第6の条件を満たさない場合には、第1の特徴ベクトルsiに対して第3のラベルn1を付与する。また、ラベル付与部25は、以下に示す第7の条件を満たす場合には、第2の特徴ベクトルtiに対して第4のラベルs2を付与し、第7の条件を満たさないが、以下に示す第8の条件を満たす場合には、第2の特徴ベクトルtiに対して第5のラベルh2を付与し、第7の条件及び第8の条件を満たさない場合には、第2の特徴ベクトルtiに対して第6のラベルn2を付与する。
【0056】
そして、ラベル付与部25は、第1の特徴ベクトルsiと第2の特徴ベクトルtiに付与されているラベルの組み合わせが、第1のラベルs1と第4のラベルs2の組み合わせ、第1のラベルs1と第6のラベルn2の組み合わせ、又は第3のラベルn1と第4のラベルs2の組み合わせの場合には、特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与する。また、ラベル付与部25は、第1の特徴ベクトルsiと第2の特徴ベクトルtiに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、特徴ベクトルriに対して正常メールであることを示すラベルHを付与する。
【数4】

但し、kr1,ks1,kt1、kr2,ks2,kt2は、0≦kr1<1、0≦ks1<1、0≦kt1<1、0≦kr2<1、0≦ks2<1、0≦kt2<1を満たす任意の値である。また、所定のルールとは、例えば、S25RやDNSBL等である。
【0057】
このような構成によれば、迷惑メール判定装置1は、kr1、kr2、ks1、ks2、kt1及びkt2を任意に設定することにより(例えば、kr1=ks1=kt1=0.001、kr2=ks2=kt2=0)、受信する全てのメールについて、スパムメールであるか又は正常なメールであるかの判定を行い、正常なメールをスパムメールであると誤って判定することがない。
【0058】
また、作成部26は、ラベル付与部25により特徴ベクトルに対して付与されたラベルに基づいて、分類器を作成する。迷惑メール判定装置1は、このように作成された分類器を用いて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかの判定を行うことができる。また、迷惑メール判定装置1は、判定した結果をラベル付与部25にフィードバックして、分類器を更新することによって、メールログデータ又は電子メールの受信数の増加に応じた学習効果が期待できる。
【0059】
<スパム判定方法>
つぎに、受信した電子メールがスパムメールか否かを判定する方法について図4に示すフローチャートを参照しながら説明する。
受信工程ST1において、受信部11は、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する。
【0060】
解析工程ST2において、解析部12は、セッションの過程で受信工程ST1により受信したヘッダ情報を解析する。
特徴ベクトル生成工程ST3において、第1の特徴ベクトル生成部13は、解析工程ST2により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する。
【0061】
分類器作成工程ST4において、分類器作成部14は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、特徴ベクトルとラベルとを関連付けて迷惑メールの分類器を生成する。
【0062】
判定工程ST5において、第1の判定部15は、特徴ベクトル生成工程ST3により生成された特徴ベクトルを分類器作成工程ST4により生成された分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する。
制御工程ST6において、制御部16は、判定工程ST5により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように受信部11を制御する。
【0063】
このようにして、迷惑メール判定方法は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。
【0064】
よって、迷惑メール判定方法は、ヘッダ情報に基づいて単に、逆引きできないクライアントを許否したり、逆引き名からメールサーバでないと推定されるクライアントを許否するものでなく、また、単に、ユーザの報告に基づき作成されたIPアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定し、メール本文を受信することを拒否するものでないので、FP及びFNが既存のルール(例えば、S25RやDSNBL等)よりも小さくすることができ、かつDSNBLのように通信先のホスト情報を外部に漏洩することがなく、安全かつ効率的にスパムメールであるか否かを判定することができる。
【0065】
<実施例>
つぎに、迷惑メール判定装置1を利用したスパムメール判定システム100の構成と動作について説明する。スパムメール判定システム100は、図3に示すように、SMTPサーバ110と、ルール作成部120と、SMTPサーバ130と、スパムメール判定DNSサーバ140とを備える。なお、SMTPサーバ110は、分類器作成部14の収集部21に相当する機能を有する。また、ルール作成部120は、第2の特徴ベクトル生成部22と、第2の判定部23と、比較部24と、ラベル付与部25と、作成部26に相当する機能を有する。また、SMTPサーバ130は、受信部11と、解析部12と、第1の特徴ベクトル生成部13に相当する機能を有する。また、スパムメール判定DNSサーバ140は、第1の判定部15と制御部16に相当する機能を有する。
【0066】
SMTPサーバ110は、メールログ格納部111と、ログ出力部112とを備える。メールログ格納部111は、過去に受信した電子メールや、ネットワーク50を介して他のサーバに蓄積されている電子メールや、メールログデータ(SMTPサーバ上に残される記録データ)等を教師データとして収集し、これらの履歴情報を保持する。ログ出力部112は、メールログ格納部111に格納されている履歴情報を自動的にルール作成部120に出力する。
【0067】
ルール作成部120は、ログ入力部121と、ルール作成部122と、ルール格納部123とを備え、SMTPサーバ110で保存されているメールログデータを解析し、スパムメールの検出のためのルール(上述した分類器に相当する)を自動的に作成する。
【0068】
ログ入力部121は、ログ出力部112から出力されたログに基づいて、ルール作成に必要な情報(ヘッダ情報)を収集し、収集したヘッダ情報をルール作成部122に送信する。ルール作成部122は、ログ入力部121で収集したヘッダ情報を加工してルールを作成する。具体気には、ルール作成部122は、上述した<特徴ベクトルの生成方法>にしたがってルール(分類器)を作成する。ルール格納部123は、ルール作成部122により作成されたルールを格納する。
【0069】
SMTPサーバ130は、MTA部131と、スパムメール判定エンジン部132とを備え、実際にスパムメールを含むメールを受信し、スパムメール判定を行うサーバである。MTA部131は、ユーザの端末から送信されてきた電子メールを受信して、他のサーバと連携して目的地となるサーバまで配送したり、他のサーバから配送されてきた電子メールをユーザの端末が受信するまで保管したりする機能を有している。
【0070】
スパムメール判定エンジン部132は、国情報取得部133と、IPアドレス逆引き部134と、特徴ベクトル作成部135と、クエリ部136とを備え、スパムメール判定に必要な情報(HELO、IPアドレス、エンベロープFrom、TO等)から特徴ベクトルを生成し、スパムメール判定DNSサーバ140にクエリを行い、その判定結果をもとにスパム判定を行う機能を有している。
【0071】
国情報取得部133は、IPアドレスと国情報の対応関係が記されているマッピングテーブルを保持しており、当該マッピングテーブルを参照し、電子メールのヘッダ情報に含まれているIPアドレスに基づいて国情報を所得する。国情報取得部133は、取得した国情報と、SMTPサーバ130の置かれている国とが一致するかしないかを判断し、電子メールが自国から送信されたものか否かを判断する。なお、国情報取得部133は、SMTPサーバ130のIPアドレスを事前に登録しておくことにより、SMTPサーバ130が置かれている国の判別を行う。また、特徴ベクトル作成部135は、国情報取得部133により電子メールが自国から来ているか否かによって要素「xi11」の値を決定する。
【0072】
IPアドレス逆引き部134は、IPアドレスのDNS逆引きを行い、answer section、authority sectionのホスト名を取得する。
【0073】
特徴ベクトル作成部135は、第1の特徴ベクトル生成部13及び第2の特徴ベクトル生成部22と同様の機能を有しており、上述した<特徴ベクトルの生成方法>にしたがって、国情報、IPアドレス逆引き情報、及びHELO、エンベロープFrom、TO等から特徴ベクトル(r=(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11,xi12))を作成する。
【0074】
クエリ部136は、特徴ベクトル作成部135によって作成された特徴ベクトルに基づいてクエリを作成する。具体的には、クエリ部136は、スパムメール判定DNSサーバ140のホスト名が「xxx.example.com」であり、特徴ベクトルが「0,0,0,0,0,0,1,1,0,1,0,0」であった場合には、「000000110100.xxx.example.com」をクエリとして作成し、その正引きをスパムメール判定DNSサーバ140に求める。
【0075】
また、クエリ部136は、後述する回答部141からの回答結果(スパムメール(S)又は正常メール(H))に基づいて、スパムメールか否かを判定し、MTA部131に送信する。MTA部131は、クエリ部136から送信された判定結果(スパムメール(S)又は正常メール(H))に基づいて、電子メールの本文を受信するか否かを決定する。具体的には、MTA部131は、クエリ部136から送信された判定結果がスパムメール(S)である場合には、電子メールの本文を受信せずに破棄(ブロック)し、クエリ部136から送信された判定結果が正常メール(H)である場合には、電子メールの本文を受信する。
【0076】
また、スパムメール判定DNSサーバ140は、回答部141と、判定部142とを備える。回答部141は、クエリ部136からクエリ「000000110100.xxx.example.com」を受け取り、受け取ったクエリから特徴ベクトル「000000110100」を抽出し、抽出した特徴ベクトルを判定部142に送信する。また、回答部141は、判定部142による判定結果(スパムメール(S)又は正常メール(H))をクエリ部136に送信する。
【0077】
判定部142は、特徴ベクトル「000000110100」を受け取り、ルール格納部123に対して必要情報を問い合わせる。具体的には、判定部142は、ルール格納部123に格納されているルール(分類器)に基づいて、回答部141から受け取った特徴ベクトルと同一の特徴ベクトルに対して付与されているラベルがスパムメールを示すラベルSであるか、正常メールを示すラベルHであるかを確認する。
そして、判定部142は、スパムメールを示すラベルSが付与されていると確認した場合には、「127.0.0.1(仮)」を判定結果として回答部141に送信し、一方、正常メールを示すラベルHが付与されていると確認した場合には、「127.0.0.2(仮)」を判定結果として回答部141に送信する。
【0078】
回答部141は、判定部142から「127.0.0.1(仮)」を受信した場合には、スパムメール(S)である旨の判定結果をクエリ部136に送信し、判定部142から「127.0.0.2(仮)」を受信した場合には、正常メール(H)である旨の判定結果をクエリ部136に送信する。
【0079】
このようにして、スパムメール判定システム100は、ヘッダ情報に基づいて単に、逆引きできないクライアントを許否したり、逆引き名からメールサーバでないと推定されるクライアントを許否するものでなく、また、単に、ユーザの報告に基づき作成されたIPアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定し、メール本文を受信することを拒否するものでないので、FP及びFNが既存のルール(例えば、S25RやDSNBL等)よりも小さくすることができ、かつDSNBLのように通信先のホスト情報を外部に漏洩することがなく、安全かつ効率的にスパムメールであるか否かを判定することができる。なお、本実施例では、回答部141は、回答の結果をクエリ部136に返信しているが、これに限られず、MTA部131に直接回答の結果を返信しても良い。
【0080】
また、上述で説明した迷惑メール判定装置1及びスパムメール判定システム100による一連の処理は、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。また、当該プログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されても良いし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されても良い。
【符号の説明】
【0081】
1 迷惑メール判定装置
11 受信部
12 解析部
13 第1の特徴ベクトル生成部
14 分類器作成部
15 第1の判定部
16 制御部
21 収集部
22 第2の特徴ベクトル生成部
23 第2の判定部
24 比較部
25 ラベル付与部
26 作成部
50 ネットワーク
100 スパムメール判定システム
111 メールログ格納部
112 ログ出力部
110 SMTPサーバ
120 ルール作成部
121 ログ入力部
122 ルール作成部
123 ルール格納部
130 SMTPサーバ
131 MTA部
132 スパムメール判定エンジン部
133 国情報取得部
134 IPアドレス逆引き部
135 特徴ベクトル作成部
136 クエリ部
140 スパムメール判定DNSサーバ
141 回答部
142 判定部

【特許請求の範囲】
【請求項1】
ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信部と、
前記セッションの過程で前記受信部により受信した前記ヘッダ情報を解析する解析部と、
前記解析部により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する第1の特徴ベクトル生成部と、
予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成部と、
前記第1の特徴ベクトル生成部により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する第1の判定部と、
前記第1の判定部により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信部を制御する制御部とを備えることを特徴とする迷惑メール判定装置。
【請求項2】
前記分類器作成部は、
前記教師データとして複数のメールログデータ又は電子メールを収集する収集部と、
前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する第2の特徴ベクトル生成部と、
前記所定の判定方法に基づいて、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する第2の判定部と、
前記第2の判定部によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較部と、
前記比較部の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与部と、
前記ラベル付与部により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する前記分類器を作成する作成部とを備えることを特徴とする請求項1記載の迷惑メール判定装置。
【請求項3】
前記ラベル付与部は、第1の条件のみを満たす場合には、特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、第2の条件を満たす場合には、特徴ベクトルriに対して正常メールであることを示すラベルHを付与することを特徴とする請求項2記載の迷惑メール判定装置。
【数1】

【請求項4】
前記ラベル付与部は、前記第2の特徴ベクトル生成部により生成された特徴ベクトルriをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて、第1の特徴ベクトルsiと第2の特徴ベクトルtiに分割し、
第3の条件を満たす場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、
前記第3の条件を満たさないが、第4の条件を満たす場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与し、
前記第3の条件及び前記第4の条件を満たさない場合であって、
第5の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第1のラベルs1を付与し、
前記第5の条件を満たさないが第6の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第2のラベルh1を付与し、
前記第5の条件及び前記第6の条件を満たさない場合には、前記第1の特徴ベクトルsiに対して第3のラベルn1を付与し、
第7の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第4のラベルs2を付与し、
前記第7の条件を満たさないが第8の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第5のラベルh2を付与し、
前記第7の条件及び前記第8の条件を満たさない場合には、前記第2の特徴ベクトルtiに対して第6のラベルn2を付与し、
前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、前記第1のラベルs1と前記第4のラベルs2の組み合わせ、前記第1のラベルs1と前記第6のラベルn2の組み合わせ、又は前記第3のラベルn1と前記第4のラベルs2の組み合わせの場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、
前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与することを特徴とする請求項2記載の迷惑メール判定装置。
【数2】

但し、kr1,ks1,kt1、kr2,ks2,kt2は、0≦kr1<1、0≦ks1<1、0≦kt1<1、0≦kr2<1、0≦ks2<1、0≦kt2<1を満たす任意の値である。
【請求項5】
ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、
前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、
前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、
予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、
前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、
前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とを備えることを特徴とする迷惑メール判定方法。
【請求項6】
迷惑メールであるか又は正常メールであるかを判定する方法をコンピュータによって実現するための迷惑メール判定プログラムであって、
ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、
前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、
前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、
予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、
前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、
前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とをコンピュータによって実現するための迷惑メール判定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate