迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラム

【課題】ＦＰ及びＦＮが既存のルールよりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定する迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラムを提供すること。
【解決手段】電子メールを受信する受信部１１と、セッションの過程で受信部１１により受信したヘッダ情報を解析する解析部１２と、解析部１２により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する第１の特徴ベクトル生成部１３と、特徴ベクトルとラベルとを関連付けて迷惑メールの分類器を生成する分類器作成部１４と、特徴ベクトルを分類器に入力し、特徴ベクトルに付与されているラベルを判定する第１の判定部１５と、特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように受信部１１を制御する制御部１６とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、受信した電子メールが迷惑メールであるか又は正常メールであるかを判定する迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラムに関する。
【背景技術】
【０００２】
近年、ネットワークの発展により、気軽に電子メール（以下、メールという）を送受信できるようになったことに伴い、スパムメール（ｓｐａｍｍａｉｌ）の数も増大している。ここで、「スパムメール」とは、受信者の意図を無視して事前の要請や同意なしに、無差別かつ大量発信されるメールを意味するものである。なお、このスパムメールの同義語として、「迷惑メール」、「ジャンクメール」、「ＵＣＥ（ＵｎｓｏｌｉｃｉｔｅｄＣｏｍｍｅｒｃｉａｌＥｍａｉｌ）」、「ＵＢＥ（ＵｎｓｏｌｉｃｉｔｅｄＢｕｌｋＥｍａｉｌ）」等がある。
【０００３】
このようなスパムメールは、添付ファイル等によるウイルス感染や、不要なメールの増加による受信者の業務生産性及び効率の低下や、トラフィックの増加によるサーバ及びネットワークへの負荷増大や、詐欺サイトへの誘導等によるプライバシーや機密情報の漏洩等の点において、個人及び団体を問わずに脅威となり得るものである。
【０００４】
上記のようなスパムメールによる問題は、既に社会問題の域にまで達している。メールアドレスが安価に入手可能であることや、定額料金の高速通信が安価で提供されていること等を鑑みると、今後、スパムメールは減少することなくますます増加していくと考えられ、スパムメールに対する有効な対策が早急に要求されている。
【０００５】
ここで、メール本文を受信する前に得られる情報（ヘッダ情報）からスパムメールかどうかを判断し、メール本文を受信することを拒否する技術が提案されている（非特許文献１を参照。）。この技術によると、スパムメールやスパムメール送信サーバに頻繁に出現する性質（文字列の特徴）を画一的なルールにしている。また、ユーザの報告に基づき作成されたＩＰアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定して、メール本文を受信することを拒否する技術が提案されている（非特許文献２を参照。）。なお、「ヘッダ情報」とは、ＳＭＴＰセッション中のコマンドやＩＰアドレスも含めた概念である。
【先行技術文献】
【非特許文献】
【０００６】
【非特許文献１】スパムメール判定方法（Ｓ２５Ｒ）、［平成２１年７月１５日］、インターネット＜ｈｔｔｐ：／／ｗｗｗ．ｇａｂａｃｈｏ−ｎｅｔ．ｊｐ／ａｎｔｉ−ｓｐａｍ／ｐａｐｅｒ．ｈｔｍｌ＞
【非特許文献２】スパムメール判定方法（ｓｐａｍｈａｕｓ）、［平成２１年７月１５日］、インターネット＜ｈｔｔｐ：／／ｗｗｗ．ｓｐａｍｈａｕｓ．ｏｒｇ／＞
【発明の概要】
【発明が解決しようとする課題】
【０００７】
ところで、非特許文献１に係る技術では、ヘッダ情報に基づいてスパムメールか否かを判定するため、外部に通信先のホスト情報（ＳＭＴＰサーバがどのメールサーバから電子メールを受信しているか等の情報）が漏洩することはないが、発明者等の研究によると、正常なメールをスパムメールと判断してしまう割合（ｆａｌｓｅｐｏｓｉｔｉｖｅ：ＦＰ）は１０％以上も存在することが分かった。
【０００８】
一方、非特許文献２に記載のｓｐａｍｈａｕｓのＤＮＳＢＬ（ＤｏｍａｉｎＮａｍｅＳｙｓｔｅｍＢｌａｃｋＬｉｓｔ）は、発明者等の研究によると、ユーザからの報告をもとにするため、スパムメールを見逃す割合（ｆａｌｓｅｎｅｇａｔｉｖｅ：ＦＮ）が２０％程度存在することが分かった。さらに、ｓｐａｍｈａｕｓのＤＮＳＢＬでは、通信先のホスト情報を全てクエリとして外部のＤＳＮＢＬサーバに問い合わせを行うため、ＤＮＳＢＬサーバは、どのメールサーバとどのメールサーバが情報をやり取りしているのかを把握できてしまう。
【０００９】
本発明は、ＦＰ及びＦＮが非特許文献１、２に示す技術よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定する迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【００１０】
本発明では、以下のような解決手段を提供する。
【００１１】
（１）本発明に係る迷惑メール判定装置は、上記課題を解決するために、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信部と、前記セッションの過程で前記受信部により受信した前記ヘッダ情報を解析する解析部と、前記解析部により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する第１の特徴ベクトル生成部と、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成部と、前記第１の特徴ベクトル生成部により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する第１の判定部と、前記第１の判定部により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信部を制御する制御部とを備える。
【００１２】
このような構成によれば、迷惑メール判定装置は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。
【００１３】
よって、迷惑メール判定装置は、ＦＰ及びＦＮが既存のルール（例えば、Ｓ２５Ｒや、ＤＳＮＢＬ等）よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。
【００１４】
（２）上記迷惑メール判定装置では、前記分類器作成部は、前記教師データとして複数のメールログデータ又は電子メールを収集する収集部と、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する第２の特徴ベクトル生成部と、前記所定の判定方法に基づいて、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する第２の判定部と、前記第２の判定部によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較部と、前記比較部の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与部と、前記ラベル付与部により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する前記分類器を作成する作成部とを備えることが好ましい。
【００１５】
このような構成によれば、迷惑メール判定装置は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成し、既存の判定ルール（例えば、Ｓ２５Ｒや、ＤＮＳＢＬ等）によりメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールか否かの判定を行い、当該判定結果に基づいて特徴ベクトルにラベルを付与し、この付与されたラベルに基づいて分類器を作成する。
【００１６】
よって、迷惑メール判定装置は、既存のルールに基づいてヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなくヘッダ情報を多用した学習に基づくスパムメールの分類器を作成することができる。また、迷惑メール判定装置は、受信する電子メールのヘッダ情報に基づいて特徴ベクトルを生成し、生成した特徴ベクトルを作成した分類器にかけることにより、電子メールがスパムメールか否かを判定するので、単純に既存のルールを使用することによる誤検知、すなわち正常なメールをスパムメールであると誤検知する割合（ｆａｌｓｅｐｏｓｉｔｉｖｅ：ＦＰ）を低減することができる。
【００１７】
また、迷惑メール判定装置は、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて電子メールがスパムメールであるか否かを判定できるので、電子メールの本文（Ｂｏｄｙ）を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。また、迷惑メール判定装置は、人手によらず分類器を作成することができるので、分類器の作成過程において、人為的な要素を排除してコールドスタート的な動作ができる。
【００１８】
（３）上記迷惑メール判定装置では、前記ラベル付与部は、第１の条件のみを満たす場合には、特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、第２の条件を満たす場合には、特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与することが好ましい。
【数１】

【００１９】
このような構成によれば、迷惑メール判定装置は、ｋ１とｋ２を任意に設定することにより（例えば、ｋ１＝０．００１、ｋ２＝０）、正常なメールをスパムメールであると誤って判定されることがなくなる。
【００２０】
（４）上記迷惑メール判定装置では、前記ラベル付与部は、前記特徴ベクトル生成部により生成された特徴ベクトルｒｉをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて、第１の特徴ベクトルｓｉと第２の特徴ベクトルｔｉに分割し、第３の条件を満たす場合には、前記特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、前記第３の条件を満たさないが、第４の条件を満たす場合には、前記特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与し、前記第３の条件及び前記第４の条件を満たさない場合であって、第５の条件を満たす場合には、前記第１の特徴ベクトルｓｉに対して第１のラベルｓ１を付与し、前記第５の条件を満たさないが第６の条件を満たす場合には、前記第１の特徴ベクトルｓｉに対して第２のラベルｈ１を付与し、前記第５の条件及び前記第６の条件を満たさない場合には、前記第１の特徴ベクトルｓｉに対して第３のラベルｎ１を付与し、第７の条件を満たす場合には、前記第２の特徴ベクトルｔｉに対して第４のラベルｓ２を付与し、前記第７の条件を満たさないが第８の条件を満たす場合には、前記第２の特徴ベクトルｔｉに対して第５のラベルｈ２を付与し、前記第７の条件及び前記第８の条件を満たさない場合には、前記第２の特徴ベクトルｔｉに対して第６のラベルｎ２を付与し、前記第１の特徴ベクトルｓｉと前記第２の特徴ベクトルｔｉに付与されているラベルの組み合わせが、前記第１のラベルｓ１と前記第４のラベルｓ２の組み合わせ、前記第１のラベルｓ１と前記第６のラベルｎ２の組み合わせ、又は前記第３のラベルｎ１と前記第４のラベルｓ２の組み合わせの場合には、前記特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、前記第１の特徴ベクトルｓｉと前記第２の特徴ベクトルｔｉに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、前記特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与することが好ましい。
【数２】

但し、ｋｒ１，ｋｓ１，ｋｔ１、ｋｒ２，ｋｓ２，ｋｔ２は、０≦ｋｒ１＜１、０≦ｋｓ１＜１、０≦ｋｔ１＜１、０≦ｋｒ２＜１、０≦ｋｓ２＜１、０≦ｋｔ２＜１を満たす任意の値である。
【００２１】
このような構成によれば、迷惑メール判定装置は、ｋｒ１、ｋｒ２、ｋｓ１、ｋｓ２、ｋｔ１及びｋｔ２を任意に設定することにより（例えば、ｋｒ１＝ｋｓ１＝ｋｔ１＝０．００１、ｋｒ２＝ｋｓ２＝ｋｔ２＝０）、受信する全てのメールについて、スパムメールであるか又は正常なメールであるかの判定を行い、正常なメールをスパムメールであると誤って判定することがない。
【００２２】
（５）本発明に係る迷惑メール判定方法は、上記課題を解決するために、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とを備えることを特徴とする。
【００２３】
このような構成によれば、迷惑メール判定方法は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。
【００２４】
よって、迷惑メール判定方法は、ＦＰ及びＦＮが既存のルール（例えば、Ｓ２５Ｒや、ＤＳＮＢＬ等）よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。
【００２５】
（６）本発明に係る迷惑メール判定プログラムは、上記課題を解決するために、迷惑メールであるか又は正常メールであるかを判定する方法をコンピュータによって実現するための迷惑メール判定プログラムであって、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とをコンピュータによって実現することを特徴とする。
【００２６】
このような構成によれば、迷惑メール判定プログラムは、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。
【００２７】
よって、迷惑メール判定プログラムは、ＦＰ及びＦＮが既存のルール（例えば、Ｓ２５Ｒや、ＤＳＮＢＬ等）よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。
【発明の効果】
【００２８】
本発明によれば、ＦＰ及びＦＮが既存のルール（例えば、Ｓ２５Ｒや、ＤＳＮＢＬ等）よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。
【図面の簡単な説明】
【００２９】
【図１】本実施形態に係る迷惑メール判定装置の構成を示すブロック図である。
【図２】本実施形態に係る迷惑メール判定装置の分類器生成部の構成を示すブロック図である。
【図３】本実施形態に係る迷惑メール判定装置を利用したスパムメール判定システムの構成を示すブロック図である。
【図４】スパムメールか否かを判定する手順についての説明に供するフローチャートである。
【発明を実施するための形態】
【００３０】
以下、本発明の実施形態の一例について図１から図４を参照しながら説明する。本発明の実施形態に係る迷惑メール判定装置１は、電子メールの送受信を行う一連のセッションにおいて、ヘッダ情報を受信した状態、すなわち本文を受信する前の状態において、電子メールが迷惑メール（以下、スパムメールという。）であるか否かを判定し、スパムメールであると判定した場合には、電子メールの本文の受信を破棄（ブロック）する装置である。なお、「ヘッダ情報」とは、ＳＭＴＰセッション中のコマンドやＩＰアドレスも含めた概念である。
【００３１】
迷惑メール判定装置１は、図１に示すように、受信部１１と、解析部１２と、第１の特徴ベクトル生成部１３と、分類器作成部１４と、第１の判定部１５と、制御部１６とを備える。
受信部１１は、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する。また、受信部１１は、ＭＴＡ（ｍｅｓｓａｇｅｔｒａｎｓｆｅｒａｇｅｎｔ）としての機能を有しており、ユーザの端末から送信されてきた電子メールを受信して、他のサーバと連携して目的地となるサーバまで配送したり、他のサーバから配送されてきた電子メールをユーザの端末が受信するまで保管したりする機能を有している。
【００３２】
解析部１２は、電子メールを受信する一連のセッションの過程で受信部１１により受信したヘッダ情報を解析する。解析部１２は、具体的には、ヘッダ情報に含まれている情報から、マッピングテーブルを参照して国情報を取得したり、ＩＰアドレスの逆引き等を行ったりする。
第１の特徴ベクトル生成部１３は、解析部１２により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する。なお、特徴ベクトルの具体的な生成方法については後述する。
【００３３】
分類器作成部１４は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、特徴ベクトルとラベルとを関連付けて迷惑メールの分類器を生成する。なお、メールログデータとは、ＳＭＴＰサーバ上に残される記録データのことである。また、分類器の具体的な生成方法については後述する。
【００３４】
第１の判定部１５は、第１の特徴ベクトル生成部１３により生成された特徴ベクトルを分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する。
制御部１６は、第１の判定部１５により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように受信部１１を制御する。
【００３５】
このような構成によれば、迷惑メール判定装置１は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。
【００３６】
よって、迷惑メール判定装置１は、ヘッダ情報に基づいて単に、逆引きできないクライアントを許否したり、逆引き名からメールサーバでないと推定されるクライアントを許否するものでなく、また、単に、ユーザの報告に基づき作成されたＩＰアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定し、メール本文を受信することを拒否するものでないので、ＦＰ及びＦＮが既存のルール（例えば、Ｓ２５ＲやＤＳＮＢＬ等）よりも小さくすることができ、かつＤＳＮＢＬのように通信先のホスト情報を外部に漏洩することがなく、安全かつ効率的にスパムメールであるか否かを判定することができる。
【００３７】
つぎに、分類器作成部１４の具体的な構成と動作について説明する。分類器作成部１４は、図２に示すように、収集部２１と、第２の特徴ベクトル生成部２２と、第２の判定部２３と、比較部２４と、ラベル付与部２５と、作成部２６とを備える。
【００３８】
収集部２１は、教師データとして複数のメールログデータ又は電子メールを収集する。具体的には、収集部２１は、過去に受信したメールログデータ又は電子メールや、ネットワーク５０を介して他のサーバに蓄積されているメールログデータ又は電子メールを教師データとして収集する。なお、収集したメールログデータ又は電子メールには、スパムメールと判定されたメールや、正常なメールであると判定されたメールが含まれている。
【００３９】
第２の特徴ベクトル生成部２２は、収集部２１により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する。なお、特徴ベクトルの生成方法については後述する。また、第２の特徴ベクトル生成部２２は、第１の特徴ベクトル生成部１３と同一の機能を有するので、第１の特徴ベクトル生成部１３を兼用する構成であっても良い。
【００４０】
第２の判定部２３は、所定の判定ルール（例えば、Ｓ２５Ｒや、ＤＮＳＢＬ等）に基づいて、収集部２１により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールがスパムメールであるか又は正常メールであるかを判定する。本実施例においては、第２の判定部２３は、Ｓ２５ＲとＤＮＳＢＬの双方においてスパムメールであると判定された場合には、スパムメールであると判定するが、これに限られない。
【００４１】
比較部２４は、第２の判定部２３によって判定された結果に基づいて、特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する。ラベル付与部２５は、比較部２４の比較結果に基づいて、特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与する。
【００４２】
作成部２６は、ラベル付与部２５により特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する。
【００４３】
このような構成によれば、迷惑メール判定装置１は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成し、既存の判定ルール（例えば、Ｓ２５ＲやＤＮＳＢＬ等）によりメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールか否かの判定を行い、当該判定結果に基づいて特徴ベクトルにラベルを付与し、この付与されたラベルに基づいて分類器を作成する。
【００４４】
よって、迷惑メール判定装置１は、既存のルールに基づいてヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなくヘッダ情報を多用した学習に基づくスパムメールの分類器を作成することができる。また、迷惑メール判定装置１は、受信する電子メールのヘッダ情報に基づいて特徴ベクトルを生成し、生成した特徴ベクトルを作成した分類器にかけることにより、電子メールがスパムメールか否かを判定するので、単純に既存のルールを使用することによる誤検知、すなわち正常なメールをスパムメールであると誤検知する割合（ｆａｌｓｅｐｏｓｉｔｉｖｅ：ＦＰ）を低減することができる。
【００４５】
また、迷惑メール判定装置１は、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて電子メールがスパムメールであるか否かを判定できるので、電子メールの本文（Ｂｏｄｙ）を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。また、迷惑メール判定装置１は、人手によらず分類器を作成することができるので、分類器の作成過程において、人為的な要素を排除してコールドスタート的な動作ができる。
【００４６】
＜特徴ベクトルの生成方法＞
ここで、第２の特徴ベクトル生成部２２において、教師データから特徴ベクトルを生成する方法について説明する。教師データに含まれるメールログデータ又は電子メールのそれぞれに関して、特徴ベクトルｒｉを以下のように定義する。なお、第１の特徴ベクトル生成部１３により特徴ベクトルが生成される方法も同様である。
ｒ_ｉ＝（ｘ_ｉ１，ｘ_ｉ２，ｘ_ｉ３，ｘ_ｉ４，ｘ_ｉ５，ｘ_ｉ６，ｘ_ｉ７，ｘ_ｉ８，ｘ_ｉ９，ｘ_ｉ１０，ｘ_ｉ１１，ｘ_ｉ１２）
【００４７】
また、特徴ベクトルｒｉの各要素（ｘ_ｉ１，ｘ_ｉ２，ｘ_ｉ３，ｘ_ｉ４，ｘ_ｉ５，ｘ_ｉ６，ｘ_ｉ７，ｘ_ｉ８，ｘ_ｉ９，ｘ_ｉ１０，ｘ_ｉ１１及びｘ_ｉ１２）を以下のように定義する。
ｘ_ｉ１：ＳＭＴＰ（ＳｉｍｐｌｅＭａｉｌＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）セッション中のＭＡＩＬＦＲＯＭコマンド中のメールアドレスのドメインが、ＩＰアドレスのＤＮＳ逆引きホスト名のドメインと一致する場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ２：ＳＭＴＰセッション中のＭＡＩＬＦＲＯＭコマンド中のメールアドレスのドメインがＩＰアドレスのＤＮＳ逆引きした際のＡｕｔｈｏｒｉｔｙｓｅｃｔｉｏｎ中のホスト名のドメインの中の少なくとも１つ以上と一致する場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ３：ＳＭＴＰセッション中のＭＡＩＬＦＲＯＭコマンド中のメールアドレスのドメインがＨＥＬＯ／ＥＨＬＯコマンド内のホスト名のドメインと一致する場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ４：ＩＰアドレスのＤＮＳ逆引きホスト名のドメインがＩＰアドレスのＤＮＳ逆引きした際のＡｕｔｈｏｒｉｔｙｓｅｃｔｉｏｎ中のホスト名のドメインの中の少なくとも１つ以上と一致する場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ５：ＩＰアドレスのＤＮＳ逆引きホスト名のドメインがＨＥＬＯ／ＥＨＬＯコマンド内のホスト名のドメインと一致する場合を「１」とし、それ以外を「０」とする。
【００４８】
ｘ_ｉ６：ＩＰアドレスのＤＮＳ逆引きした際のＡｕｔｈｏｒｉｔｙｓｅｃｔｉｏｎ中のホスト名のドメインの中の少なくとも１つ以上がＨＥＬＯ／ＥＨＬＯコマンド内のホスト名のドメインと一致する場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ７：ＩＰアドレスのＤＮＳ逆引きホスト名が存在する場合は「１」とし、それ以外「０」とする。
ｘ_ｉ８：（ＨＥＬＯ／ＥＨＬＯコマンド内のホスト名の中の数字の数）≧（ＩＰアドレスに使われている数字の数）（ｅ．ｇ．ＨＥＬＯ／ＥＨＬＯコマンド内のホスト名：１０．５．５．１，ｌｏｇ−ｈｅｌｏ：１０−５−５−１．ｅｘａｍｐｌｅ．ｃｏｍ）の場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ９：（ＩＰアドレスのＤＮＳ逆引きホスト名の中の数字の数）≧（ＩＰアドレスに使われている数字の数）の場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ１０：ｌｏｇ−ｈｅｌｏがトップレベルドメインで終わっていない場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ１１：自国から来ている場合を「１」とし、それ以外を「０」とする。また、ＩＰアドレスと国との関係は、マッピングテーブルを参照することにより取得が可能である。迷惑メール判定装置１は、マッピングテーブルを自身が保有していても良いし、また、ネットワーク５０を介してマッピングテーブルを保有している他の装置にアクセスして国情報を取得しても良い。
ｘ_ｉ１２：ＨＥＬＯ／ＥＨＬＯコマンド内のホスト名にドットが含まれていない、又は、ＨＥＬＯ／ＥＨＬＯコマンド内のホスト名がＩＰアドレス形式でかつ実際のＩＰアドレスと一致しない、又は、ＨＥＬＯ／ＥＨＬＯコマンド内のホスト名のドメインが、ＲＣＰＴＴＯコマンド内のメールアドレス（宛先メールアドレス）のドメインと一致した場合を「１」とし、それ以外を「０」とする。
【００４９】
なお、本実施例では、「ドメイン」は、ＷＨＯＩＳサーバ等に登録されている第２レベルドメイン又は第３レベルドメインまでと定義する。
【００５０】
第２の特徴ベクトル生成部２２は、例えば、電子メールａのヘッダ情報を解析し、解析結果に基づいて各要素を決定し、以下のように特徴ベクトルｒａを生成する。
ｒａ＝（ｘ_ａ１，ｘ_ａ２，ｘ_ａ３，ｘ_ａ４，ｘ_ａ５，ｘ_ａ６，ｘ_ａ７，ｘ_ａ８，ｘ_ａ９，ｘ_ａ１０，ｘ_ａ１１，ｘ_ａ１２）＝（１，１，１，１，１，１，１，１，１，１，０，０）
第２の特徴ベクトル生成部２２は、このような特徴ベクトルｒｉを教師データとして収集された全てのメールログデータ又は電子メールについて生成する。また、特徴ベクトルｒｉは、本実施例においては、要素が１２種類ある。したがって、理論的には、メールログデータ又は電子メールを４０９６種類に分類することができる。なお、上述した特徴ベクトルｒｉの各定義は、例示であって、これ以外の要素が追加されても良く、要素を増加することにより４０９６種類以上にメールログデータ又は電子メールを分類することができ、要素の数に応じてメールログデータ又は電子メールを仔細に分類することができる。
【００５１】
＜ラベル付与（１）＞
また、ラベル付与部２５は、第２の特徴ベクトル生成部２２により生成した特徴ベクトルｒｉに対して、以下に示す第１の条件のみを満たす場合には、迷惑メールであることを示すラベルＳ（Ｓｐａｍ）を付与し、以下に示す第２の条件を満たす場合には、正常メールであることを示すラベルＨ（Ｈａｍ）を付与する。
【数３】

【００５２】
このような構成によれば、迷惑メール判定装置１は、ｋ１とｋ２を任意に設定することにより（例えば、ｋ１＝０．００１、ｋ２＝０）、正常なメールをスパムメールであると誤って判定されることがなくなる。
【００５３】
＜ラベル付与（２）＞
また、ラベル付与部２５は、第２の特徴ベクトル生成部２２により生成された特徴ベクトルｒｉをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて第１の特徴ベクトルｓｉと第２の特徴ベクトルｔｉに分割し、以下の手順によって特徴ベクトルｒｉに対してラベルＳ又はラベルＨを付与しても良い。
ｒ_ｉ＝（ｘ_ｉ１，ｘ_ｉ２，ｘ_ｉ３，ｘ_ｉ４，ｘ_ｉ５，ｘ_ｉ６，ｘ_ｉ７，ｘ_ｉ８，ｘ_ｉ９，ｘ_ｉ１０，ｘ_ｉ１１，ｘ_ｉ１２）
ｓｉ＝（ｘ_ｉ１，ｘ_ｉ２，ｘ_ｉ３，ｘ_ｉ４，ｘ_ｉ５，ｘ_ｉ６）
ｔｉ＝（ｘ_ｉ７，ｘ_ｉ８，ｘ_ｉ９，ｘ_ｉ１０，ｘ_ｉ１１，ｘ_ｉ１２）
【００５４】
ラベル付与部２５は、以下に示す第３の条件を満たす場合には、特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、第３の条件を満たさないが、以下に示す第４の条件を満たす場合には、特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与する。
【００５５】
また、ラベル付与部２５は、第３の条件及び第４の条件を満たさない場合には、以下の手順によって特徴ベクトルｒｉに対して第１のラベルｓ１から第６のラベルｎ２のいずれかを付与する。
ラベル付与部２５は、以下に示す第５の条件を満たす場合には、第１の特徴ベクトルｓｉに対して第１のラベルｓ１を付与し、第５の条件を満たさないが、以下に示す第６の条件を満たす場合には、第１の特徴ベクトルｓｉに対して第２のラベルｈ１を付与し、第５の条件及び第６の条件を満たさない場合には、第１の特徴ベクトルｓｉに対して第３のラベルｎ１を付与する。また、ラベル付与部２５は、以下に示す第７の条件を満たす場合には、第２の特徴ベクトルｔｉに対して第４のラベルｓ２を付与し、第７の条件を満たさないが、以下に示す第８の条件を満たす場合には、第２の特徴ベクトルｔｉに対して第５のラベルｈ２を付与し、第７の条件及び第８の条件を満たさない場合には、第２の特徴ベクトルｔｉに対して第６のラベルｎ２を付与する。
【００５６】
そして、ラベル付与部２５は、第１の特徴ベクトルｓｉと第２の特徴ベクトルｔｉに付与されているラベルの組み合わせが、第１のラベルｓ１と第４のラベルｓ２の組み合わせ、第１のラベルｓ１と第６のラベルｎ２の組み合わせ、又は第３のラベルｎ１と第４のラベルｓ２の組み合わせの場合には、特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与する。また、ラベル付与部２５は、第１の特徴ベクトルｓｉと第２の特徴ベクトルｔｉに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与する。
【数４】

但し、ｋｒ１，ｋｓ１，ｋｔ１、ｋｒ２，ｋｓ２，ｋｔ２は、０≦ｋｒ１＜１、０≦ｋｓ１＜１、０≦ｋｔ１＜１、０≦ｋｒ２＜１、０≦ｋｓ２＜１、０≦ｋｔ２＜１を満たす任意の値である。また、所定のルールとは、例えば、Ｓ２５ＲやＤＮＳＢＬ等である。
【００５７】
このような構成によれば、迷惑メール判定装置１は、ｋｒ１、ｋｒ２、ｋｓ１、ｋｓ２、ｋｔ１及びｋｔ２を任意に設定することにより（例えば、ｋｒ１＝ｋｓ１＝ｋｔ１＝０．００１、ｋｒ２＝ｋｓ２＝ｋｔ２＝０）、受信する全てのメールについて、スパムメールであるか又は正常なメールであるかの判定を行い、正常なメールをスパムメールであると誤って判定することがない。
【００５８】
また、作成部２６は、ラベル付与部２５により特徴ベクトルに対して付与されたラベルに基づいて、分類器を作成する。迷惑メール判定装置１は、このように作成された分類器を用いて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかの判定を行うことができる。また、迷惑メール判定装置１は、判定した結果をラベル付与部２５にフィードバックして、分類器を更新することによって、メールログデータ又は電子メールの受信数の増加に応じた学習効果が期待できる。
【００５９】
＜スパム判定方法＞
つぎに、受信した電子メールがスパムメールか否かを判定する方法について図４に示すフローチャートを参照しながら説明する。
受信工程ＳＴ１において、受信部１１は、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する。
【００６０】
解析工程ＳＴ２において、解析部１２は、セッションの過程で受信工程ＳＴ１により受信したヘッダ情報を解析する。
特徴ベクトル生成工程ＳＴ３において、第１の特徴ベクトル生成部１３は、解析工程ＳＴ２により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する。
【００６１】
分類器作成工程ＳＴ４において、分類器作成部１４は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、特徴ベクトルとラベルとを関連付けて迷惑メールの分類器を生成する。
【００６２】
判定工程ＳＴ５において、第１の判定部１５は、特徴ベクトル生成工程ＳＴ３により生成された特徴ベクトルを分類器作成工程ＳＴ４により生成された分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する。
制御工程ＳＴ６において、制御部１６は、判定工程ＳＴ５により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように受信部１１を制御する。
【００６３】
このようにして、迷惑メール判定方法は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。
【００６４】
よって、迷惑メール判定方法は、ヘッダ情報に基づいて単に、逆引きできないクライアントを許否したり、逆引き名からメールサーバでないと推定されるクライアントを許否するものでなく、また、単に、ユーザの報告に基づき作成されたＩＰアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定し、メール本文を受信することを拒否するものでないので、ＦＰ及びＦＮが既存のルール（例えば、Ｓ２５ＲやＤＳＮＢＬ等）よりも小さくすることができ、かつＤＳＮＢＬのように通信先のホスト情報を外部に漏洩することがなく、安全かつ効率的にスパムメールであるか否かを判定することができる。
【００６５】
＜実施例＞
つぎに、迷惑メール判定装置１を利用したスパムメール判定システム１００の構成と動作について説明する。スパムメール判定システム１００は、図３に示すように、ＳＭＴＰサーバ１１０と、ルール作成部１２０と、ＳＭＴＰサーバ１３０と、スパムメール判定ＤＮＳサーバ１４０とを備える。なお、ＳＭＴＰサーバ１１０は、分類器作成部１４の収集部２１に相当する機能を有する。また、ルール作成部１２０は、第２の特徴ベクトル生成部２２と、第２の判定部２３と、比較部２４と、ラベル付与部２５と、作成部２６に相当する機能を有する。また、ＳＭＴＰサーバ１３０は、受信部１１と、解析部１２と、第１の特徴ベクトル生成部１３に相当する機能を有する。また、スパムメール判定ＤＮＳサーバ１４０は、第１の判定部１５と制御部１６に相当する機能を有する。
【００６６】
ＳＭＴＰサーバ１１０は、メールログ格納部１１１と、ログ出力部１１２とを備える。メールログ格納部１１１は、過去に受信した電子メールや、ネットワーク５０を介して他のサーバに蓄積されている電子メールや、メールログデータ（ＳＭＴＰサーバ上に残される記録データ）等を教師データとして収集し、これらの履歴情報を保持する。ログ出力部１１２は、メールログ格納部１１１に格納されている履歴情報を自動的にルール作成部１２０に出力する。
【００６７】
ルール作成部１２０は、ログ入力部１２１と、ルール作成部１２２と、ルール格納部１２３とを備え、ＳＭＴＰサーバ１１０で保存されているメールログデータを解析し、スパムメールの検出のためのルール（上述した分類器に相当する）を自動的に作成する。
【００６８】
ログ入力部１２１は、ログ出力部１１２から出力されたログに基づいて、ルール作成に必要な情報（ヘッダ情報）を収集し、収集したヘッダ情報をルール作成部１２２に送信する。ルール作成部１２２は、ログ入力部１２１で収集したヘッダ情報を加工してルールを作成する。具体気には、ルール作成部１２２は、上述した＜特徴ベクトルの生成方法＞にしたがってルール（分類器）を作成する。ルール格納部１２３は、ルール作成部１２２により作成されたルールを格納する。
【００６９】
ＳＭＴＰサーバ１３０は、ＭＴＡ部１３１と、スパムメール判定エンジン部１３２とを備え、実際にスパムメールを含むメールを受信し、スパムメール判定を行うサーバである。ＭＴＡ部１３１は、ユーザの端末から送信されてきた電子メールを受信して、他のサーバと連携して目的地となるサーバまで配送したり、他のサーバから配送されてきた電子メールをユーザの端末が受信するまで保管したりする機能を有している。
【００７０】
スパムメール判定エンジン部１３２は、国情報取得部１３３と、ＩＰアドレス逆引き部１３４と、特徴ベクトル作成部１３５と、クエリ部１３６とを備え、スパムメール判定に必要な情報（ＨＥＬＯ、ＩＰアドレス、エンベロープＦｒｏｍ、ＴＯ等）から特徴ベクトルを生成し、スパムメール判定ＤＮＳサーバ１４０にクエリを行い、その判定結果をもとにスパム判定を行う機能を有している。
【００７１】
国情報取得部１３３は、ＩＰアドレスと国情報の対応関係が記されているマッピングテーブルを保持しており、当該マッピングテーブルを参照し、電子メールのヘッダ情報に含まれているＩＰアドレスに基づいて国情報を所得する。国情報取得部１３３は、取得した国情報と、ＳＭＴＰサーバ１３０の置かれている国とが一致するかしないかを判断し、電子メールが自国から送信されたものか否かを判断する。なお、国情報取得部１３３は、ＳＭＴＰサーバ１３０のＩＰアドレスを事前に登録しておくことにより、ＳＭＴＰサーバ１３０が置かれている国の判別を行う。また、特徴ベクトル作成部１３５は、国情報取得部１３３により電子メールが自国から来ているか否かによって要素「ｘ_ｉ１１」の値を決定する。
【００７２】
ＩＰアドレス逆引き部１３４は、ＩＰアドレスのＤＮＳ逆引きを行い、ａｎｓｗｅｒｓｅｃｔｉｏｎ、ａｕｔｈｏｒｉｔｙｓｅｃｔｉｏｎのホスト名を取得する。
【００７３】
特徴ベクトル作成部１３５は、第１の特徴ベクトル生成部１３及び第２の特徴ベクトル生成部２２と同様の機能を有しており、上述した＜特徴ベクトルの生成方法＞にしたがって、国情報、ＩＰアドレス逆引き情報、及びＨＥＬＯ、エンベロープＦｒｏｍ、ＴＯ等から特徴ベクトル（ｒ_ｉ＝（ｘ_ｉ１，ｘ_ｉ２，ｘ_ｉ３，ｘ_ｉ４，ｘ_ｉ５，ｘ_ｉ６，ｘ_ｉ７，ｘ_ｉ８，ｘ_ｉ９，ｘ_ｉ１０，ｘ_ｉ１１，ｘ_ｉ１２））を作成する。
【００７４】
クエリ部１３６は、特徴ベクトル作成部１３５によって作成された特徴ベクトルに基づいてクエリを作成する。具体的には、クエリ部１３６は、スパムメール判定ＤＮＳサーバ１４０のホスト名が「ｘｘｘ．ｅｘａｍｐｌｅ．ｃｏｍ」であり、特徴ベクトルが「０，０，０，０，０，０，１，１，０，１，０，０」であった場合には、「００００００１１０１００．ｘｘｘ．ｅｘａｍｐｌｅ．ｃｏｍ」をクエリとして作成し、その正引きをスパムメール判定ＤＮＳサーバ１４０に求める。
【００７５】
また、クエリ部１３６は、後述する回答部１４１からの回答結果（スパムメール（Ｓ）又は正常メール（Ｈ））に基づいて、スパムメールか否かを判定し、ＭＴＡ部１３１に送信する。ＭＴＡ部１３１は、クエリ部１３６から送信された判定結果（スパムメール（Ｓ）又は正常メール（Ｈ））に基づいて、電子メールの本文を受信するか否かを決定する。具体的には、ＭＴＡ部１３１は、クエリ部１３６から送信された判定結果がスパムメール（Ｓ）である場合には、電子メールの本文を受信せずに破棄（ブロック）し、クエリ部１３６から送信された判定結果が正常メール（Ｈ）である場合には、電子メールの本文を受信する。
【００７６】
また、スパムメール判定ＤＮＳサーバ１４０は、回答部１４１と、判定部１４２とを備える。回答部１４１は、クエリ部１３６からクエリ「００００００１１０１００．ｘｘｘ．ｅｘａｍｐｌｅ．ｃｏｍ」を受け取り、受け取ったクエリから特徴ベクトル「００００００１１０１００」を抽出し、抽出した特徴ベクトルを判定部１４２に送信する。また、回答部１４１は、判定部１４２による判定結果（スパムメール（Ｓ）又は正常メール（Ｈ））をクエリ部１３６に送信する。
【００７７】
判定部１４２は、特徴ベクトル「００００００１１０１００」を受け取り、ルール格納部１２３に対して必要情報を問い合わせる。具体的には、判定部１４２は、ルール格納部１２３に格納されているルール（分類器）に基づいて、回答部１４１から受け取った特徴ベクトルと同一の特徴ベクトルに対して付与されているラベルがスパムメールを示すラベルＳであるか、正常メールを示すラベルＨであるかを確認する。
そして、判定部１４２は、スパムメールを示すラベルＳが付与されていると確認した場合には、「１２７．０．０．１（仮）」を判定結果として回答部１４１に送信し、一方、正常メールを示すラベルＨが付与されていると確認した場合には、「１２７．０．０．２（仮）」を判定結果として回答部１４１に送信する。
【００７８】
回答部１４１は、判定部１４２から「１２７．０．０．１（仮）」を受信した場合には、スパムメール（Ｓ）である旨の判定結果をクエリ部１３６に送信し、判定部１４２から「１２７．０．０．２（仮）」を受信した場合には、正常メール（Ｈ）である旨の判定結果をクエリ部１３６に送信する。
【００７９】
このようにして、スパムメール判定システム１００は、ヘッダ情報に基づいて単に、逆引きできないクライアントを許否したり、逆引き名からメールサーバでないと推定されるクライアントを許否するものでなく、また、単に、ユーザの報告に基づき作成されたＩＰアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定し、メール本文を受信することを拒否するものでないので、ＦＰ及びＦＮが既存のルール（例えば、Ｓ２５ＲやＤＳＮＢＬ等）よりも小さくすることができ、かつＤＳＮＢＬのように通信先のホスト情報を外部に漏洩することがなく、安全かつ効率的にスパムメールであるか否かを判定することができる。なお、本実施例では、回答部１４１は、回答の結果をクエリ部１３６に返信しているが、これに限られず、ＭＴＡ部１３１に直接回答の結果を返信しても良い。
【００８０】
また、上述で説明した迷惑メール判定装置１及びスパムメール判定システム１００による一連の処理は、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。また、当該プログラムは、ＣＤ−ＲＯＭのようなリムーバブルメディアに記録されてユーザに配布されても良いし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されても良い。
【符号の説明】
【００８１】
１迷惑メール判定装置
１１受信部
１２解析部
１３第１の特徴ベクトル生成部
１４分類器作成部
１５第１の判定部
１６制御部
２１収集部
２２第２の特徴ベクトル生成部
２３第２の判定部
２４比較部
２５ラベル付与部
２６作成部
５０ネットワーク
１００スパムメール判定システム
１１１メールログ格納部
１１２ログ出力部
１１０ＳＭＴＰサーバ
１２０ルール作成部
１２１ログ入力部
１２２ルール作成部
１２３ルール格納部
１３０ＳＭＴＰサーバ
１３１ＭＴＡ部
１３２スパムメール判定エンジン部
１３３国情報取得部
１３４ＩＰアドレス逆引き部
１３５特徴ベクトル作成部
１３６クエリ部
１４０スパムメール判定ＤＮＳサーバ
１４１回答部
１４２判定部

【特許請求の範囲】
【請求項１】
ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信部と、
前記セッションの過程で前記受信部により受信した前記ヘッダ情報を解析する解析部と、
前記解析部により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する第１の特徴ベクトル生成部と、
予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成部と、
前記第１の特徴ベクトル生成部により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する第１の判定部と、
前記第１の判定部により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信部を制御する制御部とを備えることを特徴とする迷惑メール判定装置。
【請求項２】
前記分類器作成部は、
前記教師データとして複数のメールログデータ又は電子メールを収集する収集部と、
前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する第２の特徴ベクトル生成部と、
前記所定の判定方法に基づいて、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する第２の判定部と、
前記第２の判定部によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較部と、
前記比較部の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与部と、
前記ラベル付与部により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する前記分類器を作成する作成部とを備えることを特徴とする請求項１記載の迷惑メール判定装置。
【請求項３】
前記ラベル付与部は、第１の条件のみを満たす場合には、特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、第２の条件を満たす場合には、特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与することを特徴とする請求項２記載の迷惑メール判定装置。
【数１】

【請求項４】
前記ラベル付与部は、前記第２の特徴ベクトル生成部により生成された特徴ベクトルｒｉをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて、第１の特徴ベクトルｓｉと第２の特徴ベクトルｔｉに分割し、
第３の条件を満たす場合には、前記特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、
前記第３の条件を満たさないが、第４の条件を満たす場合には、前記特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与し、
前記第３の条件及び前記第４の条件を満たさない場合であって、
第５の条件を満たす場合には、前記第１の特徴ベクトルｓｉに対して第１のラベルｓ１を付与し、
前記第５の条件を満たさないが第６の条件を満たす場合には、前記第１の特徴ベクトルｓｉに対して第２のラベルｈ１を付与し、
前記第５の条件及び前記第６の条件を満たさない場合には、前記第１の特徴ベクトルｓｉに対して第３のラベルｎ１を付与し、
第７の条件を満たす場合には、前記第２の特徴ベクトルｔｉに対して第４のラベルｓ２を付与し、
前記第７の条件を満たさないが第８の条件を満たす場合には、前記第２の特徴ベクトルｔｉに対して第５のラベルｈ２を付与し、
前記第７の条件及び前記第８の条件を満たさない場合には、前記第２の特徴ベクトルｔｉに対して第６のラベルｎ２を付与し、
前記第１の特徴ベクトルｓｉと前記第２の特徴ベクトルｔｉに付与されているラベルの組み合わせが、前記第１のラベルｓ１と前記第４のラベルｓ２の組み合わせ、前記第１のラベルｓ１と前記第６のラベルｎ２の組み合わせ、又は前記第３のラベルｎ１と前記第４のラベルｓ２の組み合わせの場合には、前記特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、
前記第１の特徴ベクトルｓｉと前記第２の特徴ベクトルｔｉに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、前記特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与することを特徴とする請求項２記載の迷惑メール判定装置。
【数２】

但し、ｋｒ１，ｋｓ１，ｋｔ１、ｋｒ２，ｋｓ２，ｋｔ２は、０≦ｋｒ１＜１、０≦ｋｓ１＜１、０≦ｋｔ１＜１、０≦ｋｒ２＜１、０≦ｋｓ２＜１、０≦ｋｔ２＜１を満たす任意の値である。
【請求項５】
ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、
前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、
前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、
予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、
前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、
前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とを備えることを特徴とする迷惑メール判定方法。
【請求項６】
迷惑メールであるか又は正常メールであるかを判定する方法をコンピュータによって実現するための迷惑メール判定プログラムであって、
ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、
前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、
前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、
予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、
前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、
前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とをコンピュータによって実現するための迷惑メール判定プログラム。

【図１】