電子メール評価装置および電子メール評価方法

【課題】単語データベースを参照して文書内容を評価しつつその評価結果を単語データベースに反映させるタイプのシステムにおいて、単語データベースの肥大化を抑制する。
【解決手段】電子メール評価装置は、電子メールに含まれる単語に基づいて、電子メールが適切な内容であるか否かを判定する。このとき、各単語ごとの適切さは適合度情報とよばれるデータベースに登録されており、単語ごとの適切さの総合評価として電子メールの適否が判定されることになる。電子メールについての判定結果は適合度情報に反映される。適合度情報に登録されていない単語が電子メールに含まれていたときには、その単語は適合度情報に新規登録されるが、その後に所定の削除条件が成立したときにはこの単語は適合度情報から除外される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文書ファイルの内容を評価するための技術に関し、特に、電子メールの内容の適否を判定するための技術に関する。
【背景技術】
【０００２】
近年、コンピュータの普及とネットワーク技術の進展に伴い、ネットワークを介した電子情報の交換が盛んになっている。電子メールもそのひとつであるが、電子メールの多くはスパムメールなどとよばれる迷惑メールであるといわれている。
【０００３】
このような状況に対応して、電子メールの内容の適否を自然言語処理により判定し、迷惑メールを自動的に排除するための技術が開発されている。
その一例として、電子メールに含まれる単語ごとの適切さを判定することにより、電子メールが迷惑メールに該当するかを総合評価する方法がある。たとえば、１００通の電子メールのうち、７０通が迷惑メールであり、残りの３０通が通常の電子メール（以下、「正規メール」とよぶ）であったとする。ここで、ある単語Ａが迷惑メール７０通のうちの６０通、正規メール３０通のうちの３通から検出されたとする。この場合、単語Ａは、迷惑メールに現れやすい単語であるから、単語Ａが含まれている電子メールは迷惑メールである可能性が高いともいえる。このような観点から、単語ごとの適切さまたは不適切さを指標化してデータベース化し、新たに受信された電子メールに含まれている各単語からその電子メールが迷惑メールである可能性を総合評価する。
【特許文献１】特開２００３−１８３２４号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
このような方法によって電子メールの内容の適否を正確に評価するためには、データベースの充実が重要である。多くの電子メールが受信されるほど、単語ごとの評価も定まってくる。また、評価対象となる単語数も増加する。その反面、評価対象となる単語数の増加はデータベースの肥大化を招く。特に、無意味な単語が羅列されるタイプの迷惑メールが受信されると、データベースに登録される単語数が一気に増加してしまう。
【０００５】
本発明はこうした状況に鑑みてなされたものであり、その主たる目的は、電子メールの内容を評価するために用いるデータベースの肥大化を効率的に抑制するための技術を提供することにある。
【課題を解決するための手段】
【０００６】
本発明のある態様は、電子メール評価装置である。
この装置は、外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する適合度情報保持部と、評価対象となるべき電子メールを取得するメール取得部と、電子メールに含まれる単語を抽出する単語抽出部と、適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部と、判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、適合度情報を更新する適合度更新部と、電子メールから適合度情報に登録されていない単語が抽出されたとき、その単語を適合度情報に新規登録する単語登録部と、新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において新規登録された単語の出現頻度が所定の閾値より小さいとき、新規登録された単語を適合度情報から除外する単語削除部と、を備える。
【０００７】
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【０００８】
本発明によれば、電子メールの内容を評価するために用いるデータベースの肥大化を効率的に抑制することができる。
【発明を実施するための最良の形態】
【０００９】
図１は、電子メール評価装置とメールブラウザの関係を示す模式図である。
クライアント端末８０は、ユーザが使用するパーソナルコンピュータや携帯端末などの情報機器である。このクライアント端末８０には、メールの送受信や閲覧のためのメールブラウザ９０がインストールされている。本実施例においては、クライアント端末８０が受信した電子メールは、まず電子メール評価装置１００によって評価される。電子メール評価装置１００は、電子メールが迷惑メールでなければメールブラウザ９０に転送し、迷惑メールであればメールブラウザ９０には転送しない。すなわち、電子メール評価装置１００は電子メールのフィルタとしての機能を果たす。
【００１０】
本実施例の電子メール評価装置１００は、ベイジアンフィルタ法に基づいて電子メールの内容を評価し、電子メールが迷惑メールであるか否かを判定する。
その判定原理について説明する。
一例として、迷惑メールのサンプル１００通と、正規メールのサンプル１００通をあらかじめ用意されているとする。ここで「懸賞」という単語がこの迷惑メール群では９８回、正規メール群では２回現れたとする。この場合、「懸賞」という単語が含まれる電子メールは迷惑メールである確率が高い。電子メール評価装置１００は、単語ごとに「その単語が含まれている電子メールが迷惑メールである可能性の高さ」を「スパム単語確率」として指標化する。
【００１１】
広く知られているPaul Graham方式の場合、ある単語ｗのスパム単語確率Ｐ（ｗ）は、
Ｐ（ｗ）＝（ｍ／Ｍ）／（２×ｎ／Ｎ＋ｍ／Ｍ）
という式によって定義される。
ここで、
ｍ：単語ｗが迷惑メール群において登場した回数
Ｍ：迷惑メールの総数
ｎ：単語ｗが正規メール群において登場した回数
Ｎ：正規メールの総数
である。
さきほどの「懸賞」という単語のスパム確率をPaul Graham方式によって計算すると、ｍ＝９８、Ｍ＝１００、ｎ＝２、Ｎ＝１００であることから、
Ｐ（「懸賞」）＝（９８／１００）／（２×２／１００＋９８／１００）
により、約９６％として計算される。
電子メール評価装置１００は、これらの２００通の電子メールに含まれる単語それぞれについてのスパム単語確率をデータベース化する。本実施例においては、このようなデータベースのことを、「適合度情報」とよぶ。
【００１２】
この適合度情報において、「懸賞：９６％」、「冷凍：３０％」、「うどん：５％」というスパム単語確率が設定されていたとする。
以上の初期設定がなされた後において、電子メール評価装置１００は、「私は、懸賞によく応募します。こないだ冷凍うどんを当てました。」という内容の電子メールを新たに受信したとする。
この電子メールが迷惑メールである確率（以下、「スパムメール確率」とよぶ）は、（０．９６×０．３×０．０５）／｛（０．９６×０．３×０．０５）＋（１−０．９６）×（１−０．３）×（１−０．０５）｝＝３５％として算出される。
電子メール評価装置１００は、スパムメール確率が９０％以上となる電子メールを迷惑メールとして判定する。また、このときには、迷惑メール数の合計が１０１通となるため、それにあわせて適合度情報における各単語のスパム単語確率も再計算される。
一方、９０％未満であれば、電子メール評価装置１００はその電子メールを一応迷惑メールではないとして、メールブラウザ９０に転送する。メールブラウザ９０のユーザは、転送された電子メールが確かに正規メールであるか、それともやはり迷惑メールであるかを判定する。その判定結果は電子メール評価装置１００にフィードバックされる。この判定結果を反映して、電子メール評価装置１００は適合度情報を更新する。電子メール評価装置１００は、電子メールを受信するごとに適合度情報を更新、充実させていくことになる。
なお、ユーザは、電子メール評価装置１００における各種判定条件を変更することもできる。これについては後述する。
【００１３】
図２は、電子メール評価装置の機能ブロック図である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのＣＰＵをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。本実施例においては、電子メール評価装置１００は、クライアント端末８０にインストールされるアプリケーションソフトウェアによってその機能が発揮されるものとして説明する。
また、ここでは、主として各ブロックの発揮すべき機能について、その具体的な作用については、図３以降に関連して説明する。
【００１４】
電子メール評価装置１００は、ユーザインタフェース処理部１１０、メール取得部１１２、メール転送部１１４、データ処理部１１６およびデータ格納部１１８を含む。
ユーザインタフェース処理部１１０は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェース全般に関する処理を担当する。メール取得部１１２は、図示しない外部のメールサーバから電子メールを取得する。メール転送部１１４は、取得した電子メールのうちデータ処理部１１６において一応迷惑メールではないと判定した電子メールをメールブラウザ９０に転送する。
【００１５】
データ処理部１１６は、ユーザインタフェース処理部１１０やメール取得部１１２から取得されたデータを元にして各種のデータ処理を実行する。データ処理部１１６は、ユーザインタフェース処理部１１０、メール取得部１１２、メール転送部１１４およびデータ格納部１１８の間のインタフェースの役割も果たす。
データ格納部１１８は、あらかじめ用意された各種の設定データや、データ処理部１１６から受け取ったデータを格納する。
【００１６】
データ格納部１１８は、適合度情報保持部１３８を含む。適合度情報保持部１３８は、単語とそのスパム単語確率を対応づけた適合度情報を保持する。
【００１７】
データ処理部１１６は、適合度情報処理部１２０とメール評価部１２２を含む。
メール評価部１２２は、メール取得部１１２が電子メールを取得したときに、その電子メールのスパムメール確率を計算することにより、電子メールの適否を判定する。適合度情報処理部１２０は、その判定結果に応じて適合度情報保持部１３８における適合度情報を更新する。
【００１８】
メール評価部１２２は、単語抽出部１３４と適合判定部１３６を含む。
単語抽出部１３４は、電子メールに含まれる単語を抽出する。なお、ここでいう単語とは、単語群、バイトストリームであってもよく、必ずしも文構成の最小単位としての「単語」に限る必要はない。適合判定部１３６は、抽出された単語のスパム単語確率を適合度情報保持部１３８から読み出して、スパムメール確率を算出する。既に述べたように、適合判定部１３６は、スパムメール確率が９０％未満であれば、その電子メールをメール転送部１１４からメールブラウザ９０に転送させ、９０％以上であれば転送しない。
正規メールとは、スパムメール確率が９０％未満であり、かつ、クライアント端末８０においてユーザによって適切と判定された電子メールである。迷惑メールとは、スパムメール確率が９０％以上、または、スパムメール確率は９０％未満でありながらクライアント端末８０においてユーザによって不適と判定された電子メールである。このように、電子メールの適否は、電子メール評価装置１００のメール評価部１２２とメールブラウザ９０のユーザの双方または一方によって判定される。
なお、電子メールの判定基準となる９０％という数値は、ユーザインタフェース処理部１１０を介してユーザは任意に変更できる。
【００１９】
適合度情報処理部１２０は、更新部１２４、単語登録部１２６、単語削除部１２８、計数部１３０および閾値設定部１３２を含む。
更新部１２４は、適合度情報を更新する。すなわち、新たな電子メールについての判定結果に応じて、適合度情報に含まれる各単語のスパム単語確率をPaul Grahamの式にしたがって再計算する。単語登録部１２６は、電子メールに含まれる単語のうち、適合度情報に未登録の単語があれば、新たにこれを適合度情報に新規登録する。以降において、この新規登録単語についてのスパム単語確率の計算が開始される。
【００２０】
単語削除部１２８は、削除条件が成立した単語を適合度情報から削除する。具体的には、ある電子メールＭから検出された単語ｗが新規登録されたとき、以後において、
（ｒ≧Ｒ）∩［｛（ｓ／ｒ）＜Ｔ｝∪｛０．５−Ｐ_ｔ≦ｐ≦０．５＋Ｐ_ｔ｝］
の削除条件が成り立つときに単語ｗは適合度情報から削除される。
ここで、
ｒ：電子メールＭが取得された後において、更に取得された電子メールの数。
Ｒ：第１閾値。１００以上の整数であり、ユーザにより設定される。初期設定値は１０００。
ｓ：電子メールＭが取得された後において、更に取得されたｒ通の電子メールのうち、単語ｗが含まれている電子メールの数。
Ｔ：第２閾値。０．０１以上１．０未満の範囲でユーザにより設定される。初期値は０．１
ｐ：電子メールＭが取得された後において更に取得されたｒ通の電子メールに基づいて計算される単語ｗのスパム単語確率
Ｐ_ｔ：第３閾値。０以上０．５以下の範囲でユーザにより設定される。初期値は０．２
である。
【００２１】
各項の意味を説明する。
１．（ｓ／ｒ）＜Ｔ・・・第１削除条件
電子メールＭが取得されて以降におけるｒ通の電子メールにおいて、単語ｗの出現頻度が小さいときには削除対象とする。電子メールＭによって単語ｗが適合度情報に新規登録されて以降、この単語ｗがあまり出現しない場合には、単語ｗはスパムメール確率を計算する上で重要な判断材料ではないと考えられる。このため、このようなときには、単語ｗを削除対象としている。
２．０．５−Ｐ_ｔ≦ｐ≦０．５＋Ｐ_ｔ・・・第２削除条件
単語ｗのスパム単語確率が０．５付近にあるときには削除対象とする。単語ｗのスパム単語確率が０．５に近いときには、すなわち、中立的な適切さを持つ単語ｗはスパムメール確率を計算する上で重要な判断材料ではないと考えられる。そのため、このようなときには、単語ｗを削除対象としている。
３．ｒ≧Ｒ・・・第３削除条件
単語ｗの削除可否判定にあたって統計的な安定性を担保するための条件である。第３削除条件が成立したことを条件として、単語ｗは削除の対象となり得る。
まとめると、単語ｗが新規登録されてから、ある程度の電子メールが取得された段階で、単語ｗの出現頻度が小さいか、単語ｗのスパム単語確率が中立的であるときには、単語ｗは適合度情報から削除されることになる。このような処理によって、適合度情報に含まれる評価対象となるべき単語数が過度に大きくならないように処置している。
【００２２】
計数部１３０は、単語が新規登録された後に受信される電子メールの数ｒを計数する。このときの計数値は、削除条件の成否判定において使用される。閾値設定部１３２は、第１〜第３閾値をユーザからの設定入力に応じて変更する。
次に、電子メール評価装置１００が新たに電子メールを受信したときの処理過程を説明する。
【００２３】
図３は、電子メール受信時における電子メール評価装置の基本的な処理過程を示すフローチャートである。
まず、メール取得部１１２は外部装置から送信された電子メールを取得する（Ｓ１０）。この電子メールのスパムメール確率を計算することによりメール評価処理が実行され（Ｓ１２）、必要に応じて適合度情報からの単語削除の実行可否を判定するための単語削除判定処理が実行される（Ｓ１４）。
Ｓ１２およびＳ１４の処理内容については後に詳述する。
【００２４】
図４は、図３のＳ１２におけるメール評価処理の内容を詳細に示すフローチャートである。
単語抽出部１３４は、電子メールに含まれている単語を抽出する（Ｓ１６）。この中で、適合度情報に登録されていない単語があれば（Ｓ１８のＹ）、単語登録部１２６は新たにこの未登録単語を適合度情報に登録する（Ｓ２０）。計数部１３０は、この新規登録単語に対して、以降に取得される電子メール数ｒのカウントを開始する。計数部１３０は、新規登録単語ごとに電子メール数ｒをカウントする。電子メールから抽出された単語の中に未登録単語がなければ（Ｓ１８のＮ）、Ｓ２０はスキップされる。こうしてスパムメール確率が計算される（Ｓ２２）。
【００２５】
スパムメール確率が、所定の閾値以上であれば（Ｓ２４のＮ）、適合判定部１３６はその電子メールを迷惑メールと判定する（Ｓ２９）。なお、本実施例においては、この閾値は９０％として設定されるが、ユーザからの設定入力により変更可能である。一方、スパムメール確率がこの閾値未満であれば（Ｓ２４のＹ）、適合判定部１３６は、一応、正規メールと仮判定する。メール転送部１１４はメールブラウザ９０に電子メールを転送する（Ｓ２６）。ユーザによって、転送した電子メールが迷惑メールであると判定されたときには（Ｓ２７のＹ）、このメールは迷惑メールとして扱われる（Ｓ２９）。ユーザによって、転送した電子メールが正規メールであると判定されたときには（Ｓ２７のＮ）、この電子メールは正規メールとして扱われる（Ｓ２８）。
更新部１２４は、電子メールについての判定結果に応じて、適合度情報における各単語のスパム単語確率を再計算する（Ｓ３０）。
【００２６】
図５は、図３のＳ１４における単語削除判定処理の内容を詳細に示すフローチャートである。
単語削除部１２８は、新規登録単語について、その登録後に取得された電子メール数ｒが第１閾値Ｒ以上となっている単語が存在するか、すなわち、第３削除条件が成立している単語が存在するかを判定する（Ｓ３４）。存在しなければ（Ｓ３４のＮ）、Ｓ１４の処理はそのまま終了する。存在すれば（Ｓ３４のＹ）、単語削除部１２８は、その単語ｗが登録された後に取得されたｒ通の電子メール群において、単語ｗの出現頻度が所定の閾値よりも小さいか、すなわち、第２削除条件が成立しているかを判定する（Ｓ３６）。第２削除条件が成立していれば（Ｓ３６のＹ）、単語削除部１２８は当該単語ｗを適合度情報から削除する（Ｓ４０）。一方、成立していなければ（Ｓ３６のＮ）、単語削除部１２８は第２削除条件について判定する（Ｓ３８）。成立していれば（Ｓ３８のＹ）、単語削除部１２８は当該単語ｗを適合度情報から削除する（Ｓ４０）。成立していなければ（Ｓ３８のＮ）、Ｓ１４の処理は終了する。
【００２７】
以上、実施例に基づいて本発明を説明した。
本実施例に示した電子メール評価装置１００によれば、ベイジアンフィルタ方式によってスパムメール確率を求めるときに、その判定の元となる適合度情報のデータ量の肥大化を効果的に抑制できる。
【００２８】
迷惑メールの中には、ベイジアンフィルタを攪乱するために無意味に単語を羅列するタイプのものもある。ベイジアンフィルタに基づく従来の電子メールフィルタリング法の場合、このようなタイプの迷惑メールが受信されると、適合度情報に含まれる単語数が飛躍的に増大してしまう。適合度情報の肥大化は、適合度情報の更新処理に伴う負荷も増大させる。
これに対し、本実施例における電子メール評価装置１００は、適合度情報として登録される単語を適宜削除することにより、適合度情報のデータ量が無制限に増大しないように処置している。スパムメール確率を計算する上で有用な単語を残しつつ、それほど有用でない単語を排除していくため、適合度情報のデータ量の肥大化を抑制しつつも、適否の判定基準の変化や、迷惑メールのタイプの変化に対応できる。このように、電子メール評価装置１００は単語学習機能によって発生し得る不具合を、効果的に解決することができる。
本実施例においては、ベイジアンフィルタの特にPaul Graham方式を前提として説明したが、これに限らず、単語ごとの適切さをベースとした分類方法等に広く応用可能である。本実施例においては、単語と適合度から正規メールと迷惑メールに電子メールを分類する態様を示した。このほか、データの分類方法に際しては、単語に限らず、さまざまな属性ごとの適切さをベースとした分類方法も考えられる。たとえば、文書データを分類する場合、属性としてその文書データ中における単語の出現頻度や作者、作成日時などが利用できる。また、画像データを分類する場合、属性として色の頻度や明度の頻度などが利用できる。
【００２９】
なお、請求項に記載の閾値入力部の機能は、本実施例においてはユーザインタフェース処理部１１０によって実現される。
これら請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。
【００３０】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【００３１】
本実施例においては、第１削除条件（ｓ／ｒ）＜Ｔにおいて、ｓとは、ｒ通の電子メールのうち、判定対象となる単語ｗが出現している電子メールの数であるとして説明した。そのため、ｓ≦ｒの関係が成立している。
これに対し、別例として、ｓとは、ｒ通の電子メール中に含まれる単語ｗの数としてもよい。この場合、ｓはｒよりも大きくなり得る。それに対応して、第２閾値Ｔの取り得る範囲も、１以上、たとえば、１０００のような数値に設定されてもよい。
【００３２】
また、本実施例のほかにも、以下の式で全ての属性の重要度を算出し、重要度の上位ｎ個にあたる属性のみを残すという変形例も考えられる。
まず、
重要度（属性）＝ｆ（属性の出現頻度）×ｇ（属性の判定寄与度）
ｆ：任意の単調増加関数
ｇ：任意の単調増加関数
として重要度を定義する。
【００３３】
上記に基づき、単語ごとの重要度を特定するための式として、以下の様な式を定義する。
重要度（ｗ）＝√{Ｍａｘ(ｎ／Ｎ，ｍ／Ｍ)}×abs（p-0.5)
ｍ：単語ｗが迷惑メール群において登場した回数
Ｍ：迷惑メールの総数
ｎ：単語ｗが正規メール群において登場した回数
Ｎ：正規メールの総数
ｐ：単語ｗのスパム単語確率（0.5から遠い方が判定寄与度が高い）
ここで、「Ｍａｘ(ｎ／Ｎ，ｍ／Ｍ)」は、変数ｎ／Ｎとｍ／Ｍのうちのいずれか大きい方を選択する関数である。また、「abs（p-0.5）」は、p-0.5の絶対値を示す。この変形例に示す方法の場合、単語の重要度を加味して、削減すべき単語を選択できる。たとえば、削除条件が成立した単語であっても、その重要度が所定の閾値よりも大きいときには削除対象としないとしてもよい。高い単語は削除対象となりにくく、低い単語は削除対象となりやすいように設定することにより、いっそう効率的に適合度情報のデータ量を削減できる。
【図面の簡単な説明】
【００３４】
【図１】電子メール評価装置とメールブラウザの関係を示す模式図である。
【図２】電子メール評価装置の機能ブロック図である。
【図３】電子メール受信時における電子メール評価装置の基本的な処理過程を示すフローチャートである。
【図４】図３のＳ１２におけるメール評価処理の内容を詳細に示すフローチャートである。
【図５】図３のＳ１４における単語削除判定処理の内容を詳細に示すフローチャートである。
【符号の説明】
【００３５】
８０クライアント端末、９０メールブラウザ、１００電子メール評価装置、１１０ユーザインタフェース処理部、１１２メール取得部、１１４メール転送部、１１６データ処理部、１１８データ格納部、１２０適合度情報処理部、１２２メール評価部、１２４更新部、１２６単語登録部、１２８単語削除部、１３０計数部、１３２閾値設定部、１３４単語抽出部、１３６適合判定部、１３８適合度情報保持部。

【特許請求の範囲】
【請求項１】
外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する適合度情報保持部と、
評価対象となるべき電子メールを取得するメール取得部と、
電子メールに含まれる単語を抽出する単語抽出部と、
前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部と、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する適合度更新部と、
電子メールから前記適合度情報に登録されていない単語が抽出されたとき、その単語を前記適合度情報に新規登録する単語登録部と、
前記新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において前記新規登録された単語の出現頻度が所定の閾値より小さいとき、前記新規登録された単語を前記適合度情報から除外する単語削除部と、
を備えることを特徴とする電子メール評価装置。
【請求項２】
前記適合度更新部は、ベイジアンフィルタ法（Bayesian Filtering）に基づいて、前記電子メールに含まれる各単語についての適合度を再計算することを特徴とする請求項１に記載の電子メール評価装置。
【請求項３】
前記単語削除部は、前記新規登録された単語について前記適合度更新部により算出された適合度が所定範囲内にあるときには、前記新規登録された単語を前記適合度情報から除外することを特徴とする請求項１または２に記載の電子メール評価装置。
【請求項４】
前記単語削除部は、適合度が取り得る範囲の中央値を含む所定範囲に前記新規登録された単語の適合度が含まれるとき、前記新規登録された単語を前記適合度情報から除外することを特徴とする請求項３に記載の電子メール評価装置。
【請求項５】
前記単語削除部は、前記新規登録された単語を含む電子メールの取得後に更に取得された電子メールの数が所定数を超えたことを条件として、前記新規登録された単語を前記適合度情報からの除外対象とすることを特徴とする請求項１から４のいずれかに記載の電子メール評価装置。
【請求項６】
前記閾値を設定するためのユーザによる指示入力を検出する閾値入力部と、
指示入力により指定された値を前記閾値として設定する閾値設定部と、
を更に備えることを特徴とする請求項１から５のいずれかに記載の電子メール評価装置。
【請求項７】
評価対象となるべき電子メールを取得するステップと、
電子メールに含まれる単語を抽出するステップと、
単語ごとの適切さを指標化した適合度を示す適合度情報を参照して、取得された電子メールに含まれる各単語の適合度を検出し、それらの適合度から取得された電子メールが適切な内容であるか否かを判定するステップと、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新するステップと、
電子メールから前記適合度情報に登録されていない単語が抽出されたとき、その単語を前記適合度情報に新規登録するステップと、
前記新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において前記新規登録された単語の出現頻度が所定の閾値より小さいとき、前記新規登録された単語を前記適合度情報から除外するステップと、
を備えることを特徴とする電子メール評価方法。
【請求項８】
外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する機能と、
評価対象となるべき電子メールを取得する機能と、
電子メールに含まれる単語を抽出する機能と、
前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する機能と、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する機能と、
電子メールから前記適合度情報に登録されていない単語が抽出されたとき、その単語を前記適合度情報に新規登録する機能と、
前記新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において前記新規登録された単語の出現頻度が所定の閾値より小さいとき、前記新規登録された単語を前記適合度情報から除外する機能と、
をコンピュータに発揮させることを特徴とする電子メール評価プログラム。

【図１】