説明

電子メール評価装置および電子メール評価方法

【課題】単語データベースを参照して文書内容を評価しつつその評価結果を単語データベースに反映させるタイプのシステムにおいて、単語データベースの肥大化を抑制する。
【解決手段】電子メール評価装置は、電子メールに含まれる単語に基づいて、電子メールが適切な内容であるか否かを判定する。このとき、各単語ごとの適切さは適合度情報とよばれるデータベースに登録されており、単語ごとの適切さの総合評価として電子メールの適否が判定されることになる。電子メールについての判定結果は適合度情報に反映される。適合度情報に登録されていない単語が電子メールに含まれていたときには、その単語は適合度情報に新規登録されるが、その後に所定の削除条件が成立したときにはこの単語は適合度情報から除外される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書ファイルの内容を評価するための技術に関し、特に、電子メールの内容の適否を判定するための技術に関する。
【背景技術】
【0002】
近年、コンピュータの普及とネットワーク技術の進展に伴い、ネットワークを介した電子情報の交換が盛んになっている。電子メールもそのひとつであるが、電子メールの多くはスパムメールなどとよばれる迷惑メールであるといわれている。
【0003】
このような状況に対応して、電子メールの内容の適否を自然言語処理により判定し、迷惑メールを自動的に排除するための技術が開発されている。
その一例として、電子メールに含まれる単語ごとの適切さを判定することにより、電子メールが迷惑メールに該当するかを総合評価する方法がある。たとえば、100通の電子メールのうち、70通が迷惑メールであり、残りの30通が通常の電子メール(以下、「正規メール」とよぶ)であったとする。ここで、ある単語Aが迷惑メール70通のうちの60通、正規メール30通のうちの3通から検出されたとする。この場合、単語Aは、迷惑メールに現れやすい単語であるから、単語Aが含まれている電子メールは迷惑メールである可能性が高いともいえる。このような観点から、単語ごとの適切さまたは不適切さを指標化してデータベース化し、新たに受信された電子メールに含まれている各単語からその電子メールが迷惑メールである可能性を総合評価する。
【特許文献1】特開2003−18324号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
このような方法によって電子メールの内容の適否を正確に評価するためには、データベースの充実が重要である。多くの電子メールが受信されるほど、単語ごとの評価も定まってくる。また、評価対象となる単語数も増加する。その反面、評価対象となる単語数の増加はデータベースの肥大化を招く。特に、無意味な単語が羅列されるタイプの迷惑メールが受信されると、データベースに登録される単語数が一気に増加してしまう。
【0005】
本発明はこうした状況に鑑みてなされたものであり、その主たる目的は、電子メールの内容を評価するために用いるデータベースの肥大化を効率的に抑制するための技術を提供することにある。
【課題を解決するための手段】
【0006】
本発明のある態様は、電子メール評価装置である。
この装置は、外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する適合度情報保持部と、評価対象となるべき電子メールを取得するメール取得部と、電子メールに含まれる単語を抽出する単語抽出部と、適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部と、判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、適合度情報を更新する適合度更新部と、電子メールから適合度情報に登録されていない単語が抽出されたとき、その単語を適合度情報に新規登録する単語登録部と、新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において新規登録された単語の出現頻度が所定の閾値より小さいとき、新規登録された単語を適合度情報から除外する単語削除部と、を備える。
【0007】
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0008】
本発明によれば、電子メールの内容を評価するために用いるデータベースの肥大化を効率的に抑制することができる。
【発明を実施するための最良の形態】
【0009】
図1は、電子メール評価装置とメールブラウザの関係を示す模式図である。
クライアント端末80は、ユーザが使用するパーソナルコンピュータや携帯端末などの情報機器である。このクライアント端末80には、メールの送受信や閲覧のためのメールブラウザ90がインストールされている。本実施例においては、クライアント端末80が受信した電子メールは、まず電子メール評価装置100によって評価される。電子メール評価装置100は、電子メールが迷惑メールでなければメールブラウザ90に転送し、迷惑メールであればメールブラウザ90には転送しない。すなわち、電子メール評価装置100は電子メールのフィルタとしての機能を果たす。
【0010】
本実施例の電子メール評価装置100は、ベイジアンフィルタ法に基づいて電子メールの内容を評価し、電子メールが迷惑メールであるか否かを判定する。
その判定原理について説明する。
一例として、迷惑メールのサンプル100通と、正規メールのサンプル100通をあらかじめ用意されているとする。ここで「懸賞」という単語がこの迷惑メール群では98回、正規メール群では2回現れたとする。この場合、「懸賞」という単語が含まれる電子メールは迷惑メールである確率が高い。電子メール評価装置100は、単語ごとに「その単語が含まれている電子メールが迷惑メールである可能性の高さ」を「スパム単語確率」として指標化する。
【0011】
広く知られているPaul Graham方式の場合、ある単語wのスパム単語確率P(w)は、
P(w)=(m/M)/(2×n/N+m/M)
という式によって定義される。
ここで、
m:単語wが迷惑メール群において登場した回数
M:迷惑メールの総数
n:単語wが正規メール群において登場した回数
N:正規メールの総数
である。
さきほどの「懸賞」という単語のスパム確率をPaul Graham方式によって計算すると、m=98、M=100、n=2、N=100であることから、
P(「懸賞」)=(98/100)/(2×2/100+98/100)
により、約96%として計算される。
電子メール評価装置100は、これらの200通の電子メールに含まれる単語それぞれについてのスパム単語確率をデータベース化する。本実施例においては、このようなデータベースのことを、「適合度情報」とよぶ。
【0012】
この適合度情報において、「懸賞:96%」、「冷凍:30%」、「うどん:5%」というスパム単語確率が設定されていたとする。
以上の初期設定がなされた後において、電子メール評価装置100は、「私は、懸賞によく応募します。こないだ冷凍うどんを当てました。」という内容の電子メールを新たに受信したとする。
この電子メールが迷惑メールである確率(以下、「スパムメール確率」とよぶ)は、(0.96×0.3×0.05)/{(0.96×0.3×0.05)+(1−0.96)×(1−0.3)×(1−0.05)}=35%として算出される。
電子メール評価装置100は、スパムメール確率が90%以上となる電子メールを迷惑メールとして判定する。また、このときには、迷惑メール数の合計が101通となるため、それにあわせて適合度情報における各単語のスパム単語確率も再計算される。
一方、90%未満であれば、電子メール評価装置100はその電子メールを一応迷惑メールではないとして、メールブラウザ90に転送する。メールブラウザ90のユーザは、転送された電子メールが確かに正規メールであるか、それともやはり迷惑メールであるかを判定する。その判定結果は電子メール評価装置100にフィードバックされる。この判定結果を反映して、電子メール評価装置100は適合度情報を更新する。電子メール評価装置100は、電子メールを受信するごとに適合度情報を更新、充実させていくことになる。
なお、ユーザは、電子メール評価装置100における各種判定条件を変更することもできる。これについては後述する。
【0013】
図2は、電子メール評価装置の機能ブロック図である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。本実施例においては、電子メール評価装置100は、クライアント端末80にインストールされるアプリケーションソフトウェアによってその機能が発揮されるものとして説明する。
また、ここでは、主として各ブロックの発揮すべき機能について、その具体的な作用については、図3以降に関連して説明する。
【0014】
電子メール評価装置100は、ユーザインタフェース処理部110、メール取得部112、メール転送部114、データ処理部116およびデータ格納部118を含む。
ユーザインタフェース処理部110は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェース全般に関する処理を担当する。メール取得部112は、図示しない外部のメールサーバから電子メールを取得する。メール転送部114は、取得した電子メールのうちデータ処理部116において一応迷惑メールではないと判定した電子メールをメールブラウザ90に転送する。
【0015】
データ処理部116は、ユーザインタフェース処理部110やメール取得部112から取得されたデータを元にして各種のデータ処理を実行する。データ処理部116は、ユーザインタフェース処理部110、メール取得部112、メール転送部114およびデータ格納部118の間のインタフェースの役割も果たす。
データ格納部118は、あらかじめ用意された各種の設定データや、データ処理部116から受け取ったデータを格納する。
【0016】
データ格納部118は、適合度情報保持部138を含む。適合度情報保持部138は、単語とそのスパム単語確率を対応づけた適合度情報を保持する。
【0017】
データ処理部116は、適合度情報処理部120とメール評価部122を含む。
メール評価部122は、メール取得部112が電子メールを取得したときに、その電子メールのスパムメール確率を計算することにより、電子メールの適否を判定する。適合度情報処理部120は、その判定結果に応じて適合度情報保持部138における適合度情報を更新する。
【0018】
メール評価部122は、単語抽出部134と適合判定部136を含む。
単語抽出部134は、電子メールに含まれる単語を抽出する。なお、ここでいう単語とは、単語群、バイトストリームであってもよく、必ずしも文構成の最小単位としての「単語」に限る必要はない。適合判定部136は、抽出された単語のスパム単語確率を適合度情報保持部138から読み出して、スパムメール確率を算出する。既に述べたように、適合判定部136は、スパムメール確率が90%未満であれば、その電子メールをメール転送部114からメールブラウザ90に転送させ、90%以上であれば転送しない。
正規メールとは、スパムメール確率が90%未満であり、かつ、クライアント端末80においてユーザによって適切と判定された電子メールである。迷惑メールとは、スパムメール確率が90%以上、または、スパムメール確率は90%未満でありながらクライアント端末80においてユーザによって不適と判定された電子メールである。このように、電子メールの適否は、電子メール評価装置100のメール評価部122とメールブラウザ90のユーザの双方または一方によって判定される。
なお、電子メールの判定基準となる90%という数値は、ユーザインタフェース処理部110を介してユーザは任意に変更できる。
【0019】
適合度情報処理部120は、更新部124、単語登録部126、単語削除部128、計数部130および閾値設定部132を含む。
更新部124は、適合度情報を更新する。すなわち、新たな電子メールについての判定結果に応じて、適合度情報に含まれる各単語のスパム単語確率をPaul Grahamの式にしたがって再計算する。単語登録部126は、電子メールに含まれる単語のうち、適合度情報に未登録の単語があれば、新たにこれを適合度情報に新規登録する。以降において、この新規登録単語についてのスパム単語確率の計算が開始される。
【0020】
単語削除部128は、削除条件が成立した単語を適合度情報から削除する。具体的には、ある電子メールMから検出された単語wが新規登録されたとき、以後において、
(r≧R)∩[{(s/r)<T}∪{0.5−P≦p≦0.5+P}]
の削除条件が成り立つときに単語wは適合度情報から削除される。
ここで、
r:電子メールMが取得された後において、更に取得された電子メールの数。
R:第1閾値。100以上の整数であり、ユーザにより設定される。初期設定値は1000。
s:電子メールMが取得された後において、更に取得されたr通の電子メールのうち、単語wが含まれている電子メールの数。
T:第2閾値。0.01以上1.0未満の範囲でユーザにより設定される。初期値は0.1
p:電子メールMが取得された後において更に取得されたr通の電子メールに基づいて計算される単語wのスパム単語確率
:第3閾値。0以上0.5以下の範囲でユーザにより設定される。初期値は0.2
である。
【0021】
各項の意味を説明する。
1.(s/r)<T・・・第1削除条件
電子メールMが取得されて以降におけるr通の電子メールにおいて、単語wの出現頻度が小さいときには削除対象とする。電子メールMによって単語wが適合度情報に新規登録されて以降、この単語wがあまり出現しない場合には、単語wはスパムメール確率を計算する上で重要な判断材料ではないと考えられる。このため、このようなときには、単語wを削除対象としている。
2.0.5−P≦p≦0.5+P・・・第2削除条件
単語wのスパム単語確率が0.5付近にあるときには削除対象とする。単語wのスパム単語確率が0.5に近いときには、すなわち、中立的な適切さを持つ単語wはスパムメール確率を計算する上で重要な判断材料ではないと考えられる。そのため、このようなときには、単語wを削除対象としている。
3.r≧R・・・第3削除条件
単語wの削除可否判定にあたって統計的な安定性を担保するための条件である。第3削除条件が成立したことを条件として、単語wは削除の対象となり得る。
まとめると、単語wが新規登録されてから、ある程度の電子メールが取得された段階で、単語wの出現頻度が小さいか、単語wのスパム単語確率が中立的であるときには、単語wは適合度情報から削除されることになる。このような処理によって、適合度情報に含まれる評価対象となるべき単語数が過度に大きくならないように処置している。
【0022】
計数部130は、単語が新規登録された後に受信される電子メールの数rを計数する。このときの計数値は、削除条件の成否判定において使用される。閾値設定部132は、第1〜第3閾値をユーザからの設定入力に応じて変更する。
次に、電子メール評価装置100が新たに電子メールを受信したときの処理過程を説明する。
【0023】
図3は、電子メール受信時における電子メール評価装置の基本的な処理過程を示すフローチャートである。
まず、メール取得部112は外部装置から送信された電子メールを取得する(S10)。この電子メールのスパムメール確率を計算することによりメール評価処理が実行され(S12)、必要に応じて適合度情報からの単語削除の実行可否を判定するための単語削除判定処理が実行される(S14)。
S12およびS14の処理内容については後に詳述する。
【0024】
図4は、図3のS12におけるメール評価処理の内容を詳細に示すフローチャートである。
単語抽出部134は、電子メールに含まれている単語を抽出する(S16)。この中で、適合度情報に登録されていない単語があれば(S18のY)、単語登録部126は新たにこの未登録単語を適合度情報に登録する(S20)。計数部130は、この新規登録単語に対して、以降に取得される電子メール数rのカウントを開始する。計数部130は、新規登録単語ごとに電子メール数rをカウントする。電子メールから抽出された単語の中に未登録単語がなければ(S18のN)、S20はスキップされる。こうしてスパムメール確率が計算される(S22)。
【0025】
スパムメール確率が、所定の閾値以上であれば(S24のN)、適合判定部136はその電子メールを迷惑メールと判定する(S29)。なお、本実施例においては、この閾値は90%として設定されるが、ユーザからの設定入力により変更可能である。一方、スパムメール確率がこの閾値未満であれば(S24のY)、適合判定部136は、一応、正規メールと仮判定する。メール転送部114はメールブラウザ90に電子メールを転送する(S26)。ユーザによって、転送した電子メールが迷惑メールであると判定されたときには(S27のY)、このメールは迷惑メールとして扱われる(S29)。ユーザによって、転送した電子メールが正規メールであると判定されたときには(S27のN)、この電子メールは正規メールとして扱われる(S28)。
更新部124は、電子メールについての判定結果に応じて、適合度情報における各単語のスパム単語確率を再計算する(S30)。
【0026】
図5は、図3のS14における単語削除判定処理の内容を詳細に示すフローチャートである。
単語削除部128は、新規登録単語について、その登録後に取得された電子メール数rが第1閾値R以上となっている単語が存在するか、すなわち、第3削除条件が成立している単語が存在するかを判定する(S34)。存在しなければ(S34のN)、S14の処理はそのまま終了する。存在すれば(S34のY)、単語削除部128は、その単語wが登録された後に取得されたr通の電子メール群において、単語wの出現頻度が所定の閾値よりも小さいか、すなわち、第2削除条件が成立しているかを判定する(S36)。第2削除条件が成立していれば(S36のY)、単語削除部128は当該単語wを適合度情報から削除する(S40)。一方、成立していなければ(S36のN)、単語削除部128は第2削除条件について判定する(S38)。成立していれば(S38のY)、単語削除部128は当該単語wを適合度情報から削除する(S40)。成立していなければ(S38のN)、S14の処理は終了する。
【0027】
以上、実施例に基づいて本発明を説明した。
本実施例に示した電子メール評価装置100によれば、ベイジアンフィルタ方式によってスパムメール確率を求めるときに、その判定の元となる適合度情報のデータ量の肥大化を効果的に抑制できる。
【0028】
迷惑メールの中には、ベイジアンフィルタを攪乱するために無意味に単語を羅列するタイプのものもある。ベイジアンフィルタに基づく従来の電子メールフィルタリング法の場合、このようなタイプの迷惑メールが受信されると、適合度情報に含まれる単語数が飛躍的に増大してしまう。適合度情報の肥大化は、適合度情報の更新処理に伴う負荷も増大させる。
これに対し、本実施例における電子メール評価装置100は、適合度情報として登録される単語を適宜削除することにより、適合度情報のデータ量が無制限に増大しないように処置している。スパムメール確率を計算する上で有用な単語を残しつつ、それほど有用でない単語を排除していくため、適合度情報のデータ量の肥大化を抑制しつつも、適否の判定基準の変化や、迷惑メールのタイプの変化に対応できる。このように、電子メール評価装置100は単語学習機能によって発生し得る不具合を、効果的に解決することができる。
本実施例においては、ベイジアンフィルタの特にPaul Graham方式を前提として説明したが、これに限らず、単語ごとの適切さをベースとした分類方法等に広く応用可能である。本実施例においては、単語と適合度から正規メールと迷惑メールに電子メールを分類する態様を示した。このほか、データの分類方法に際しては、単語に限らず、さまざまな属性ごとの適切さをベースとした分類方法も考えられる。たとえば、文書データを分類する場合、属性としてその文書データ中における単語の出現頻度や作者、作成日時などが利用できる。また、画像データを分類する場合、属性として色の頻度や明度の頻度などが利用できる。
【0029】
なお、請求項に記載の閾値入力部の機能は、本実施例においてはユーザインタフェース処理部110によって実現される。
これら請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。
【0030】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0031】
本実施例においては、第1削除条件(s/r)<Tにおいて、sとは、r通の電子メールのうち、判定対象となる単語wが出現している電子メールの数であるとして説明した。そのため、s≦rの関係が成立している。
これに対し、別例として、sとは、r通の電子メール中に含まれる単語wの数としてもよい。この場合、sはrよりも大きくなり得る。それに対応して、第2閾値Tの取り得る範囲も、1以上、たとえば、1000のような数値に設定されてもよい。
【0032】
また、本実施例のほかにも、以下の式で全ての属性の重要度を算出し、重要度の上位n個にあたる属性のみを残すという変形例も考えられる。
まず、
重要度(属性)=f(属性の出現頻度)×g(属性の判定寄与度)
f:任意の単調増加関数
g:任意の単調増加関数
として重要度を定義する。
【0033】
上記に基づき、単語ごとの重要度を特定するための式として、以下の様な式を定義する。
重要度(w)=√{Max(n/N,m/M)}×abs(p-0.5)
m:単語wが迷惑メール群において登場した回数
M:迷惑メールの総数
n:単語wが正規メール群において登場した回数
N:正規メールの総数
p:単語wのスパム単語確率(0.5から遠い方が判定寄与度が高い)
ここで、「Max(n/N,m/M)」は、変数n/Nとm/Mのうちのいずれか大きい方を選択する関数である。また、「abs(p-0.5)」は、p-0.5の絶対値を示す。この変形例に示す方法の場合、単語の重要度を加味して、削減すべき単語を選択できる。たとえば、削除条件が成立した単語であっても、その重要度が所定の閾値よりも大きいときには削除対象としないとしてもよい。高い単語は削除対象となりにくく、低い単語は削除対象となりやすいように設定することにより、いっそう効率的に適合度情報のデータ量を削減できる。
【図面の簡単な説明】
【0034】
【図1】電子メール評価装置とメールブラウザの関係を示す模式図である。
【図2】電子メール評価装置の機能ブロック図である。
【図3】電子メール受信時における電子メール評価装置の基本的な処理過程を示すフローチャートである。
【図4】図3のS12におけるメール評価処理の内容を詳細に示すフローチャートである。
【図5】図3のS14における単語削除判定処理の内容を詳細に示すフローチャートである。
【符号の説明】
【0035】
80 クライアント端末、 90 メールブラウザ、 100 電子メール評価装置、 110 ユーザインタフェース処理部、 112 メール取得部、 114 メール転送部、 116 データ処理部、 118 データ格納部、 120 適合度情報処理部、 122 メール評価部、 124 更新部、 126 単語登録部、 128 単語削除部、 130 計数部、 132 閾値設定部、 134 単語抽出部、 136 適合判定部、 138 適合度情報保持部。

【特許請求の範囲】
【請求項1】
外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する適合度情報保持部と、
評価対象となるべき電子メールを取得するメール取得部と、
電子メールに含まれる単語を抽出する単語抽出部と、
前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部と、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する適合度更新部と、
電子メールから前記適合度情報に登録されていない単語が抽出されたとき、その単語を前記適合度情報に新規登録する単語登録部と、
前記新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において前記新規登録された単語の出現頻度が所定の閾値より小さいとき、前記新規登録された単語を前記適合度情報から除外する単語削除部と、
を備えることを特徴とする電子メール評価装置。
【請求項2】
前記適合度更新部は、ベイジアンフィルタ法(Bayesian Filtering)に基づいて、前記電子メールに含まれる各単語についての適合度を再計算することを特徴とする請求項1に記載の電子メール評価装置。
【請求項3】
前記単語削除部は、前記新規登録された単語について前記適合度更新部により算出された適合度が所定範囲内にあるときには、前記新規登録された単語を前記適合度情報から除外することを特徴とする請求項1または2に記載の電子メール評価装置。
【請求項4】
前記単語削除部は、適合度が取り得る範囲の中央値を含む所定範囲に前記新規登録された単語の適合度が含まれるとき、前記新規登録された単語を前記適合度情報から除外することを特徴とする請求項3に記載の電子メール評価装置。
【請求項5】
前記単語削除部は、前記新規登録された単語を含む電子メールの取得後に更に取得された電子メールの数が所定数を超えたことを条件として、前記新規登録された単語を前記適合度情報からの除外対象とすることを特徴とする請求項1から4のいずれかに記載の電子メール評価装置。
【請求項6】
前記閾値を設定するためのユーザによる指示入力を検出する閾値入力部と、
指示入力により指定された値を前記閾値として設定する閾値設定部と、
を更に備えることを特徴とする請求項1から5のいずれかに記載の電子メール評価装置。
【請求項7】
評価対象となるべき電子メールを取得するステップと、
電子メールに含まれる単語を抽出するステップと、
単語ごとの適切さを指標化した適合度を示す適合度情報を参照して、取得された電子メールに含まれる各単語の適合度を検出し、それらの適合度から取得された電子メールが適切な内容であるか否かを判定するステップと、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新するステップと、
電子メールから前記適合度情報に登録されていない単語が抽出されたとき、その単語を前記適合度情報に新規登録するステップと、
前記新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において前記新規登録された単語の出現頻度が所定の閾値より小さいとき、前記新規登録された単語を前記適合度情報から除外するステップと、
を備えることを特徴とする電子メール評価方法。
【請求項8】
外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する機能と、
評価対象となるべき電子メールを取得する機能と、
電子メールに含まれる単語を抽出する機能と、
前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する機能と、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する機能と、
電子メールから前記適合度情報に登録されていない単語が抽出されたとき、その単語を前記適合度情報に新規登録する機能と、
前記新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において前記新規登録された単語の出現頻度が所定の閾値より小さいとき、前記新規登録された単語を前記適合度情報から除外する機能と、
をコンピュータに発揮させることを特徴とする電子メール評価プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2007−122145(P2007−122145A)
【公開日】平成19年5月17日(2007.5.17)
【国際特許分類】
【出願番号】特願2005−309803(P2005−309803)
【出願日】平成17年10月25日(2005.10.25)
【出願人】(390024350)株式会社ジャストシステム (123)