java海量数据处理利器Hash在线邮件地址过滤(4)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

java海量数据处理利器Hash在线邮件地址过滤(4)

但由于垃圾邮件制造者不断更换身份,要是手工对黑名单进行维护代价将是巨大的。

实时黑名单(Real-time Black)可以有效地缓解这个问题,通过某种服务来将IP定义为黑名单,使用者只需要使用黑名单服务即可。在中国,普遍使用的就是黑名单技术。

(2)关键字过滤

所谓的垃圾邮件,就是一些敏感词汇频繁出现的邮件。类似“公司”,“¥“,“产品”等敏感词。那么我们可以定义一个单词表,将大量垃圾邮件中易出现的关键字存储,对以后的邮件的判定做数据源。然而新的词汇层出不穷,这个技术和黑名单技术一样,还需要不断的更新和升级。

然而由于某些特殊工作的原因,我们正常交流的邮件中也可能出现一些较多的敏感词汇,所以这种方法的误判率比较高。

(3)白名单

白名单,顾名思义只有合法用户的IP和邮箱才能发送邮件[[[]曲凯扬。 垃圾短信拦截技术研究[J]。 福建电脑,2015,11:4-6。]]。系统建立一个邮件服务器,只有系统判定它是从白名单里发出的,我们才将判断为合法邮件。

它较之黑名单更加的严格,只需要建立好白名单的地址列表,就能很有效的对垃圾邮件进行屏蔽,而且成本较低。然后这种方式就是和邮件出现的初衷相违背,邮件的出现就是为了信息更方便的交流传递。所以这种方式只可以在其少数的情况下才能使用。

(4)其他技术

以上提出的方法只是从邮件的其他属性出发,对其进行分析,过滤。然而真正有效的方式是从邮件的内容结构出发,这样可以明显的提高垃圾邮件的判对率以及降低邮件的误判率。目前,普遍流行的有支持向量机(SVM)、Boosting、贝叶斯算法等。然而这些方法多涉及复杂的算法,实现起来也需要很多的计算机资源。

1。3论文组织结构

全文共分为5章,各章如下:

第一章:介绍了这个课题的研究背景和它的意义,介绍了垃圾邮件过滤技术的一些国内外的研究现状。简单的对这个论文的内容和结构进行描述。

第二章:详细的介绍本文用到的算法,对其进行简单的分析和说明。

第三章:分析实验的流程,验证这个算法的有效性。论文网

第四章:利用本地的垃圾邮件和合法邮件数据源,在eclipse上对其算法进行实现。

第五章:系统测试。

1。4本章小结

本章主要介绍了垃圾邮件的产生,产生的危害,反垃圾邮件的技术,以及这些技术之间的比较。让人们对垃圾邮件和反垃圾邮件技术有一定的了解。贝叶斯算法就是接下来几章的探究的重点。

第二章 理论基础

上一章中我们简要的介绍了几种垃圾邮件过滤的方法,包括法律手段,经济手段,技术手段。其中技术手段是阻止垃圾邮件的最有效的方式,本文所研究的是众多技术手段中较为流行的且可靠的贝叶斯过滤算法。本章将介绍本次实验用到的贝叶斯的算法和哈希表。

2。1电子邮件的结构

2。1。1电子邮件的结构特点

电子邮件一开始出现的目的与邮件是一样的,是为了消息的传递。那么开始的时候,电子邮件的内容就只有文字,也就是文档的格式,最初就只有SMTP(Simple Mail Transfer Protocol,简单邮件传输协议)。后来还规定了POP3协议(Post Office Protocol3,邮局协议版本3),定义了从POP3服务器获得邮件的机制。然而,随着信息量越来越大,人们希望在邮件传递中可以传递类似于图片,word文件。然后人们又规定了MIME协议(Multi-purpose Internet Mail Extension,多用途互联网邮件拓展协议)。目前,几乎所有的邮件服务系统都支持MIME协议。 (责任编辑:qin)