java海量数据处理利器Hash在线邮件地址过滤(3)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

java海量数据处理利器Hash在线邮件地址过滤(3)

目前,应用在垃圾邮件过滤的方法中包括基于关键字、基于黑白名单、基于规则、基于散列值等多种方法。传统的这些技术在现行的计算机系统的实现时,都存在着管理难、误判率较高、成本高等问题。上个世纪90年代出现的贝叶斯分类器,应用在垃圾邮件的问题中,显示出它良好的性能。贝叶斯邮件过滤技术的原理在于通过样本的计算得到先验概率,然后在要过滤的文本中计算得到后验概率,通过后验概率的结果来判断这个文本是否属于垃圾邮件。先验概率的计算是基于提取训练样本集中垃圾邮件和合法邮件的特征向量词汇,然后形成垃圾邮件哈希表和合法邮件哈希表。通过计算得到先验概率,然后与垃圾邮件哈希表和合法邮件的哈希表一起构成知识库[[[]李艳涛,冯伟森。 堆叠去噪自编码器在垃圾邮件过滤中的应用[J]。 计算机应用,2015,11:3256-3260+3292。]]。然后在需要判别的文本中提取出特征向量词汇,与知识库中的数据进行比对得到后验概率,概率值较大的类别就是待分配文本的类别。在拥有如此高效的文本判别率的同时,贝叶斯算法也存在着很多技术上面的缺点。它在传统计算机的实现中,存在着前期训练运算量大、训练集不易拓展,占用很多计算机资源。在本文中,我对传统的贝叶斯过滤算法提出了一点点的改进,可以稍微减少前期训练的运算量。

1。2当前反垃圾邮件的状况

面对如此严重的问题,仅仅是技术手段已经不能够解决。目前全球在反垃圾邮件技术中采用法律手段、经济手段、技术手段等。

1。2。1法律手段

将垃圾邮件的传播定义为违法事件,对垃圾邮件的传播起到一定的阻碍作用。目前,各国都出台了相关的法律。

由于互联网最早出现在美国,美国的垃圾邮件也是最先出现并且越来越严重。美国的政府在国会的敦促下于2000年通过《发垃圾邮件法案》,以后也出台了很多相关法案。这些法案对垃圾邮件制造者进行规范,并且对其进行经济上的处罚。

我国由于网民基数众多,网民素质参差不齐,政府监管不严,这些原因使得我国成为受垃圾邮件危害最大的国家。我国于2003出台了《中国互联网协会发垃圾邮件服务标准》,之后出台了一些相关法案。我国同样设立中国教育和科研计算机网紧急响应组(CCERT)。然而由于我国网民对网络安全很陌生,使得群众投诉成为一个难题。政府在出台网络安全法律的同时还需要加大宣传力度,使得网络安全的概念深入人心,使得政府能够联合群众一起对抗垃圾邮件的传播。

垃圾邮件的问题还需要全球各国协力解决。各国政府出台统一的标准来通力阻止垃圾邮件的传播。

1。2。2经济手段

传统的邮件传送是通过邮票作为媒介,邮票也成为唯一标识信件的标志。电子邮件同样也可以通过这种方式来进行传递,即为每个电子邮件赋予一个电子邮票。这样垃圾邮件制造者在进行传播时,要为自己制造的垃圾邮件进行付费。这样将会产生大量费用,垃圾邮件制造者将会望而却步。但作为合法用户,这样的收费同样也对自己造成困扰。而且政府也很难给费用定一个标准。故而在实施起来有着一定的难度。

1。2。3技术手段

在上面介绍的几种技术手段占到应用技术的95%,成为各个企业和用户最有效的发垃圾邮件的措施。下面我们具体介绍一下这几种方法

(1)黑名单

所谓的黑名单就是一旦用户被加入黑名单,将会在很多方面被限制[[[]夏九将,吴荣泉,王敬平。 浅析改良K-SVM算法在邮件分类中的研究应用[J]。 信息技术,2015,11:121-124+129。]]。网络的黑名单就是将垃圾邮件制造者的IP地址或者邮箱地址收集起来,存储在数据库中,当这些垃圾邮件制造者使用IP时将会被自动过滤掉。黑名单技术的原理就在此,在黑名单上面的地址列表,对其进行过滤和处理即可。 (责任编辑:qin)