摘要当前,垃圾邮件的问题已经在全球蔓延开来,且呈现越来越严重的趋势。它占用了网络资源,威胁着网络安全,也困扰着人们的日常生活。哈希表和朴素贝叶斯算法的结合为垃圾邮过滤的问题提供了一种效率比较高的方法。87161
本文选用了贝叶斯算法作为主要算法,借助哈希表这一有效的工具,针对传统的分布式贝叶斯算法存在的前期训练消耗大的缺点,对此过滤算法进行了改进。实现结果表明,在查准率和判对率相对较好的情况下,提高了过滤的执行率,减少了程序运行的时间。本文采用Java语言,设计出一套基于eclipse平台的垃圾邮件过滤系统。当有新的一封邮件过来时,与本地的文件库进行比较时,可根据结果自动的将待分类的邮件分成合法邮件和垃圾邮件。
毕业论文关键词:垃圾邮件;哈希表;贝叶斯算法
Abstract Nowadays, spam issues has spread around the world and showed a worsening trend。 It takes up network resources, threats network security, and plagues people's daily lives。 When we combine hash table and Naive Bayesian algorithm, it will provide a more efficient way to for spam filtering issues。
This project applies Bayesian algorithm as the main algorithm with the effective tool hash table。 As the traditional distributed training Bayesian algorithm exists consumption big disadvantage, this filtering algorithm improves filtering algorithm。 The results show, the system maintains good recall and precision rate, improves the filtration rate, reduces the running time。 In this paper, we use the Java language。 Designing a simple spam filtering system based eclipse platform。 When there is a new message coming, with local file comparison , we can classify it automatically according to the results。
Keywords: spam; Hash table; Bayesian algorithm
目 录
第一章 绪论 1
1。1课题研究背景及意义 1
1。2当前反垃圾邮件的状况 2
1。2。1法律手段 2
1。2。2经济手段 3
1。2。3技术手段 3
1。3论文组织结构 4
1。4本章小结 4
第二章 理论基础 5
2。1电子邮件的结构 5
2。1。1电子邮件的结构特点 5
2。1。2邮件的传输方式 5
2。1。3 SMTP协议 6
2。1。4 POP3协议 7
2。2邮件内容格式 7
2。3贝叶斯算法 8
2。4算法的改进 11
2。5本章小结 11
第三章 实验分析 12
3。1 样本的收集与处理 12
3。1。1 初始样本的采集 12
3。1。2 初始样本集的预处理 12
3。1。3 关键词的抽取 13
3。1。4词频统计与权重计算 13
3。2 训练集和测试集