12

5.3 JIEBA中文分词 15

5.3.1 三种分词模式 15

5.3.2 三种分词模式比较 15

5.4 MATPLOTLIB 16

5.5 算法实现 16

5.6 算法结果 21

6 问题汇总和比较 28

6.1 编程中所遇到的问题 28

6.1.1 中文编码 28

6.1.2 列表子集 28

6.1.3 显示图表 28

6.1.4 端口占用 29

6.1.5 概率公式 29

7 总结 31

7.1 优点 31

7.2 缺点 31

致谢 33

参考文献 34

1 绪论

由于现在计算机网络互联网的高速发展,以及电子商务和电子政务的迅速普及,电子邮件已经成为越来越重要的交流手段。但与此同时也伴随着垃圾邮件问题,这显然从令人厌恶演变成了生产率的流失。因此,垃圾邮件分类技术将很快成为一个热门的研究课题。 

1.1 分类器概述

在数据挖掘中,分类这一方法占非常重要的地位。分类的观点是基于已知晓类别的数据上建立分类模型,也常常被称为分类器。该功能或模型可以将数据库中的数据记录映射到给定的类别,这样就可以应用于数据预测,即可以用这个模型对未来的数据进行分类。总之,分类器是数据挖掘中的样本分类方法,包括k-近似法,决策树,遗传算法,朴素贝叶斯,神经网络等。

1.2 分类器的实施和构造的步骤:

(1) 选定数据集(包含正数据集和负数据集),将所有数据集随机地分为训练数据集和测试数据集。

(2) 在训练数据集上执行分类器算法,生成分类模型。

(3) 在测试数据集上执行分类模型,生成预测结果。

(4) 根据预测结果,计算必要的评估指标,评估分类模型的性能。

为了提升分类的精确度,高效性和可扩展性,数据基本要在开始分类前预先做好处理,包含以下三个步骤:

(1) 数据清理。其目的是消除或减少数据噪声,处理空缺值。

(2) 相关性分析。由于数据集中的许多属性可能与分类任务不相关,若包含这些属性将减慢和可能误导学习过程。相关性分析的目的就是删除这些不相关或冗余的属性。

(3) 数据变换。数据可以概化到较高层概念。比如,连续值属性“收入”的数值可以概化为离散值:低,中,高。又比如,标称值属性“市”可概化到高层概念“省”。此外,数据也可以规范化,规范化将给定属性的值按比例缩放,落入较小的区间,比如[0,1]等。

1.3 分类器的两种类型:

1.3.1 决策树分类器

决策树是一个决策支持工具,它使用树状图或决策模型及其可能的后果,包括机会事件结果,资源成本和效用。它是显示算法的一种方式。决策树通常用于运营研究,特别是在决策分析中,用以帮助确定最有可能实现目标的策略,但与此同时它也是机器学习中的流行工具。决策树是一种流程图状结构,这种用图形来表达的方式简洁明了,更易于探查。其中每个内部节点代表对一个属性的“测试”(例如抛硬币是是正面还是反面),每个分支表示了测试结果,并且每个叶节点表示一个类标签(计算所有属性后做出决定)。从根到叶的路径则代表分类规则。决策树可以通过对属性的分析来对数据进行分类,也就是“窥一斑而知全豹”。譬如,决策树可以从“一种瘪嘴,会游泳,有翅膀,有两只脚的动物”这些属性中得出它可能是在描述一只鸭子。论文网

上一篇:HTML5宠物商店管理系统的设计与开发
下一篇:LandsatTM基于遥感的地表温度反演算法比较

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

基于消费者个性特征的化...

基于网络的通用试题库系统的整体规划与设计

张洁小说《无字》中的女性意识

我国风险投资的发展现状问题及对策分析

互联网教育”变革路径研究进展【7972字】

安康汉江网讯

新課改下小學语文洧效阅...

ASP.net+sqlserver企业设备管理系统设计与开发

网络语言“XX体”研究

LiMn1-xFexPO4正极材料合成及充放电性能研究

老年2型糖尿病患者运动疗...

麦秸秆还田和沼液灌溉对...