目录
1.绪论...5
1.1研究背景5
1.2研究意义....5
1.3研究内容....5
2.相关理论综述6
2.1决策树定义6
2.2决策树经典算法..6
2.3C4.5算法改进详解..7
2.4决策树的特点.9
3.问题分析与解决方案.10
4.系统设计与实现....11
4.1C4.5的算法实现....11
4.1.1算法描述...11
4.1.2主要步骤...12
4.3关键代码...12
5.实验分析.17
5.2结果分析..18
5.3运行截图..19
结论21
致谢21
参考文献24
1.1.1.1. 绪论绪论绪论绪论1.1 1.1 1.1 1.1 研究背景 研究背景 研究背景 研究背景决策树技术是目前最成熟的方式来了解一个概念 。 它最早产生 于 2 0 世 纪 6 0 年代 ,亨特等人研究的概念建模时建立人类学习系统( CLS 概念学习系统 ) ,到 70 年代末,J 罗斯 · 昆兰提出的 ID3 算法,其目的是减少的深度树。但是,它忽略叶子的片数。在 1975 年和 1984 年,分别有人提出 CHAID ( Chi-squared Automatic InteractionDetection ) 和 CART ( Classification and Regression Tree , 亦称 BFOS ) 算法 。 198 6年 , J.C.Glimmery 提出 ID4 算法 。 1988 年 , P.E.Offutt 又提出了 ID5R 算法 。 199 3年 , Quinlan 拿出以 ID3 算法为基础的 C4.5/C5.0 的算法 , C4.5 算法 ID3 算法进行了默认值预测变量的处理、修剪技术、派生规则等多方面的改善,无论是分类问题 , 抑或是回归问题都适用。决策树算法具有以下优点 : ( 1 )分类准确度 ; ( 2 )生成的模型很简单 , ( 3 )对噪声数据有很好的鲁棒性 。 这是目前使用最广泛的归纳推理算法 , 得到了数据挖掘研究人员的广泛关注。
1.2 1.2 1.2 1.2 研究意义 研究意义 研究意义 研究意义决策树算法在许多领域 , 如医疗 、 生产制造 、 机器学习 、 遥感影像分类 、 财务分析和知识发现等领域的决策树算法已被广泛使用。决策树是一种海量数据集的一个非常有效的分类方法。通过构造决策树模型 , 源]自{优尔·~论\文}网·www.youerw.com/ 提取有价值的分类规则 , 来帮助决策者做出准确的预测 。 决策树算法是离散函数值的近似值 。 它是一个典型的的的分类方法 , 第一上述数据处理 , 使用的规则的感应的算法的 , 以生成可读的和号决定的的树木获得的 , 和新的数据以供分析 。 决策树实际上是一组规则对数据进行分类的过程。1.3 1.3 1.3 1.3 研究内容 研究内容 研究内容 研究内容数据挖掘需要低复杂度和高效的并行算法和策略选择 , 包括低复杂度的算法的全局优化问题尽可能陷入局部最优近似直线或尽量减少低阶多项式算法的复杂性 , 以及高效的并行策略包括需要有精湛的技艺和递归循环,避免使用全局的信息。现在 , 研究人员正在继续研究改进决策树算法 , 研究人员又从不同的角度对 C4. 5算法进行了相应的改进,这其中包括针对 C4.5 算法处理连续属性比较耗时,用数学本科 毕业设计说明书(论文)的等价无穷小使信息增益率的计算效率不断提高等等方面。本论文将对 C4.5 算法进行分析和实现,同时做进一步的深入学习。