1。3 文章结构
第一章是绪论,简单介绍了课题的提出背景、研究内容和文章结构。
第二章是数据结构,阐述了数据挖掘的概念,讨论了数据挖掘的主要方法和包含的几类问题,提及了数据挖掘的应用。
第三章是论文的主要内容——决策树算法,详细分析了决策树算法的概念原理,强调了ID3算法建立决策树的过程并用实际案例进行印证。在辩证ID3算法的优点和缺点的基础上,引入了先验知识度参数Q,提出了改进算法Q-ID3。
第四章是精准营销,解释了关于精准营销的“什么是”、“为什么”、“怎么样”的3W问题。文献综述
第五章是基于决策树算法的精准营销策略,分别用传统ID3算法和改进ID3算法对实际案例建立了决策树分类模型,实现客户分类,并进行比较。
最后是总结,概括总结了本文的论点和主要内容,展望了以后的研究方向和发展前景。
2 数据挖掘
2。1 数据挖掘概念
数据挖掘兴起于上世纪八十年代,它是“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程”[1],也可以说“从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程”[2]。人们对数据挖掘有很多解释不同但实质一样的定义,可以形象地说成是"海底捞针",即从数据的海洋中获得价值之针。
2。2 数据挖掘方法
不论什么类型的数据集都可以作为数据挖掘的对象,这也体现了数据挖掘的良好的包容性。数据挖掘利用一些方法来分析讨论这些数据,主要包括决策树法、关联规则法、神经网络法等。
决策树法以ID3算法为基础,对全部的数据按照属性进行递归划分,使样本在分类的过程中尽可能的属于同一个子数据集中,具有相同的决策特征。为了改正ID3算法倾向于选择信息增益最大的属性作为数据集合测试属性的缺点,人们改正了ID3算法,出现了C4。5算法。关联规则法以R。Agrawal等人提出的Apriori算法为代表[3],能够反映出一个事件与其他事件之间的相互联结性和相互依存性。经常用于对消费者消费行为的研究,从中发现消费者内在的消费模式,从而提高销售,其最典型的案例便是"啤酒与尿布"。神经网络法则是模仿人脑神经元建立模型,从周围环境学习知识。