数据挖掘在教学评价中的应用研究(3)
时间:2017-04-25 19:25 来源:毕业论文 作者:毕业论文 点击:次
3、数据挖掘算法执行 数据挖掘算法执行阶段首先根据对问题的定义明确挖掘的任务或目的,如分 类,聚类,关联规则发现或序列模式发现等。确定挖掘任务后,就要决定使用什 么样的算法"选择实现的算法。 4、结果的解释和评估 数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关的模式,这 时需要将其剔除;也有可能模式不满足用户要求,这时则需要整个发现过程回退 到前一阶段,如重新选取数据,采用新的数据变换方法,设定新的参数值,甚至 换一种算法等。 整个挖掘过程是一个不断反馈的过程,我们可以在挖掘的过程中发现许多潜在 可能有的关联因素,我们将要去验证这些可能的关联因素,也许这些东西可能都是 不正确的,所以验证是必要的,不能很快的,单一的去做出判断。 (三)数据挖掘的方法 1、传统的数据挖掘的方法有: (1)数理统计:数理统计通过对某些现象的频率的观察来发现该现象的内在规律性,并作出一定精确程度的判断和预测;将这些研究的某些结果加以归纳整理,逐步形成一定的数学概型。 (2)神经元网络:神经元网络是一种模型,这种模型意在模仿人脑神经元工作。用到的算法就是向量乘法,并且广泛采用符号函数及其各种逼近。并行、容错、可以硬件实现以及自我学习特性,是神经网络的几个基本优点,也是神经网络计算方法与传统方法的区别所在。 (3)决策树:是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。 (4)遗传算法:是一类借鉴生物界的进化规律演化而来的随机化搜索方法是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力 (5)关联规则:关联规则我们可以看成是一种规律。在下面我们会详细解释。 (6)粗糙集:是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具。采集到的数据常常包含着噪声,不精确甚至不完整 。 (7)贝叶斯网络:贝叶斯网络是一种概率网络,它是基于概率推理的图形化网络。对于解决复杂设备不确定性和关联性引起的故障有很的优势。 (8)可视化技术:使用图形渲染产品,使用图形进行分析的一种技术。 本文主要讲述的是第五条,也是比较常用的一条: 关联规则,关联规则是数据挖掘的一种主要形式,而且它也是与大多数人想象的数据挖掘过程最为相似的一种数据挖掘形式。规则发现是一项规模庞大的工作,数据库中所有可能的联系和模式都会被系统地抽象出来,然后再估算它们的正确性和重要性。在该系统中,规则本身是如果,,那么,,的简单形式,如果客户购买了饼干,他同时购买奶酪的可能性为90%,要得到有用的规则,就还需要两条与规则相关的重要信息,可信度规则正确的概率是多少,支持度规则出现的概率是多少等等。 (四) 关联算法的分析 (1)关联规则挖掘概述 数据挖掘中,关联规则的挖掘是一个重要的问题.关联规则发现最初的形式是零售商的货篮分析,货篮分析是通过发现顾客放入其货篮中的不同商品,即不同项之间的关联,这种关联的发现可以帮助零售商制定营销策.货篮分析的典型应用是可以帮助经理设计不同的商品布局.一种策略是:经常一块购买的商品可以摆放近一些,以便进一步刺激这些商品一起销售。例如,如果顾客购买计算机的同时常也会购买一些财务管理管理软件,那么如果将电脑硬件摆放得离电脑软件近一点,就可能有助于增加两者的销售;另一种策略是:将电脑硬件和电脑软件分别摆放在商品的两端,这就会促使顾客在购买这两种商品时走更多的路,从而达到诱发他们购买更多商品的目的。比如:顾客在决定购买了一台昂贵电脑之后,在去购买相应的财务管理软件的路上可能会看到安全系统软件,这时他就有可能购买这一类软件。以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。 (责任编辑:qin) |