3 关联问题
以某种方式分析数据源,从中发现一些潜在的有用的信息的技术被称为数据挖掘,或者称作知识发现,而关联规则挖掘则作为数据挖掘中的一个课题,它有着举足轻重的地位,经常被人们重点研究,从而发现事物之间可能存在的关联或者联系。文献综述
关联规则[7]本质就是用来揭示数据与数据之间的关系的准则。由一个条件和一个结果组成的,类似于IF。。。THEN的形式就叫做规则。关联规则挖掘[8]指在扫描整个数据集后,从中找出具有给定的最小置信度和最小支持度的关联规则。其中最具代表性的R。Agrawal提出的 Apriori算法。支持度、可信度、提升度是关联分析有三个非常重要的属性。
4 预测问题
本文所说的预测问题只是狭义上的预测,它不涉及分类问题,理由也很简单,分类问题也是一种预测技术。一般情况下,预测问题都是一些取值为连续的数据的数学建模问题。例如天气预报预测、未来几天的气温变化、企业下个年度的收入、利润和销售业绩等。
与其他三类问题不同的是,预测问题侧重于采用统计学的技术的解决,例如回归分析。那么什么又是回归分析呢?它作为统计方法中比较古老的方法,最初由高尔顿在生物统计的研究中提出来的,它的主要通过拟和类似 的关系式来揭示变量之间的关系。由这个关系式,任意给定一组 ,通过取值就可以预测未知的y值,从而揭示目标变量与影响因素之间的关系。
本文研究的学生成绩方法分析属于分类问题,并利用决策树算法对成绩数据进行分析。后文会对决策树及过程详细阐述。
第三章 决策树算法研究
3。1 ID3决策树算法
决策树[9]通过将数据有目的的进行分类,从中挖掘出一些有用的、隐含的信息的过程,是一种用于建立预测模型的典型方法,它的递归方式由顶向下,在决策树的内部节点比较属性值,比较后根据不同的属性值向下分支,每一个叶节点是学习划分的类,每一条分类规则对应的是从根节点到叶节点的每一路径。决策树的主要优点有描述方法简单、算法简易好懂,分类效率高,尤其是对海量数据的处理。来*自~优|尔^论:文+网www.youerw.com +QQ752018766*
ID3算法是 年Quinian提出的一种基于信息熵的决策树学习算法,是最有影响和最早的决策树算法之一。以后的绝大多数算法都是在它的基础上进行改进而实现的。ID3算法的基本策略如下 ID3算法基本策略
通常情况下人们习惯于采用信息增益的方法来确定属性选择。而当前节点的测试属性一般则通过选择具备最高信息增益的属性,然后得到最简单的决策树。
ID3算法决策树的学生成绩分析方法(4):http://www.youerw.com/jisuanji/lunwen_85961.html