3 关联问题

以某种方式分析数据源,从中发现一些潜在的有用的信息的技术被称为数据挖掘,或者称作知识发现,而关联规则挖掘则作为数据挖掘中的一个课题,它有着举足轻重的地位,经常被人们重点研究,从而发现事物之间可能存在的关联或者联系。文献综述

关联规则[7]本质就是用来揭示数据与数据之间的关系的准则。由一个条件和一个结果组成的,类似于IF。。。THEN的形式就叫做规则。关联规则挖掘[8]指在扫描整个数据集后,从中找出具有给定的最小置信度和最小支持度的关联规则。其中最具代表性的R。Agrawal提出的 Apriori算法。支持度、可信度、提升度是关联分析有三个非常重要的属性。

4 预测问题

本文所说的预测问题只是狭义上的预测,它不涉及分类问题,理由也很简单,分类问题也是一种预测技术。一般情况下,预测问题都是一些取值为连续的数据的数学建模问题。例如天气预报预测、未来几天的气温变化、企业下个年度的收入、利润和销售业绩等。

与其他三类问题不同的是,预测问题侧重于采用统计学的技术的解决,例如回归分析。那么什么又是回归分析呢?它作为统计方法中比较古老的方法,最初由高尔顿在生物统计的研究中提出来的,它的主要通过拟和类似 的关系式来揭示变量之间的关系。由这个关系式,任意给定一组 ,通过取值就可以预测未知的y值,从而揭示目标变量与影响因素之间的关系。

本文研究的学生成绩方法分析属于分类问题,并利用决策树算法对成绩数据进行分析。后文会对决策树及过程详细阐述。

第三章 决策树算法研究

3。1 ID3决策树算法

  决策树[9]通过将数据有目的的进行分类,从中挖掘出一些有用的、隐含的信息的过程,是一种用于建立预测模型的典型方法,它的递归方式由顶向下,在决策树的内部节点比较属性值,比较后根据不同的属性值向下分支,每一个叶节点是学习划分的类,每一条分类规则对应的是从根节点到叶节点的每一路径。决策树的主要优点有描述方法简单、算法简易好懂,分类效率高,尤其是对海量数据的处理。来*自~优|尔^论:文+网www.youerw.com +QQ752018766*

ID3算法是 年Quinian提出的一种基于信息熵的决策树学习算法,是最有影响和最早的决策树算法之一。以后的绝大多数算法都是在它的基础上进行改进而实现的。ID3算法的基本策略如下 ID3算法基本策略

通常情况下人们习惯于采用信息增益的方法来确定属性选择。而当前节点的测试属性一般则通过选择具备最高信息增益的属性,然后得到最简单的决策树。

上一篇:java+mysql宠物店网站的设计与实现
下一篇:java+mysql旅游网站管理系统设计

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

python基于决策树算法的球赛预测

加密与解密算法的研究【1931字】

一種删除准则的NOMA资源联...

vc++几种排序算法演示软件实现

老年2型糖尿病患者运动疗...

LiMn1-xFexPO4正极材料合成及充放电性能研究

张洁小说《无字》中的女性意识

网络语言“XX体”研究

麦秸秆还田和沼液灌溉对...

安康汉江网讯

ASP.net+sqlserver企业设备管理系统设计与开发

我国风险投资的发展现状问题及对策分析

互联网教育”变革路径研究进展【7972字】

新課改下小學语文洧效阅...