数据挖掘中常用到的关联规则算法有:Apriori和FP-tree算法。

2)分类分析

分类是数据挖掘最基本的一种形式,它的任务是对数据集中的每一类数据进行学习,并建立起一个具有预测功能的分类模型,用来预测未知数据的类别。

数据挖掘中常用到的分类方法有:决策树分类方法、贝叶斯分类方法、k-最近邻分类方法、神经网络分类方法以及支持向量机分类方法,其中决策树方法中的算法有ID3[18]、CART、SLIQ和C4。5等。

3)聚类分析

在机器学习中,相对于被称为监督学习的分类,聚类被认为是非监督学习,它们所采用的方法差距较大。聚类是数据挖掘和统计分析中的一个重要研究领域,聚类就是将数据聚集成若干个类,类中数据之间的相似性较大,但类间具有较大的差异性[19]。与分类不同的是聚类是基于当前的要处理的数据,事先并不知道每个数据对象要归于哪个类。

数据挖掘中常用到聚类算法有:基于划分的K-means 算法、基于密度的DBSCAN算法和基于分层的CURE算法。

4)统计分析

利用统计分析来对数据集进行挖掘的主要思想是:利用统计的方法对特定的数据集来假设一个分布模型或概率模型(例如一个正态分布),然后再根据模型采用适当的方法来进行数据挖掘。

5)可视化分析

数据挖掘的过程和结果都可以利用可视化的方法进行表示,可视化技术能够从数据集中发现新的趋势与模式,并可采用直观的图形将这些模式和趋势表现出来,易于用户理解和使用。

2。2 数据可视化概述

  2。2。1 数据可视化定义

数据可视化(Data Visualization)技术是指运用计算机图形学和图像处理技术,将数据或知识转换为图形或图像在屏幕上显示出来,并直观地与用户进行交互处理的理论、方法和技术[20]。它涉及计算机图形学、计算机图像处理技术、计算机CAD 技术、计算机视觉和人机交互技术等多个领域。

数据可视化技术扩展了传统的文字表述和图表功能,使用户对数据的理解更加直观,交互性也更强。它还应用于数据挖掘的全过程,比如数据源的选择、数据的预处理、数据的挖掘以及数据的分析与评估等。首先,在数据源的选择上,可以用可视化的方式选择出要被分析的数据源,数据部分也可以以特定形式显示出来,让用户有一个明确的目标,便于模型和结果的预测与确定;然后,在数据预处理的过程中利用数据可视化分析来帮助用户作出判断和筛选;而后,在数据挖掘阶段进行可视化处理,比如将过程一步步展示出来,类似于动画一般,这样既有助于用户对过程的直观了解,也可对数据本身作直观的认识;最后,对结果分析与评估过程的可视化可直接将挖掘出的规律知识直观地呈现给用户,让用户能直观清晰地获得所感兴趣的知识,并且能正确验证要分析的目标[19]。

  2。2。2 数据可视化形式

图像是表达知识的一种非常直观的方式,相较于文字和声音而言,它所蕴含的信息量更大,表达的信息也更直观。常用的数据可视化形式有以下三种。

1)条形图。适用于二维数据集,但只可以对一个维度进行比较。横轴一般用来表示时间趋势,如果不是用来表示时间可以用不同的颜色来区分。利用每个长方形的高度来反应数据之间的差异,人眼对高度的差异变化比较敏感,辨识的效果较好。

2)折线图。适合于二个维度的大数据集,当需要了解某一维度的变化趋势而不是某个单点时,折线图能很好地展现。

3)饼状图。显示的数据清晰,可以很容易地显示每组数据相对于总数的大小,而且每组数据所占大小的比例可以一目了然。

上一篇:江苏省研究型大学本科教学质量保证体系研究
下一篇:镇江高专学生评价体系中的问题及对策研究

《吹小号的天鹅》对儿童...

马尔库塞海德格尔式的马...

马克思的就业思想及其當代价值【2903字】

马克思恩格斯教育思想及...

马克思主义跨越理论及其...

马克思主义自然观及其當代价值【5261字】

马克思主义群众观的理论...

麦秸秆还田和沼液灌溉对...

网络语言“XX体”研究

新課改下小學语文洧效阅...

安康汉江网讯

LiMn1-xFexPO4正极材料合成及充放电性能研究

互联网教育”变革路径研究进展【7972字】

老年2型糖尿病患者运动疗...

我国风险投资的发展现状问题及对策分析

张洁小说《无字》中的女性意识

ASP.net+sqlserver企业设备管理系统设计与开发