引言
聚类(Clustering)分析是数据挖掘技术的重要组成部分,它能从潜在的数据中发现新的、有意义的数据分布模式,已经广泛应用于模式识别、数据分析、图
像识别及其他许多方面。聚类是一个具有挑战性的研究领域,目前对聚类算法的研究非常多。基本上所有的聚类算法都具有其各自的特点,只适用于某些特定领域,目前还没有能适用于各种领域的聚类算法。如较常用的K2 MEANS算法主要以方法简单、执行效率高见长,但只能识别大小近似的球形类; DBSCAN算法能很好地过滤噪声数据,但其时间复杂度却为O(n2),效率不高。
聚类算法大体可分为五类:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法。本文主要分析聚类算法的几大类别及常用算法特点比较,并对聚类的新发展进行归纳。
1.绪论
1.1 数据挖掘产生的背景
随着科学技术的不断发展,在各个行业中积累了大量的数据,在这种情况下,数据挖掘技术应运而生,它能够帮助我们从大量数据中提取出有价值的知识模式,被认为是最具发展前景的一项关键技术。聚类分析技术是数据挖掘的一项重要功能,近年来,聚类分析技术得到蓬勃的发展[1]。
1.2国内外研究的现状及发展
迄今为止, 世界上有许多国家的专家和学者都在致力于数据挖掘的研究,研究方面主要有:对知识发现方法的研究进一步发展;传统的统计学回归法在KDD中的应用;KDD与数据库的紧密结合及多种学科之间的相互渗透。与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量。目前,从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司,所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究,并且大多数研究项目是由政府资助进行的[2]。
2.数据挖掘概述
2.1 数据挖掘的定义
技术上的定义:数据挖掘 (Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
商业角度的定义:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据[3]。
2.2 数据挖掘的流程
作为一个学术领域,数据挖掘和数据库知识发现具有很大的重合度,大部分学者认为数据挖掘和知识发现是等价的概念,相对来讲,数据挖掘主要流行于统计、数据分析和数据库领域,而知识发现则主要流行于人工智能和机器学习领域。从数据处理的过程看,可以把数据挖掘看作知识发现过程中同算法相关的关键一步,借助于算法在可接受的计算范围内从数据中枚举模式或模型结构。
一般来讲,数据挖掘的整个过程由若干步骤组成,如图2.1,其基本过程包括数据准备、数据挖掘和结果的解释和评估[4]。
上一页 [1] [2] [3] [4] [5] [6] 下一页
数据挖掘中的聚类算法的研究_聚类在数据挖掘中的应用 第2页下载如图片无法显示或论文不完整,请联系qq752018766