绝大多数划分方法基于对象之间的距离进行聚类,这样的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难。随之提出了基于密度的另一类聚类方法,其主要思想是:只要邻近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。常见的基于密度的聚类算法有DBSCAN,OPTICS,DENCLUE等。
4.1.4 基于网格的方法(grid-based method)
基于网格的方法把对象空间量化为有限数目的单元,形成了一个网格结构。所有的聚类操作都在这个网格结构(即量化的空间)上进行。基于网格的聚类算法主要有STING, Wave Cluster, CLIQUE等。
4.1.5 基于模型的方法(model-based method)
基于模型的方法为每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。一个基于模型的算法可能通过构建反映数据点空间分布的密度函数来定位聚类。它也基于标准的统计数字自动决定聚类的数目,考虑“噪声”数据或孤立点,从而产生健壮的聚类方法。基于模型聚类方法主要有两种:统计学方法和神经网络方法[6]。
4.2并行聚类算法
聚类算法中的另一大分支是并行聚类算法。数据挖掘并行聚类算法和数据挖掘串行算法的研究几乎是同时进行的。这是因为数据挖掘的兴起正是因为数据量过大,超出了人们可以“手工”处理的范围,随着数据量的增多计算量也会超出一台计算机的存储能力和计算能力。所以,并行数据挖掘从数据挖掘研究伊始就成为一个重要的研究课题。
在数据挖掘算法中有两种形式的并行性质:任务并行和数据并行。对于任务并行,计算模型被划分到各个处理器中,并分别计算模型的一部分,然后再同其它处理器通过消息通信等方式进行协调,以得到一个全局模型。其实,这里的“任务并行”就是“串行程序并行化”。负载均衡可能是任务并行关注的主要问题。对于数据并行,训练集首先被划分到各个处理器中(或者数据集本身就是分布式存储的),然后各个处理器同时工作,建立各自的局部模型。最后各个局部模型被整合为一个全局模型。其实,这里的“数据并行”就是“分布式并行”[7]。
5.扩展聚类算法
5.1 ACODF 聚类算法
2004 年,Tsai 等人提出一个新颖的具有不同偏好的蚁群系统(novel AS) ——ACODF(a novel data clustering approach for data mining in large databases),用来解决数据聚类问题。 设计一种不需要求解任何硬子问题(any hard sub-problem),但能给出近似最优解的聚类算法, 是人们所期待的.ACODF 能够快速获得最优解, 它所包含的3 个重要策略如下:
(1) 应用不同偏好的(favorable)ACO 策略;
上一页 [1] [2] [3] [4] [5] [6] 下一页
数据挖掘中的聚类算法的研究_聚类在数据挖掘中的应用 第4页下载如图片无法显示或论文不完整,请联系qq752018766