组合聚类算法研究与实验+文献综述_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

组合聚类算法研究与实验+文献综述

摘要聚类是指将物理的或抽象的集合分成由相似对象所组成的多个类别的过程。它是一种无监督的学习,使得类内对象相似性大,类间对象相似性尽可能小[1]。单一的聚类算法无法准确地表现出各种数据集所呈现出的不同的簇结构,而聚类集成利用集成学习技术,合并一个数据集的多个聚类结果,得到一个新的聚类结果,从而较好地解决单一聚类算法的这一不足。
此次研究中,选取了K-MEANS、K-MEDOIDS、DBScan、OPTICS等4种聚类算法作为基聚类算法,通过UCI数据库中的数据集生成聚类成员并进行聚类成员间的差异性度量,使用投票法和超图划分的方法设计一致性函数,并且对所得到的单一聚类结果与组合聚类结果进行对比评价分析。25721
毕业论文关键词  聚类算法 聚类成员 组合 一致性函数
毕业设计说明书外文摘要
Title  A Research and Implementation of Clustering Ensembles  Algorithm                                                   
Abstract
Clustering is a process which makes the physical or abstract sets pide into many clusters composed of similar objects. It is a unsupervised learning making the objects in one class more similar and more different in different classes.
One clustering algorithm can not express the different cluster structure of datasets accurately, but clustering ensembles use the ensemble learning technology; combine multiple clustering result of one dataset; obtain a new clustering result.  
This study select four clustering algorithms as basic clustering algorithms: K-MEANS、K-MEDOIDS、DBScan and OPTICS, receiving clustering members by UCI datasets and persity measure result, using voting based method and hypergraph based method to construct the consensus functions, and then analyze both basic clustering result and ensemble clustering result.
Keywords  Clustering algorithm  Clustering member  Ensembles  Consensus fuction
目   次
1  引言  1
2集成聚类研究现状  4
2.1  生成聚类成员 4
2.2  一致性函数 6
3  集成聚类框架  10
3.1  基聚类模块  12
3.2  聚类成员差异性度量模块  12
3.3  一致性函数模块  12
3.4  聚类结果可视化及评价模块  12
4  集成聚类方法  14
4.1  基聚类与聚类成员生成方法 14
4.2  聚类成员差异性度量方法 16
4.3  一致性函数 18
4.4  聚类结果评价与分析   20
5  实验评价与分析  22
5.1  实验结果   22
5.2  实验结果分析   28
结论 30
致谢 32
参考文献 34
1  引言
聚类是将物理的或者抽象的集合划分成多个类的过程。其中,每一个类(即,簇)内的对象相似,不同的类之间对象差异性大。如图1.1所示,当前的聚类方法主要包括:划分方法(partitional method)、层次方法(hierarchical method)、基于密度的方法(density-based method)、基于模型方法(model-based method)和基于网格的方法(grid-based method)等[2]。单一的聚类算法无法准确地表现出各种数据集所呈现出的不同的簇结构,而聚类的组合(即,集成)利用集成学习技术,将一个数据集的多个不同聚类结果进行合并,得到新的聚类结果,从而较好地解决单一聚类算法的这一不足。聚类集成的核心步骤在于设计有效的一致性函数,如图1.2所示,当前的一致性函数主要包括:投票方法、超图划分的方法、证据累积和概率累积等[5]。 (责任编辑:qin)