其中,N是聚类成员的个数, 是N个数据成员中将模式 分配到相同簇的次数。
2001年,E. Dimitriadou, A. Weingessel和 K. Hornik[21],提出Voting-merging方法。这种方法大致分为两个部分:投票过程以及投票结果的合并。在投票过程中需要解决簇标签的对应问题。对于对象 以及簇 ,定义 为 属于第j个标签的次数。此时就得到一个模糊的数据划分。然后,对于每个对象 有簇 。另外, 为既属于第q个簇又属于第j个簇的元素个数。因此, 是关于 和 的非对称度量。 表示簇C与簇 最接近。通过这个方法将最接近的簇对合并成为一个簇。
2003年,Dudoit和Fridlyand以及Fischer和Buhmann[26,27]提出一个应用于监督聚集成的投票一致性函。这种方法假设每个划分中簇的个数都相等,并且等于最终一致性划分中簇的个数。簇标签的对应问题通过使用Hungarian方法的最大似然法解决。然后,通过一个多数投票程序选取出每个对象最终的簇类。
2006年,Zhou[17]提出可以用数据集的多个不同聚类划分组成一个聚类成员。第一步,找出聚类成员中存在的逻辑上等价的簇;第二步,计算不同数据划分之间重叠部分点的个数,以此判定两个簇是否具有相似性。
2.2.2 超图划分
2002年,Ghosh和Strehl[8]将一致性划分定义为集成聚类中信息共享最多的划分。通过规范化互信息(Normalized Mutual Information)评价两个划分之间信息共享的程度。据此他们提出了MCLA(Meta-CLustering Algorithm)[8]算法。这是一种基于聚类的超图划分算法。这种算法把簇作为顶点,两簇之间重叠的数据点与所有数据之比作为边的权重,使用图分割算法分割超边,将簇分成若干类,分别计算数据点在每类出现的次数,并将数据点分配到出现次数最多的一个类中。
2004年,Fern等人[20]提出,CSPA算法仅仅利用了各数据点之间的相似性,而MCLA算法仅仅利用了各簇之间的相似性,这两种方法在构造超图的过程中都可能因为参考的信息不够全面而产生误差[19]。因此,他们对这两种算法进行了改进,提出了一种同时基于实例和聚类的超图划分方法HBGF(Hybrid Bipartite Graph Formulation),这种方法将数据点和簇同时作为顶点,将簇与簇中数据点的连接作为权重相同的超边,构造双元图,然后利用HMETS图分割算法对超图进行分割,最后得出聚类划分结果。
2.2.3 证据累积
2002年,Fred等人[23]提出了证据积累(Evidence Accumulation)的方法,它的大致思路是:将每个聚类成员作为独立的证据,计算两对数据点分配到相同簇中的次数,得出共协矩阵。然后,通过基于最小生成树(Mininum Spaning Tree)的层次聚类算法得出最终结果。
2006年,Yang等人[22]为模糊划分提出了一种证据累积聚类集成的方法。生成基于模糊相似性测量的模糊共协矩阵可以总结出软划分(soft partition)的集成。通过基于传统共协矩阵的算法生成最终的数据划分。如果在生成阶段允许使用模糊聚类算法,那么使用软聚类集成可以得出更好的划分结果。但是,软聚类集成算法在这里是模糊的基于(超)图和共协的方法,这种方法与常规的基于(超)图和共协的方法有着类似的缺点。
2006年,Luo等人[19]通过证据积累的方法,分析了带有数字和名词的混合型数集,其相似度矩阵分成相应的两个部分:一是数字属性的相似度;二是名词属性的相似度。首先计算两个属性的共协矩阵作为相似度矩阵,然后将得到的两个相似度矩阵进行叠加,得出总体相似度矩阵。最后通过光谱聚类算法得到一致的聚类划分。 组合聚类算法研究与实验+文献综述(3):http://www.youerw.com/jisuanji/lunwen_19631.html