(6) 结合其它特殊技术来聚类分析[15,16]。“例如:神经网络、遗传算法、分形理论、混沌理论、信息融合技术及粗糙集理论等,因它们可互相补充,以提高聚类算法实时性及鲁棒性”;
(7) 聚类新理论和新算法提出及聚类结果解释;
(8) 降低对前人知识或初始参数的依赖的研究。“这类问题使对提高正确率、低复杂性、I/O开销小和具有高度可伸缩性聚类方法的研究迫在眉睫,这也是当前及以后聚类方法中的研究方向”。
2.模糊聚类方法概述及其方法研究
2.1 模糊聚类方法概述
传统聚类是一种硬划分,它把每个待识别对象严格划分到某类中,具有“非此即彼”性质,也就是对于数据空间中任何元素,要么属于某一类,要么不属于该类,两者必居且仅居其一,因此这类界限是分明的。在现实中许多实际问题并没严格属性,它们在性态和类属方面有介性,具有“亦此亦彼”性质,而传统聚类分析无法解决这类问题。
模糊划分概念最早由Ruspin于1969年提出,人们利用这概念提出了多种聚类方法。模糊聚类按照聚类过程不同可分为三大类:
(1) 基于模糊关系的聚类算法
“包含谱系聚类算法(系统聚类法)、基于等价关系和基于相似关系的聚类算法等。它是研究较早的一种方法,但不能用在大数据量情况,所以在实际应用上并不广。”文献[18]对这方面的研究进行了综述。
(2) 基于目标函数的模糊聚类方法
该算法将聚类归结为一个有约束的非线性规划问题,通过优化求解取得数据集模糊最优划分和聚类。“由于它设计简单、解决问题范围大,还可转化成优化问题来借助非线性规划知识求解,并易应用于计算机中。因此,随着计算机应用和发展,基于目标函数的模糊聚类算法成聚类研究的主流[1]”。
(3) 基于神经网络的模糊聚类算法
它是兴起较晚一种方法,主要用竞争学习法指导网络聚类过程,可解决传统模糊聚类算法在大数据量时的耗时问题。它现已为聚类研究的重要组成部分[19,20]。
文献[21,22]把“改进的模糊聚类算法和径向基函数(RBF)神经网络相结合来建模,得到一种映射能力较强的自组织神经网络。文献[23]将模糊聚类与多层前馈神经网络相结合建立了综合神经网络模型。文献[24]用模糊控制策略将模糊算法与经典Kohonen算法有机地结合起来,使网络性能到很大改善。”文献[25]将模糊推理规则转化成模糊RBF网络模型。
2.2 模糊C―均值(FCM)聚类算法
基于目标函数的模糊聚类算法中应用最广泛的是模糊C―均值(FCM,Fuzzy C-Means)算法。由于模糊C―均值聚类算法易于理解、实用性强等优点,使这种聚类方法是研究的重要方面之一。该算法是硬C―均值算法的推广,将隶属度函数由{0,1}扩展到区间[0,1],即实现硬C划分向模糊C划分的转变。
2.2.1 模糊C―均值(FCM)聚类算法简介
模糊C―均值(Fuzzy C-means,简称FCM)聚类方法,属于基于目标函数的模糊聚类算法范畴。模糊C―均值聚类是基于目标函数的模糊聚类理论中最为完善、应用最为广泛的一种算法。模糊C―均值算法最早从硬聚类目标函数优化中导出的。随着模糊划分概念的提出,Dunn首先将其推广到加权WGSS函数,后来由Bezdek[26]扩展到加权WGSS的无限族,形成了FCM聚类算法的通用聚类准则。从此这类模糊聚类蓬勃发展起来,目前已经形成庞大的体系。
2.2.2 模糊 C―均值聚类的具体算法
下面阐述FCM算法实现原理及过程[27,28]:
设M文数据空间中有限样本数据集X={ , ,…, },n为数据集中元素个数, (j=1,2, …,n)为样本点。若FCM将样本数据聚类成c个类(2 c n),聚类中心E={ , ,…, }。模糊分类矩阵为U,矩阵元素 是样本 对聚类中心 的隶属函数。FCM算法的目标函数表述如下: 知识发现中的模糊聚类方法研究+FCM算法(5):http://www.youerw.com/zidonghua/lunwen_1832.html