(2) FCM 类型的算法中,聚类类别数 C 要求事先给定。一方面它需要有关数据集的先验知识,从而影响了聚类算法的无监督性能,另一方面存在聚类结果的有效性判别问题,包括分类的正确性和聚类数目的合理性。由于 FCM 算法要求聚类类别数 C 的先验知识,而对于大多数开发性数据而言,关于数据的空间分布及结构的先验知识是很少有的,或者一点也没有,有时候往往希望聚类分析能揭示这些信息,因此这一要求限制了 FCM 类型算法的实际应用。
3.5 基于FCM聚类的算法改进
目前针对影响分类效果的一些因素,我们可以从如下几个方面对 FCM 聚类算法的聚类效果进行改进:类别个数C的调整,初始聚类中心的选择,类核代替类心,修改距离测度函数,调节隶属度函数等等。
3.5.1 类别个数C的调整
传统 FCM 算法是在聚类数 C 给定的情况下进行的,具有很大的随意性,直接影响到聚类效果。在类别数未知的情况下运用C-均值方法时,为使C最接近真值,可让类数 C 从较小值逐步增加,在这个过程中,对于每个选定的C分别使用该算法。例如让 C=2,3,4,…,分别计算 J 值,然后再确定最优的类别数。
显然,准则函数 J 是随 C 的增加而单调减少。当数据表现为C个很集中的聚类时,J 随着从一个聚类到C个聚类而迅速减小。当 C 再继续增加时,会出现使本来较密集的一些模式点再被分划开的情况,此时 J 虽减小,但减小速度将变缓,直到 C=N 时,J=0。如果作一条 J—C 曲线,如下图,其曲率变化的最大点对应的类数是比较接近从模式几何分布上看最优的类数。 基于改进FCM聚类的复杂网络节点重要性评估方法(7):http://www.youerw.com/jisuanji/lunwen_7564.html