(2)修改聚类中心。
优点:本算法尽量使确定的k个划分到达平方和误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,在m文变量的对象上,算法的复杂度为O(hnkm),其中n是数据对象的数目,h是迭代的次数,m是特征矩阵的文数。一般来说,k<<n和h<<n。
缺点:该算法本身是迭代的,且不能确保它收敛于最优解,它常常达到局部最优而得不到全局最优解。K-means算法的性能依赖于聚类中心的位置。算法在进行聚类以前要求知道K值,这对于没有经验的用户来说很困难。通过实验我们知道,初始聚类中心的选择对于最后的聚类结果有很大的影响。该算法也只能运用于聚类的均值能定义的情况,这可能不适用于某些应用,如涉及到分类属性的数据的时候。本算法也不适用于进行非凸形状的聚类和大小相差很大的聚类。而且,算法对噪声、边缘点、孤立点很敏感。
2.2.3 K-means算法用于文本聚类本文来自优-文~论^文.网原文请找腾讯324,9114
为了用K-means算法解决文本聚类的问题,我们要用余弦相似度来痕量文本之间的相似性。其中要用到以下定义[5]:
定义1 余弦相似度:余弦相似度的公式为 ,其中x1,x2为两个文本的向量,内积x1.x2为标准向量点积, 。
定义2 质心向量:对于簇 ,令 ,则簇 的质心向量定义为:
定义3 簇的距离和:若簇 非空,则簇的质量,即每个簇中各点与质心向量的距离和:
否则, 定义4: 目标函数值:对于划分 ,目标函数值 是这K个簇的距离的和,即:
在本设计中,用目标函数作为聚类循环的停止条件,每做一次循环执行一次目标函数,当第k+1次计算得出的f(pk)小于前一次计算得出的f(pk)时,算法继续执行,当第k+1次计算得出的f(pk)等于前一次计算得出的f(pk)时停止!即:最后得出的距离和与前一次得出的距离和相等的时候,算法跳出循环停止。
2.2.4 K-means算法面临的主要问题
论文网http://www.youerw.com/
(l)在K-Means算法中k是事先给定的,这个k值的选定是非常难以估计的。很多时候,我们事先并不知道给定的数据集应该分成多少个类别才最合适。这也是K-Means算法的一个不足。
(2)K-Means聚类算法首先都要选取k个点作为初始聚类中心点,然后再在此基础上进行迭代。初始聚类中心直接影响着聚类结果,随机选取不同的初始聚类中心点,产生的聚类结果往往都不相同。因此初值的选择对聚类结果而言是非常重要的,这个算法的聚类结果对初值的依赖是很强的。这样的依赖性导致聚类结果的不稳定。一旦初始值选择的不好,可能无法得到有效的聚类结果,这也成为K-Means算法的一个主要问题。
本论文选取了K-Means算法中的第二个问题进行分析,改进K-Means算法在文本聚类中的应用。
3 基于密度的K-means算法改进
传统的K-Means算法存在不少问题,为了得到更好的聚类结果,也为了得到更高效的聚类过程,所以对算法进行改进。改进的算法就希望在选取初始的聚类中心的时候就尽可能做到这一点,而不是随机的选取k个对象来作为初始的聚类中心。而且聚类受噪声和孤立点等影响很大,改进的算法将改进这个方面。
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页
基于K-means的文本聚类算法研究 第8页下载如图片无法显示或论文不完整,请联系qq752018766