(1) 初始化k=0,对于X中的每个点 ,根据(9)式计算密度值
(9)
选择具有最高密度的数据点 作为第一个聚类中心,其对应的密度值为 ,令k=1。选取密度指标最高数据点 为第k次选择的聚类中心。
(2) 假定 为第k次选出的聚类中心,相应密度指标为 ,对于每个
数据点密度按(10)式
(10)
进行修正,选出密度最高数据点 为新聚类中心,其对应密度值 ,令k=k+1。
(3) 判断式
(11)
是不是成立。如不成立,则跳到步骤(2),如成立,则退出。结束后,得到的k为聚类中心数, 是聚类中心。
其中参数 , ,以及 都需预先给定。参数 , 定义了以 为中心的一个领域,半径以外点对该点密度指标影响很小, , 半径越小,则产生类数就越多,越大则产生类数就越少。参数 <1决定了最终的初始化聚类中心数。 越小,则产生聚类数多, 越大,则产生据类数越少。
对于参数 , ,取
(12)
减法聚类法[31]是种“基于密度算法,与其它根本不同是它不是基于距离的,而是基于密度的。这样它就可以克服基于距离只能发现“类圆形”聚类缺点。这方法思想是,只要某个区域点密度大于某个阈值,就把它加入与之相邻的聚类中。”
3.3 初始聚类数目上限的确定
减法聚类确定初始化中心,聚类数目被比例参数 控制,当最新获得聚类中心密度 和最早获得聚类中心密度 比值小于 时,即式(11)成立时,不再有新聚类中心出现,易知 越小,产生聚类数就多。实验发现 0.5会得到比较合理的聚类数目,而在 0.5这一范围,又以 =0.5时取得聚类数目t最多[31],则我们可以将t作为合理聚类数上限 。则将初始聚类数限制在[2,t]中。
聚类有效性函数[32]:
(13)
当该函数值最小时,所获得的聚类数最合理。
根据此性质,设计自动获得聚类类别数过程,只需最多重复 -1次聚类,在其中选取使聚类有效性函数值最小聚类类别数即可。
因此,结合以上的分析,则可得到最佳聚类数目C。
3.4 聚类中心的选择
减法聚类确定初始化中心有其自身特点[30,31]。“减法聚类中心出现顺序由密度决定,密度越大则出现越早,也就更可能是合理的FCM初始聚类中心。”因此对聚类数为C的检测中,只需以减法聚类产生前C个聚类中心作为新初始中心,不需再进行初始化,且聚类上限数目已有先前确定了,从而减少聚类的耗时。其步骤如下:
(1) 对样本点集U中每个点 ,算出其密度值 ,选取密度值最高数据点 作为第一个聚类中心;
(2) 第k次得到的聚类中心 ,相应密度值为 ,对每个数据点密度值按给定公式再算出密度值,选出密度值最高数据点 作为新聚类中心;
(3) 判断聚类数目是否大于C,大于则停止;不大于,就判断 是否成立,若不成立则转到(2),若成立则退出。 知识发现中的模糊聚类方法研究+FCM算法(7):http://www.youerw.com/zidonghua/lunwen_1832.html