5. 基于模型的方法(model-based methods)
基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案。
当然聚类方法还有:传递闭包法,布尔矩阵法,直接聚类法,相关性分析聚类,基于统计的聚类方法等。
2.3 聚类算法的比较[15]
2.4 层次聚类
2.4.1 分类
层次聚类方法对给定的数据集合进行层次的聚集或分裂[16]。
a. 凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足,绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。
b. 分裂的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,它首先将所有对象置于同一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终止条件。
2.4.2 基本步骤
层次聚类方法解决了很多其他传统方法的一些局限和缺点。它解决了K-Means等算法的一个主要问题:需要预先确定聚类数目。
a. 将每个对象归为一类, 共得到N类, 每类仅包含一个对象. 类与类之间的距离就是它们所包含的对象之间的距离.
b. 找到最接近的两个类并合并成一类, 于是总的类数少了一个.
c. 重新计算新的类与所有旧类之间的距离.
d. 重复第b步和第c步, 直到最后合并成一个类为止(此类包含了N个对象).
根据步骤3的不同, 可将层次式聚类方法分为几类: single-linkage, complete-linkage 以及average-linkage 聚类方法等.
1. single-linkage 聚类法(也称connectedness 或minimum 方法):类间距离等于两类对象之间的最小距离,若用相似度衡量,则是各类中的任一对象与另一类中任一对象的最大相似度。
2. complete-linkage聚类法(也称diameter 或maximum 方法):组间距离等于两组对象之间的最大距离。
3. average-linkage 聚类法:组间距离等于两组对象之间的平均距离。2.4.3 fMRI信号层次聚类算法演示:
假设我们有一组信号,包含9个fMRI信号,我们尝试着对它们进行层次聚类。
a. 首先我们得到9条信号,用如下的圆fi,(i:1~9)表示。
图2-1. 9条fMRI信号图示
b. 其次,我们利用下文中总结出的相似度度量方法(具体见2.4节)得到一个相似度9*9的矩阵,见下图2-2。很容易可以看出,这是一个对称阵, 与 都是表示信号 之间的相似度,所以它们的值必然是相同的。
同时,矩阵对角线上的值 为1,表示信号与自身的相似度最大,为 fMRI中的时序信号比对分析+文献综述(4):http://www.youerw.com/jisuanji/lunwen_7269.html