2.1.3聚类分析的相似度度量 7
2.2系统聚类及算法 8
2.2.1系统聚类的基本思想 8
2.2.2系统聚类的算法 9
2.2.3系统聚类的R软件实现 9
2.2.4系统聚类的优缺点 10
2.3K-means聚类及算法 10
2.3.1K-means聚类的基本思想 10
2.3.2K-means算法步骤 11
2.3.3K-means聚类的R软件实现 11
2.3.4K-means聚类的优缺点 12
2.4模糊聚类及算法 12
2.5有序样品聚类及算法 13
第三章 混合型数据聚类的方法 15
3.1混合型数据 15
3.2混合型数据的距离 15
3.3混合型数据的聚类分析及R软件实现 16
3.3.1 K-medoids算法步骤 16
3.3.2 PAM算法和CLARA算法 17
3.3.3PAM聚类和CLARA聚类的R软件实现 18
3.4混合型数据K-medoids聚类的评价 20
第四章 混合型数据聚类的实证分析 22
4.1数据的选取及探索性分析 22
4.1.1数据集的选取 22
4.1.2数据集的清洗 23
4.1.3数据的探索性分析 24
4.2混合型数据距离的计算 27
4.3PAM和CLARA聚类分析 29
4.3.1PAM聚类 29
4.3.2CLARA聚类 32
4.3.3PAM聚类与CLARA聚类的结果比较 33
4.4实证分析结论 35
4.4.1探索性数据分析的结论 35
4.4.2聚类分析的结论 35
第五章 总结与展望 36
致谢 37
参考文献 38
附录 40
第一章绪论
1.1研究背景及意义
1.1.1研究背景
聚类分析是以这样一种方式对一组对象进行分组的任务:相同组(聚类)中的对象彼此在某种或另一种意义上比其他组(聚类)中的对象更相似,即相似的对象分在同一组,不相似的对象分在不同的组[1],[2],[3]。利用聚类分析,我们可以很清楚地知道数据集中样本的分布情况。然而,实际的情况是,我们遇到的数据对象经常是混合型数据集,包括连续型变量、名义型变量和顺序型变量等。这时,就需要我们对该混合数据集进行聚类,好将这些数据按组分开来,便于提取有用的信息。另一方面,如今是大数据时代,R是免费的开源软件,利用R软件可以实现混合型数据的聚类。因此,本文主要研究混合型数据的聚类分析及R软件实现。