2。2。2 基于划分的方法 7
2。2。3 基于密度的方法 7
2。2。4 基于网格的方法 7
2。2。5 基于模型的方法 8
第三章 系统聚类及R语言实现应用 9
3。1 系统聚类的概念及步骤 9
3。2 系统聚类方法 9
3。2。1 最短距离法 10
3。2。2 最长距离法 10
3。2。3 中间距离法 11
3。2。4 重心法 12
3。2。5 类平均法 13
3。2。6 可变类平均法 14
3。2。7 离差平法和法 14
3。3 R语言简介 15
3。4 系统聚类的R软件计算 15
第四章 实证分析 17
4。1 研究背景 17
4。2 数据整理和分析 18
4。3 南京地铁3号线沿线不同位置楼盘房价的聚类分析 19
4。4 结论与意义 25
第五章 总结与展望 26
5。1 总结 26
5。2 展望 26
参 考 文 献 29
第一章绪论
1。1 聚类分析的背景
聚类分析,也称作为群分析,是用来研究分类问题的一种多元统计方法,属于一种无监督模式识别。聚类分析以“物以类聚”的道理,对样本或者指标进行分类的一种多元统计方法,是把研究对象(变量或样本)分组成为多个类的一种统计方法。它是在没有先验知识的情况下,对变量或者样本按照各自的特性来进行合理的分类。聚类分析的研究目的在于将相似的事物合并成为一个类别,以相似度的程度为一个标准来判别样本是否属于同一个类别。论文网
随着信息技术以及科学社会不断发展与完善,数据库的应用也随之得到了广泛的传播,并且积累的数据量也在不断地增大,而这些数据中往往隐藏着很多不为人知晓但是又有着潜在用处的信息,无数学者和专家对此密切关注着,他们迫切希望可以把这些数据进行更高层次的分析,让这些数据可以更好地被人们利用。尽管当前数据库系统有着高效便捷的能力,可以快速和准确的完成数据的插入、查询和统计,但是对数据之间的内在关系以及隐藏的潜在信息很难准确掌握,因此无法从庞大数据信息中提取我们需要的有用信息来对将来的发展趋势进行准确快速地预测与推断。正是在这艰巨的难题面前,数据的聚类分析也就应运而生了。
聚类源于很多范畴,包含了学习机器,发现数据,辨别语音,分割图像,处理生物信息,处理医疗信息,对于计算机视觉进行剖析,以及社会科学等其他领域。在存有差异性的应用领域,很多聚类方法都得到了比较全面的发展,我们可以描述数据,考察不一样的数据源之间的相似性,同时数据源可以被分类到不一样的簇中。在生物方面,对于动植物分类和基因分类运用聚类分析,获得对于种群固有结构的认识;在商业方面,我们通过聚类分析来发现相异的客户群,并且通过购买模式来描绘相异的客户群的特征;在互联网应用方面,我们运用聚类分析来通过文档的分类进行信息的修复。所以,对聚类分析的研究不光有着重大的理论价值还有着很大的应用远景。