假设已知个观测值分别为,,,…,,可以看出每个观测值都是一个维的向量。聚类分析的中心思想就是将得到的观测值看成是维空间上的一个点,并且在维的空间中引入“距离”的概念,这样就可以按照点与点之间的距离远近将各个点,也就是上面所说的样本的观测值,进行归类。如果要将这个变量分类,通常会使用一个“相似系数”来计算其中的变量,其目的是用来衡量变量与变量之间的亲密程度,根据各个变量之间相似系数的大小将这些变量进行分类。根据变量的类型和实际问题的需要,用不同的方法来定义距离和相似系数。
根据距离或相似系数分类[12],有以下的几种方法:
①凝聚法:这种方法是将每个观测值看成是一类的,接下来按照逐步归的方法,使得全部观测值聚为一类,最后将上述的并类观测值过程画成聚类谱系图,具体的分类可以通过这个聚类谱系图来得到。
②分解法:首先将所有的变量观测值放进一个类中,然后将一个类的观测值逐步分解成2类、3类到N类,这种方法可以看作是凝聚法的逆过程。
③动态聚类法:首先将所有数据的观测值进行粗糙地分类,再按照适当的目标函数和规定的程序逐步进行调整,调整到不能再调整为止。
1。3。2 因子分析
夏洛克·福尔摩斯神探在“身份确认”的一个案件中提到,有一定的选择和自由裁量权一定能够产生出逼真的效果[13]。在对一个多元随机变量降维的过程中,由于很多问题从一开始就有很多个因素,想要解决这样的问题,就要利用因子分析。因子分析可以将每个因素都理解为原始变量所揭示的潜在特征。从统计学的角度来看,因子分析的基本目的是尽可能地描述随机变量之间的关系,其中随机变量是不可观测的,因子分析也可称为因素的多变量之间的协方差关系。其最终目标是要找到解释的数据变化的根本原因。为了实现这一目标,我们需要检查因素与原始变量之间的关系,并且在数据生成的框架中给出一个合理的解释。
因子分析的起点是在20世纪初,在Charles Spearman发表的一篇著名论文---《对智力测验得分进行统计分析》[14]中,得以将因子分析这一概念展现在人们的眼前。因子分析的使用初期,主要运用于心理学和教育学方面的研究和解决一些相关问题,经过相当长一段时间的发展,因子分析的应用已经十分广泛,其成就遍布经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域。因子分析是从主成分分析中推广、发展而来的,其主要内容是将具有错综复杂关系的变量或样本综合成数量较少的主要的几个因子,主要是为了使原始变量和因子之间的关系更为清晰,同时可以根据因子的不同,对变量进行适当的分类,因子分析也属于多元统计分析中处理变量降维的一种统计学方法。文献综述
1。4 本文主要内容
多元统计分析方法有很多,比如说聚类分析、判别分析、主成分分析、因子分析、对应分析、相关分析、回归分析等。本文主要采用聚类分析和因子分析这两种方法,对我国经济发展的相关数据指标进行分析研究,将我国省市根据发展的状况进行合理的划分。
本文的第二章主要介绍模型的基本建立,简单介绍一下基本假设、符号说明、数据展现等,为下面进行数据的分析做好准备工作。接下来的一章介绍了聚类分析的内容,着重介绍K均值聚类分析的过程,并用SPSS软件实现分析的具体内容,并得出相应的结论。本文的第四章介绍了因子分析模型的建立、计算过程和SPSS软件实现分析的过程等,并进行简单的总结得出相应的结论。最后一章根据聚类分析和因子分析的分析结果,进行进一步的分析比较,得出总的结论,并对我国经济发展提出恰当的建议。 多元统计分析方法的应用(3):http://www.youerw.com/shuxue/lunwen_107334.html