其中:                 

极端值差:  平均值:     

标准差:     有了第 个指标的极端值 、平均值 和标准差 ,就可以将每一个指标数据标准化,标准化公式如下:

     此外,为克服量纲带来的影响,统计学家兰斯和威廉姆斯还提出了兰氏距离。

兰氏距离为: 

 

    出了兰氏距离外,上世纪四十年代印度统计学家马哈拉洛比斯还提出了一种新的距离定义和算法。后人为纪念这位伟大的统计学家,一般讲这种距离成为马氏距离。

计算公式:

 

其中 表示矩阵行向量的转置, 是被处理数据的协方差矩阵。马氏距离很好地解决了两个问题。第一跟兰氏距离一样,马氏距离可以很好的排除量纲对系统聚类的影响;第二除了能很好的排除量纲对系统聚类的影响外,马氏距离还可以减少由于指标间的相关性而带来的影响。源'自-优尔;文,论`文'网]www.youerw.com

2.1.3系统聚类法的流程

    第二章的2.1.2节中用通俗易懂的话讲述了系统聚类法的原理。第二章的2.1.2节详细介绍了系统聚类分析方法中运用的到距离的概念以及期间距离的算法和公式,第二节完成了系统聚类法中样本数据的预处理。在本节中,我们主要讲一下系统聚类法的流程。

系统聚类方法的流程主要分为六个步骤,在完成样本数据的预处理后。我们选择一种适合于研究问题的距离,现实操作中最常用马氏距离。选定距离后,我们借助SPSS等一些统计软件计算所研究样品两两间的距离。假设有个样本,最初我们就构建各类,将距离最小的两个样本放在一起,这样就有个类。在计算心累与当前各类的距离,将距离最小的两个类放在一起,以此类推,直至将所有的样本归为一个类。当把所有的数据最后归为一类的时候,就会产生一个聚类图,根据研究问题的实际和背景决定分类的类与个数。为简化通俗易懂,

上一篇:基于三项式定理的推广与探究
下一篇:数形结合法在高等数学中的应用

浙江省工业企业发展的因子分析

杭州中考历年圆题型分析

杭州历年中考三角形的题型分析

数据分析在大数据时代的应用

上海市主要年份能源消耗基本情况分析

基于t分布对还黄金期货的投资风险分析

多元统计分析在企业经济效益评价中的应用

10万元能开儿童乐园吗,我...

神经外科重症监护病房患...

国内外图像分割技术研究现状

AT89C52单片机的超声波测距...

承德市事业单位档案管理...

医院财务风险因素分析及管理措施【2367字】

公寓空调设计任务书

志愿者活动的调查问卷表

C#学校科研管理系统的设计

中国学术生态细节考察《...