聚类分析也叫点群分析、群分析,是分析如何对样本(变量)进行量化分类的问题。聚 类分析根据样本的属性,按照某种相似性或者差异性指标,利用数学方法来定量地确定样本

(变量)之间的亲疏关系,并按照这种关系对其进行分类的多元统计方法。聚类分析的基本 思想:在样本(变量)间定义距离(相似系数),它们代表样本或者变量之间的相似程度,把 样本(变量)按照相似程度的大小来进行逐一归类,关系密切的样本(变量)先聚集到一个 小的分类之中,然后再逐步扩大,将关系较为疏远的聚集到一个较大的分类之中,直到所有 的样本(变量)都聚集完成,形成了一个聚类谱系图,依次按照要求进行分类。文献综述

聚类分析有非常丰富的内容,按照对象不同,可以分成 Q 型聚类分析与 R 型聚类分析, 前者是对样本进行分类,它根据样本的各种特征,把相似的样本归为一类;后者是对指标或 者变量分类,它根据被观测的变量之间相似性,把相似的变量分成一类。另外,聚类分析还 可按照其分类方法,分为系统聚类法、模糊聚类法、有序样品聚类法、图论聚类法、动态聚 类法等。使用较多的聚类方法是系统聚类法以及动态聚类法。系统聚类法又称作分层聚类法, 是聚类分析中应用最广泛的一种方法。它的思想是:刚开始把所有样本或者变量指标看作一 类,根据类与类之间的距离把相似的类加以合并,再计算新的类与其他类之间的相似程度, 再把相似的类加以合并,这样依次合并后,直到所有的样本合并成为一类。动态聚类法也称 作 K 均值聚类法。它的思想是:根据某种方法选取一批聚类中心,使样品向最近的聚心凝聚, 形成初始分类,然后按照最近距离原则修改不合理分类,直到合理为止。

第 4  页 本科毕业设计说明书

2。1。2 相似性度量

一、 样品间距离

假设有 n 个样品, p 个指标,则形成如下的一个矩阵

把这 n 个样品看成是 p 维空间的 n 个点,我们便可以用距离来衡量两个样品之间的接近 程度。我们用 dij 表示样品 i 和样品 j 之间的距离。

(1)闵氏距离来,自,优.尔:论;文*网www.youerw.com +QQ752018766-

其中当 q 等于 1 时,称作绝对距离。当 q 等于 2 时,称作欧几里得距离。当 q 为∞时,称为 切比雪夫距离。

(2)马氏距离

表示指标的协差阵,它又称作广义欧几里得原理,用这个距离公式考虑到了变量之间 的相关性以及变异性。

(3)兰氏距离

此距离公式可以避免量纲对指标之间的影响。 二、 变量相似性的度量

在多元数据中我们用向量的形式表现其中的变量,在几何中我们用多维空间的有向线段 表示。对多元数据分析时,我们更多的是分析变量变化的趋势。因此,我们用“夹角余弦法” 以及“相关系数法”来考察变量之间的相似性。

上一篇:上市公司所属行业对投资收益影响分析
下一篇:工程项目施工阶段的成本控制研究

预算會计和财务會计相结合的解读【3103字】

需求导向型财务會计教育...

长期股权投资會计核算中...

责任會计制度茬企业财务...

议加强工會财务會计规范化建设【2950字】

虚假财务會计报告识别及防范對策【2140字】

虚假财务會计报告识别与防范【1939字】

互联网教育”变革路径研究进展【7972字】

新課改下小學语文洧效阅...

LiMn1-xFexPO4正极材料合成及充放电性能研究

ASP.net+sqlserver企业设备管理系统设计与开发

我国风险投资的发展现状问题及对策分析

麦秸秆还田和沼液灌溉对...

张洁小说《无字》中的女性意识

老年2型糖尿病患者运动疗...

安康汉江网讯

网络语言“XX体”研究