采用PCA的K-means聚类(4)
时间:2021-06-16 20:54 来源:毕业论文 作者:毕业论文 点击:次
1.1.5 基于密度的聚类模型 在基于密度的聚类模型中,集群被定义为相比其余的数据集的高密度区域, 在这些稀疏的区域,对象所需要的单独的集群通常被认为是噪声和边界点[4]。 最流行的基于密度的聚类模型算法是 DBSCAN。与许多较新的方法,具有一个 良好定义的集群模型称为“密度可达性”。类似与基于连通性的聚类算法,它是 基于连接在一定距离的阈值点。然而,它只是连接满足密度标准的点,满足密度 标准的点在原始变量定义为在此半径内的其他对象的最小数目。一个集群包含所 有密度连接对象加上在这些连接对象范围内的所有的对象。DBSCAN 的另一个有 趣的特性是,它的复杂性是相当低的,它需要一个线性数量范围内的数据库查询, 它在每次运行中会发现本质上相同的结果,因此不需要运行多次。 1.2 主成分分析 1.2.1 主成分分析概述 在多元统计分析中,主成分分析(英语:Principal components analysis, PCA)是一种分析、简化数据集的技术[28]。主成分分析经常用于减少数据集的 维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分, 忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是, 这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据 的准确性对分析结果影响很大。 主成分分析由卡尔·皮尔逊于 1901 年发明,用于分析数据及建立数理模型。 其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征向 量)与它们的权值(即特征值)。主成分分析是最简单的以特征量分析多元统计 分布的方法[17]。其结果可以理解为对原数据中的方差做出解释:哪一个方向上 的数据值对方差的影响最大?换而言之,主成分分析提供了一种降低数据维度的 有效办法;如果分析者在原数据中除掉最小的特征值所对应的成分,那么所得的 低维度数据必定是最优化的,即这样降低维度必定是失去信息最少的方法。主成 分分析在分析复杂数据时尤为有用,比如人脸识别。 主成分分析是最简单的以特征量分析多元统计分布的方法。通常情况下,这 种运算可以被看作是揭露数据的内部结构,从而更好的解释数据的变量的方法。 如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来,那么主成分 分析就能够提供一幅比较低维度的图像,这幅图像即为在信息最多的点上原对象 的一个“投影”。这样就可以利用少量的主成分使得数据的维度降低了。 主成分分析跟因子分析密切相关,并且已经有很多混合这两种分析的统计包。 而真实要素分析则是假定底层结构,求得微小差异矩阵的特征向量。 1.2.2 奇异值分解 奇异值分解(singular value decomposition)是线性代数中一种重要的矩 阵分解,在信号处理、统计学等领域有重要应用[9]。奇异值分解在某些方面与 对称矩阵或自共轭矩阵基于特征向量的对角化类似。然而这两种矩阵分解尽管有 其相关性,但还是有明显的不同。对称阵特征向量分解的基础是谱分析,而奇异 值分解则是谱分析理论在任意矩阵上的推广。 假设�是一个� × �阶矩阵,其中的元素全部属于域�,也就是 实数域或复 数域。如此则存在一个分解使得: � = � (责任编辑:qin) |