采用PCA的K-means聚类(2)

连通性分析 16

3 核心算法 17

3.1 K-means 聚类算法 17

3.2 奇异值分解 18

3.2.1 传统 QR 迭代算法 18

3.2.2 基于双边 Jacobi 旋转的 SVD 算法 22

3.2.3 基于单边 Jacobi 旋转的 SVD 算法 24

4 实验分析 24

4.1 实验数据的获取与提取 25

4.1.1 数据的获取与分组 25

4.1.2 文本向量的提取 27

4.2 实验过程 28

4.3 实验结果与分析 28

4.4 算法对比分析 33

4.4.1 K-means 算法 33

4.4.2 主成分分析 33

4.4.3 今后的工作 34

结论 35

致谢 36

参考文献 37

1 绪论

在近几十年的计算机的发展历程中，人类利用计算机信息技术来收集数据的能力正在以飞快的速度增长着，许许多多的数据库系统用于各行各业中，包括学校、工地、商品管理、科研开发等等，人们被铺天盖地的信息资源所淹没，同时，伴随着“大数据”时代的到来，这就非常迫切地需要人们对海量的数据进行统筹管理，传统的数据库方法可以对数据进行统计、查询和管理，但是难以发现数据之间的内在联系，因此提出了数据挖掘作为解决这个问题的重要方法，而聚类分析则是数据挖掘中一项主要的技术。

1.1 聚类分析

1.1.1 聚类分析简介

聚类分析是一种将一个集合内的对象聚集为多个不同聚类，使得同一组中的对象相比于其它群体有着更为密切或相似的关系[16]。聚类分析是搜索性数据挖掘的一个主要工作，是一个对数据进行统计分析的常用的技术，在许多领域上使用，包括机器学习、模式识别、图像分析、信息检索、生物信息学等。

聚类分析本身不是一个具体的算法，而是一个一般要解决的任务。它可以通过各种算法和显著不同的构成集群的概念，从而有效的找到这些集群。集群主要的概念包括了集群成员之间的较小的距离组、数据空间的密集区、间隔或特定的统计分布。聚类分析可以归结为一个多目标的优化问题，合适的聚类算法和参数设置取决于个人的数据集合结果的预期。聚类分析不是一个自动的任务，而是一个在知识发现和交互式多目标优化涉及的尝试和失败的迭代过程。它往往是必要的修改数据的预处理和必要的模型参数，直到达到所需的性能。采用PCA的K-means聚类(2):http://www.youerw.com/jisuanji/lunwen_77002.html