本文首先介绍主成分分析的基础知识;其次给出主成分分析法的计算步骤;然后给出数学软件MATLAB的功用,最后重点举例主成分分析在实际应用中可以起到的作用并做出总结.
1 基础知识
1.1 基本概念和定义
1.1.1主成分分析的基本概念
主成分分析用来研究如何将多个原始变量通过的少数线性组合以选出较少个数重要变量来解释原始变量的绝大部分信息的一种多元统计分析方法.当第一个线性组合不足以提取更多的原始变量的信息的时候,我们再来考虑第二个线性组合来继续这个快速提取的过程,一直到所提取的信息与原始变量相差不多的时候为止,值就是主成分分析的基本思想.
1.1.2主成分分析的定义
定义:记 为原变量指标, 为新的变量指标
(1.1.1)
系数 的确定原则:
① 与 互不相关;
② 是 的所以线性组合中方差最大的, 是与 不相关的 的所有线性组合中方差最大的; ; 是与 都不相关的 的所有线性组合中方差最大的;
则新的变量指标 分别称为原变量指标 的第1,第2,…,第m主成分.
从上述的分析可以得出,主成分分析的实质就是确定原来变量 在各主成分 上的荷载 .从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量.
1.2 主成分分析基本原理
主成分分析的基本原理就是设法把原始变量通过一定的线性组合的方式重新组合成一组新的互不相关的几个综合变量,再根据现实需要从中选取出几个较少的综合变量来尽可能地反映原始变量的信息的一种多元统计分析的方法我们称为主成分分析或者是主分量分析,也就是数学上处理数据降文的一种方法.
1.3 主成分分析特点
主成分分析通过丢失尽可能少的信息为理论前提,吧众多的原始变量通过线性组合的方式综合成比较少的几个综合指标,通常综合指标(既主成分)具有以下几个特点:
(1)主成分要远远少于原有变量的个数
原始变量综合成新的指标时个数有所减少,新的指标将可以代替原始变量来参与数据的建模,可以大大地减少分析过程中的运算量.
(2)主成分能够反映出绝大部分的原有变量的信息
新的指标不单单是原始变量的简单取舍,而是原始变量重新组合后的结果,所以不会造成原始变量的信息大量丢失,并且可以代表原始变量的绝大部分信息.
(3)主成分之间应该是相互无关的
通过主成分分析得出的新的综合指标(既主成分)之间应该是相互无关的,新的指标在参与数据建模的同时有效地解决了变量信息间的重叠、多重共线性等诸多问题,给分析减轻了许多负担.
(4)主成分具有一定的命名解释性
主成分分析法是在研究怎样在丢是最少原始变量的信息的同时,将众多的原始变量减少成少数的几个新的指标,如何让这些新的指标拥有一定的命名解释性的一种多元统计分析的方法.
1.4主成分的性质
记 ,则主成分向量 与原始向量 有如下关系:
(1.4.1)
其中, 为协方差的特征值所对应的特征向量的转置. MATLAB主成分分析在实际中的应用(2):http://www.youerw.com/shuxue/lunwen_37094.html