2。主成分分析的介绍
2。1主成分分析的基本思想
主成分分析也叫做主分量分析,是由Hotelling于1933年首先提出的。由于多元统计分析是用来解决多变量问题的,一般这些问题变量较多,维数较大,因此就增加了统计分析的复杂性。在实际问题中,几个变量之间或许会存在一定的相关性,所以我们讨论的全部变量中可能会存在信息的重复。为了消弭这些信息的重复,我们用数量较少,但是保留了原始变量大部分信息的几个不相关的综合变量来代替原来较多的变量,对原来复杂的数据关系进行简明扼要的统计分析。主成分分析的本质就是“降维”,将高维数据有效的转化为低维数据来处理,揭示变量之间的内在联系,并进行分析解决问题。
2。2主成分的含义论文网
在多元统计分析中,总体 通常是一个 维随机变量 ,为了解释主成分,我们以二维( )正态分布样本点来直观说明。假设总共有 个样品,每个样品都测量了两个变量值 ,它们大致分布在平面上的一个椭圆内。在这个样本中,样品点之间的差异是由 和 的变化引起的,两者的变动相差不大,但如果把原坐标 和 用新坐标 和 来代替,则发现这些样本点的差异主要体现在 轴上, 个点在 轴方向上的方差达到最大,即在此方向上包含有关 个样品的最多信息。因此,若想要将二维空间的点投影到某个一维方向上,则选择 轴能使信息的损失最小,如果 轴方向体现的差异占了全部样本点差异的绝大部分,那么忽略 是合理的,这样就把两个变量简化为一个,显然这里的 轴代表了数据变化最大的方向,称为第一主成分, 称为第二主成分,并要求已经包含在 中的信息不出现在 中,即有 。注意两个主成分 和 都是 和 的线性组合。事实上,如果将原坐标系按逆时针方向旋转某个角度 ,就可由 和 得到 和 ,其矩阵表示形式为:
式中, 为旋转变换矩阵,它是正交矩阵,即有 或 。第一主成分的表达效果与椭圆的扁平程度有很大的关系,如果椭圆很扁平的话, 个点在 轴上的方差就相对很大,在 轴上的方差就相对很小,用第一主成分替代所有样品所造成的信息损失就变的很少。
我们用两种极端的情形来帮助我们理解主成分分析:第一种是椭圆的短轴与长轴长度相同,那么椭圆就变成了圆,第一主成分 只体现了二维样品点差不多一半的信息,此时如果忽略 ,那么我们将损失几乎50%的信息,这显然是不可行的。这个原因是原始变量 和 的相关程度几乎为零,它们所包含的信息几乎不重叠,无法用一个一维变量 来综合 和 的大部分信息。第二种极端情况是椭圆扁平到了极点,即椭圆的短轴长度为0,那么椭圆就变成了 轴上的一条线段,第一主成分 差不多包含二维样品点的全部信息,只用变量 代替原来的数据基本没有任何的信息损失,在这个时候主成分分析的降维效果就变的非常理想了,其原因是第二主成分 基本不包含任何信息,舍弃它也就没有信息上的损失。文献综述
对 维情形也可以仿照二维情形讨论。一般,设总体 的期望为 ,协方差矩阵为 , 的 个主成分记为 ,二者的关系为:
式中, 的方差为:
因为 分别为 的第一主成分,第二主成分……第 主成分,因此它们肯定是互不相关的,而且 是 的一切线性组合中方差最大的, 是与 不相关的一切 的线性组合中方差最大的……而 是与 均不相关的一切 的一切线性组合中方差最大的。
2。3。主成分的计算
设总体 的协方差矩阵为 为 的 个特征值, 为对应的单位正交特征向量,则 的第 个主成分为: