文章所讲述的主成分回归(principal components regression, PCR)是对普通最小二乘估计的一种改进,它的参数估计是一种有偏估计.马西(W .F . Massy)于1965年根据多元统计分析中的主成分分析提出了主成分回归.主成分回归(principal component regression PCR )是根据主成分分析的思想提出的,可用于处理数据中的自变量的多重共线性问题.这个问题在医学资料的数据分析中经常出现.对于稳健性分析,我们不仅要知道主成分的估计量,并且需要用估计量去推出稳健性统计量,这样的话就基本完成了主成分回归的稳健性.而对于它在医学上的应用,我们还需要且用文章中介绍的主成分回归和主成分分析的方法通过统计软件来解决医学数据中经常出现的多重共线性和异常点的存在.
1.回归模型
1.1 回归模型的一般形式
如果变量 和随机变量 之间存在着相应关系,且当 取定值后, 便对应于相应的概率分布.相关变量 和随机变量 的概率模型则为
(1.1)
其中,被解释变量(因变量)是随机变量y;而解释变量(自变量)则是 . 是一般变量 的确定性关系; 则是随机误差.由于随机误差项 的引入,才使变量间的关系表达成一个随机方程,让我们能够通过随机数学的方法来研究y与 之间的关系.因为客观经济现象是很繁复的,用很少的因素很难精准叙述一种经济现象,然而随机误差项能够考虑到可能因为人们的一些失误或认识不全面而忽略的一些偶然因素.其有以下几条因素的干扰:
(1)其中含有我们所知道的的局限或时间、费用以及数据质量等的限制为代入回归模型同时也对回归被解释变量y有一些干扰的因素.
(2)样本数据的采集过程中变量观测值的观测误差.
(3)理论模型设定的误差.
(4)其他随机因素.
模型(1.1)式明确地表达了(变量) 与(随机变量)y之间的相关关系,它分成两部分:第一是确定性的函数关系,是通过回归函数 给出的;第二则是随机误差项 .所以可知道模型(1.1)式精确的体现了了相关关系的特点是既有联系但是又不确定.
当(1.1)式的回归函数属于线性函数的时后,则有
(1.2)
其中 是未知的参数,我们常把它命名为回归系数.而线性回归模型的线性是对于未知参数 来说的.回归解释变量的线性并不是本质的,由于解释变量不是线性时,能够通过变量之间的替换而把它们转化成为线性的.
若 是(1.2)式中变量 的一组观测值,那么线性回归模型能够表达成为
(1.3)
1.2 回归模型的基本假设
由于模型参数估计的需要,古典线性回归模型应该符合下面的几个基本假设:
(1) 解释变量 是非随机变量,观测值 是常数.
(2) 等方差和其不相关的假定条件是
其条件命名为高斯-马尔柯夫条件,简称‘G-M’条件.在这个条件下,我们能得到有关回归系数的最小二乘估计和它的误差项方差 估计的一些重要的性质,例如最小二乘估计的回归系数相当于最小方差线性无偏估计的回归系数等.
(3)这是正态分布的一个假定条件
~ 且 相互独立
在这个条件下我们可以获得回归系数的最小二乘估计和 估计的更进一步的结果,而它们是 的最小方差无偏估计和回归系数等,而且能够进行区间估计和回归的显著性检验. 主成分回归的稳健性及在医学上的应用(2):http://www.youerw.com/yixue/lunwen_38675.html