系。很多时候,这些因素对现象的影响会呈现出线性关系,这时我们就要对收集到的
数据进行线性回归,拟合出符合实际的直线或者平面,找到现象与影响因素之间的关
系,以便用来解释现有的现象或预测未来的数据。在进行线性回归的过程中,每一个
影响因素都有一个回归系数,需要对它们进行参数估计。参数估计的方法很多,目前
用的最为广泛的一类估计就是最小二乘估计,它有着许多非常好的性质,是最佳线性
无偏估计(best linear unbiased estimator, BLUE),也称为最小方差线性无偏估计。但是,
在现在的许多应用中,当遇到大规模问题的线性回归问题时,最小二乘估计往往不尽
如人意。统计学家研究发现,这是由于多重共线性引起的,即当影响因素很多时,它
们之间的某些因素本身具有着相关性。消除多重共线性对回归模型的影响是近几十年
来统计学家关注的热点课题之一,除了剔除一些不重要的解释变量、增大样本量等方
法外,统计学家还致力于改进古典的最小二乘法,提出采用有偏估计为代价来提高估
计量稳定性的方法,如岭回归法、主成分法、偏最小二乘法等[2]。
1.1 多元线性回归
回归分析研究的主要对象是客观事物变量之间的关系,它是建立在对客观事物进
行大量实验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规
律性的统计方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、
结构状态、模型预测的一种有力的工具。
在整个回归分析中,线性回归的统计模型最为重要。一方面是因为线性回归的应
用最为广泛;另一方面是只有在回归模型为线性的假定下,才能得到比较深入和一般
的结果;再就是有许多非线性的回归模型可以通过适当的转化变为线性回归问题进行
处理。在线性回归模型中,最为简单的是一元线性回归,它只有一个因变量和一个自
变量。多元线性回归模型是一元的推广,具有一般性。为了使得表达上简洁和计算上
方便,这里我主要用矩阵的形式来介绍多元线性回归模型。
多元线性回归模型的矩阵形式为:
X 是一个 n×(p+1)阶矩阵,称为回归设计矩阵。在实验设计中,X 的元素是预先
设定并可以控制的。
为了方便地进行模型的参数估计,对回归方程(2.1)有如下一些基本假定:[2]
(1) 解释变量x1,x2, ,xp是确定性变量,不是随机变量,且要求rank(X)=p+1<n。
这表明设计矩阵 X 中的自变量之间不相关,样本量的个数应大于解释变量的个数,X
是列满秩矩阵。
(2)随机误差项具有零均值和等方差:
这个假定常称为高斯-马尔科夫(Gauss-Markov)条件,简称 G-M 条件。在此条
件下,便可以得到关于回归系数的最小二乘估计及 估计的一些重要性质,如回归系
数的最小二乘估计是回归系数的最小方差线性无偏估计等。
(3)正态分布的假定条件为:
对于多元线性回归模型的矩阵形式(2.1)式,这个条件可以表示为 (1.5)
在此条件下便可得到关于回归系数的最小二乘估计及 估计的进一步的结果。
以上就是通常对多元线性回归模型作的基本假设。对线性回归模型通常要研究
的问题有:如何根据样本 , , , p; 求出回归系数 线性回归中最小二乘估计的改进(2):http://www.youerw.com/shuxue/lunwen_4844.html