在一般的线性回归模型中,假设(X�,��),�=1,2,⋯,N,其中��和��=分别是第i个观测值对应的响应变量和自变量。一般将残差平方和最小化获得的最小二乘估计(OLS)。
虽然最小二乘估计有很多非常好的性质,但是很多情况下依然不能满足数理统计的要求,主要的原因有以下两个方面。第一个方面是预测精度的问题。最小二乘估计属于无偏估计,通常情况下,当自变量线性相关程度比较高时它的方差也比较大,因此,通常情况下为了改进这个预测精度,选择的方法是将某些系数压缩到0的方法。即以一定的有偏为代价降低预测值的方差,通过这种方法让整个模型的预测精度得到改善。另一方面则是模型的可解释性。当有很多自变量时,为了得到比较好的效果,一般是确定一个比较小的变量模型。
1.2国内外研究的现状
在1993年Frank提出“BridgeRegression”和在1995年Bireman提出的“NonnegativeGarrote”的启发下,Tibshirani,R在1996年提出了一种新的变量选择方法,并将其称之为Lasso(LeastAbsoluteShrinkageandSelectionOperator)。Lasso算法就是通过把模型系数的绝对值函数作为压缩模型的系数的惩罚函数,从而使得一些回归系数变小,或者直接将这些绝对值较小的系数直接变成0,因此Lasso算法就可以同时兼顾了子集选择和岭回归的优点。与传统的变量选择方法作比较,Lasso方法在变量选择方面改善了传统方法的缺陷,也正因为如此,近年来Lasso在统计的领域中受到了大家的重视。但是有缺点也就会存在一些缺点,该Lasso方法缺少有效的算法支撑。因此在该方面很多学者展开了深入的研究。
在这之后,1998年Fu提出了“Shooting”算法,紧接着Osbome,M,R等人研究出Lasso回归的解的路径是逐片线性的,并提出其相应的算法。Fan和Li在2001年推测出Lasso估计不具有OracleProperties,在此同时还提出了一种新的惩罚函数,称之为SCAD,沿用GCV方法来选择惩罚参数。对于Lasso的计算问题,BradleyEfron等人在2004年提出的最小角回归(LeastAngleRegression)算法就很好地解决了。
1.3论文主要研究内容和研究工作
论文的主要研究内容就是线性模型的lasso算法,lasso估计的性质以及lasso简单的运用。
具体表现在Lasso相关知识的了解,线性回归、Ridge回归、最小二乘法;具体了解Lasso的含义,Lasso回归的含义特点以及存在的问题,并且还要研究Lasso方法的定义和参数t的确定方法;还包括Lasso回归的解法,Lasso的相关方法以及Lasso估计的渐进性的简单介绍。将Lasso运用于具体的实例中,能够实现变量的选择并同时实现参数的估计,很好的解决回归分析中的线性问题,并且对相关结果有一个比较好的解释。