稳健回归模型可以在使用最小二乘法时抑制强影响数据点的影响,也就是说,稳健回归更倾向于将异常值的残差保留的较大,因此,它可以更容易地鉴定出有强影响的点。除了对异常值不敏感之外,当隐含分布为正态分布且异常值不存在时,稳健估计程序也应该会产生本质上与最小二乘法相同的结果。与此同时,稳健回归还有一个令人期望的目标,即稳健估计程序及相关程序进行相对简单。进行稳健回归的大部分工作的初始动机都来自于普林斯顿大学的稳健性研究,再后来,若干类型的稳健估计量也被提出。那么为什么当观测值为非正态分布时,要使用稳健回归的方法来替代最小二乘法呢?为了进一步讨论这个问题,我们首先考虑简单线性回归模型:上式中误差项为相互独立的随机变量,且服从双指数分布双指数分布如下图所示,双指数分布的中部相比正态分布更为尖锐,同时,随着趋向无穷,它的尾部无限趋近于0.不过,因为双指数分布的密度会随着e(|i|)趋向于0而趋向于0,而正态分布则是随着e(|i|)趋向于0而趋向于0,因此会看到双指数分布比正态分布有更重的尾部。
下面用最大似然法来估计方程2.1中的0和1,因似然函数为因此,最大似然函数就是最小化误差绝对值之和。此前将极大似然方法应用于有正态误差项的回归模型时,将会得出最小二乘准则。因此,假设误差分布有比正态分布更重要的尾部,就意味着最小二乘方法不再是进行估计的最优方法。此处需注意的是,绝对值误差准则所给予的异常值点的权重要比最小二乘法轻的多。最小化绝对误差和通常称为L1范式回归问题。
2.3 稳健估计量的性质
本文主要介绍稳健估计量的两个重要性质:有效性和崩溃性。我们需要观察到,在选择稳健回归程序时,我们需要实用地考虑估计量的崩溃点。而在一般情况下,M估计量在崩溃点处的拟合是不良的,很多时候需要许多其他替代性研究程序。
崩溃点 有限样本的崩溃点就是反常数据的最小子集,其可以使估计失效,而可能的最小崩溃点是1/n;也就是说,单独一个观测值就可以严重地扭曲估计量,并使其不能实际地应用于回归模型的构造。OLS的崩溃点是1/n。M估计量可能会受到x空间中异常值的影响。这与OLS的性质是一样的。因此,M估计量这类估计量的崩溃点也是1/n。崩溃点将对M估计量的实际使用产生潜在的严重影响,这是由于可能难以确定被反常数据所污染的样本范围。绝大多数的数据分析师认为,被错误数据所污染的数据部分一般在1%与10%之间。所以,如果想要估计值的崩溃点在一般情况下超过10%,就产生了对高崩溃统计量的研究。
有效性假设数据集没有严重误差,不存在强影响观测值,并且观测值来自于正态样本。如果对这一数据值使用稳健估计量,那么想要的结果实际上会与OLS一致,这是由于OLS对这一数据时合理的处理方法可以将回归估计量的有效性认为是用OLS得到的残差均方除以由稳健程序得到的残差均方。显然,想要的是这一有效性的度量接近于一。
稳健回归中,会大量强调渐进有效性;渐进有效性就是随着样本量变为无穷时估计量的有效性。渐进有效性在比较稳健回归估计量时是有用的概念,但是很多实际回归问题所涉及的样本量是较小与中等大小的,而已经知道样本的有效性会在很大程度上不同于其渐进值。因此构建模型时所感兴趣的应该是可以用于给定情形的估计量的所有渐进性质,而不应该对渐进性质过于兴奋。从实用的观点看,更为重要的是有限样本的有效性;也就是说,在所感兴趣的常见问题中,对于其包含的样本量,将特定的估计量用于对“干净”的数据进行OLS推断时会如何。稳健估计量的有限样本有效性的定义是OLS的残差均方与稳健估计量的残差均方的比值,其中OLS仅应用于“干净”的数据。蒙特卡洛模拟方法通常会用于求出有限样本的有效性。 M估计及其应用(3):http://www.youerw.com/shuxue/lunwen_204100.html