自然而然地,我们很有必要去研究线性回归模型的稳健估计方法,这对于一些现实问题的解决也有重要意义。于是,统计学家研究并且提出了不少替代的方法,其中,M估计是最重要的一种之一。在1963年,M估计的概念首次由Huber在他的有关位置参数模型的文献中提出了。后来,1973年,Huber又在文献中把M估计推广到一般线性模型。从此之后的几十年间,M估计已经成为了统计学研究的热点之一,尤其从上个世纪九十年代至今,且成果迭出。
2.1何为“稳健”
第二章稳健回归
正如休泊(Huber)所说的一样,“稳健”(Robustness)一词包含着很多有时并不都一样的内涵。虽然这样,一般来讲,很多人都认为对一个估计量进行评价的时候,我们需要考虑两种类型的稳健性。而这些则是由Mosteller和Tukey他们二人总结的,他们两人认为,作为一个稳健的估计,必须满足以下两个条件:
(1)在各种各样的情况下,该估计都要具有高效率;
(2)数据一旦发生微小改动将不会使估计发生剧烈的变化;第一个条件,反应的是潜在的分布假定,也可以被称作是效率的稳健性。它表示着当估计量未满足分布假定时,对其结果的精度影响很小,也可以说,这对它标准误的影响很小。第二个条件反应的是估计量抵挡特异值得干扰的耐抗性/抗扰性,即它可被作为效度的稳健性。其实来讲,该估计量为数据的主体提供了有效的估计。
在实践中统计产生的结果不仅依赖于观测的数据,还要依赖于研究人员对所研究总体所做的一些特定假设。例如分布型式、独立性等。而稳健统计可以解决在实例中当观测数据明显偏离假设时研究分析所面临的一些问题。
稳健估计则是在观测数据的异常值无法避免的时候,我们可以选择比较合适的估计方法以此来减少甚至避免估计值受异常数据的影响,从而得到正常模式下的最佳估计结果。目标如下:首先,在假设的模型下,得出的估计值应当是最优的或者是接近最优的;其次,当实际的分布模型与假设的分布模型偏离程度比较大时,得出估计值也不会因此而受到巨大的影响。最后,当实际的分布模型与假设的分布模型差异较小时,得到的估计值受异常数据的影响会比较小;
本文主要关注M估计及其应用,通过M估计方法来看估计量在遇到异常值时保持不变的水平。
2.2稳健回归的定义
当线性回归模型中的观测值y服从正态分布时,最小二乘法会是不错的估计方法,而它所产生的参数估计量会拥有良好的统计性质。但是在许多情形中,会有证据表明其中响应变量的分布在很大程度上不是正态分布,并且存在着会影响回归模型的异常值。异常值可能对最小二乘法产生强烈影响,即,它会在很大程度上将回归方程“拽向”异常值自身的方向。
例如,假设现在有16个观察值,其中的15个都在一起,但是第十六个却远远离开其它观察值,我们称第十六个值为异常值。在统计学中,我们通常要拒绝这些异常值,也就是丢弃这些离大多数观察值都比较远的值。如下图,处理这种情况的方法通常是丢弃异常值,这样它产生的回归直线会良好的通过另外那些数据点,然后从统计学的立场来讲,这条直线更加拟合。然而,从统计建模的角度来说,像这样简单的丢弃观测值只是权宜之计,事实上,在很多时候这也不是一种良好的实践。对观测值的修正和丢弃有时要以学科的知识为基础,与此同时,我们又发现若纯粹地以统计学为基础来修正或丢弃观测值时,通常会自讨苦吃。需要我们注意的是,在更为复杂的情形中,会包括更为多的回归变量以及更大的样本,即使探测出如上图的这种会扭曲回归模型的异常值,也是有难度的。