2 异常值的概念
所谓异常值就是在所获统计数据中相对误差较大的观察数据,也称差异值.如果我们狭义地定义异常值的话就是一批数据中有部分数据与其余数据相比明显不一致的数据,也称离群值.
社会经济统计中一切失实数据统称为异常值.由于人为或随机因素的影响,失实的数据随时都有可能出现,因而统计数据中的任何一个都有可能成为异常值,而狭义界定的异常值是指离群值,如果把统计数据按由小到大排列,若有异常值,它必位于其数据的两端,左端称为异常小值,右端的称为异常大值.
残差:考虑线性回归模型
, ,
其中, , , , ,分量形式为
, ,
定义 为残差向量,其中 称为拟合值向量, 为 在模型 下的最小二乘估计.如果用 表示 的 个行向量,则称
,
为第 次试验或观测的残差.对简单回归, , , .则 , ,其中 。
于是,异常值就是在回归分析中,一组数据 如果它的残差 较其它组数据的残差大的多,则称此数据为异常值[1].
异常值的出现有主客观的原因.主观上抽样调查技术有问题,疏忽大意记错,或人为的虚报,谎报数据等都可能导致异常数据,这直接影响了统计数据的质量;客观上某些样品由于特定原因在某些变量上的确表现突出,明显超出平均水平,这也可能产生异常值.文献综述
异常值的存在必将导致相应统计分析误差增大,会对分析结果(平均值与标准差)产生重要影响,会降低测量的精度.如果不预先处理它们,用通常的统计整理方法所得出的结论可靠性差.而异常值的诊断与处理是保证原始数据可靠性,平均值与标准差计算准确性的前提.
3异常值的诊断方法
当我们在讨论异常值诊断问题时,我们通常要假设所得样本观测值在某中意义下遵从一定的分布规律.拿到一批数据,若能从其实际背景中明确看出它服从某中分布形式时,一般的做法是在这种分布假设下,导出能较好反映异常值与正常值差异的统计量,在没有异常值的原假设下作假设检验.
以下给出两种检验方法。
3。1 F分布检验法
学生化残差:考虑线性回归模型 ,记 ,称 为拟合值向量,称其第 个分量 为第 个拟合值,则
,
这里 .文献中通常称 为帽子矩阵.前面已经定义了
, ,
为第 次试验或观测的残差.将其标准化为 ,再用 代替 ,得到所谓学生化残差
, ,
这里 为 的第 个对角元, 。
把正态线性回归模型 改写成分量形式
, , ,
这里 , 相互独立.如果第 组数据 是一个异常点,那么它的残差就很大.它的残差之所以很大是因为它的均值 发生了非随机性漂移 ,从而 .这产生了一个新的模型
记 ,将模型 改写成矩阵的形式
, ,
模型 和 称为均值漂移线性回归模型.要判定 不是异常点,等价于检验假设 。
定理 对于均值漂移线性回归模型 ,如果假设 成立,则
。
据此,我们得到如下检验:对给定的 ,若
,