摘要:线性回归模型广泛应用于现实生活中,而最小二乘法无疑是估计线性回归模型中系数的一个很重要的方法,在很多现实问题的处理过程中,我们往往会遇到单个或者少数数据出错或偏离正常情况的情形,这有可能导致拟合线与实际情况相差很大,使我们得不到正确的结论。针对这种情况,我们可以采取统计诊断中检测并剔除异常点的方法,也可以采用稳健估计来消除异常点的影响,两种方法各有优劣,我们将通过对实际数据的分析来比较二者,以改进最小二乘估计。22275 毕业论文关键词 最小二乘法 异常点 统计诊断 稳健估计
Title improvement and application of least square estimation of linear regression model
Abstract
Linear regression model is widely applied in real life.Least square
estimation is an important method to fix the coefficients in linear
regression model undoubtedly. We usually encounter single or several
outliers which may lead to a wrong conclusion in the process of many real
problems.In wiew of this situation,we can find and eliminate these outliers
by statistical diagnosis or use the robust statistics to eliminate the
effect of outliers.We will compare the two methods through analysis on real
data to improve the least square estimation.
Keywords least square method outliers statistical diagnosis robust statistics
目次
引言 1
1.1 引言. 1
1.2 线性回归模型 1
1.3 最小二乘法. 2
最小二乘估计及其问题. 4
2.1 最小二乘估计的基本理论. 4
2.2 最小二乘估计存在的问题. 7
统计诊断和稳健估计.. 8
3.1 统计诊断.. 8
3.2 稳健估计 11
第四章 数据拟合及结论. 14
4.1 实验数据 14
4.2 数据拟合实现. 16
4.2.1 数据一.. 16
4.2.2 数据二.. 19
结论. 23
致谢. 24
参考文献.. 25
1引言
1.1 引言
随着科技的不断发展和时代的进步,生活中很多看似不相关的变量之间其实
是相关的,而对于已知的相关联的变量,人们不再仅仅局限于定性的分析,更多
的是定量的分析,比如说农田中庄稼的生长情况受供水状况,肥料情况,天气因
素的影响,我们可以将这些因素数量化,根据实验的数据拟合得到它们之间的量
的关系,从而可以进行分析预测,得到更加直观具体的结论,而最小二乘法就是
其中的一种很重要的拟合方法,它就是用来处理这个问题的,它让误差的平方和
最小来寻找最好的拟合函数,而最小二乘法也有亟需改进的地方。
本文将针对线性模型中最小二乘法的拟合结果可能受到异常点的影响来对
它作出改进,分别从剔除异常点和通过权重来减小异常点的影响着两个方面出
发,结合数据,通过改进的结果来比较两种方法,从而作出更优改进,避免定量
分析中因为一两个错误数据或是不正常数据而影响到最后的结果,得出错误结有形式的回归分析一样,线性回归的焦点也是在给定X 值的条件下 y的条件概率
分布,而不是X 和y的联合概率分布。
在回归分析中首个经过严格研究并在实际应用中广泛使用的类型就是线性
回归。对于其未知参数的模型,线性依赖比非线性依赖更易于拟合,并且产生的
估计的统计特性也更明确。
线性回归有很多实际用途。分为以下两大类:
1. 如果目标是预测或者映射,线性回归可以通过对观测数据集的和X 的值
来拟合出一个预测模型。模型完成以后,对于之后一个新的X 值,在我们不知道
与它相配对的 y值的情况下,可以用我们拟合出的模型预测出一个y值。