缺失数据的估计与应用+文献综述
时间:2018-03-03 17:52 来源:毕业论文 作者:毕业论文 点击:次
摘 要在当前社会的各个领域研究调查中,因为各种已知或未知因素的影响,常常会导致缺失数据这种情况的出现.缺失数据的存在,不仅会增加研究专家们分析数据时的复杂程度和难度,而且还会造成分析结果的偏差,从而降低工作者的工作效率,因此考虑怎么消除或者尽可能的减小这些缺失数据的影响就变的更加重要.本文首先是用几种填补法对缺失的数据进行填补,构造一个完整的数据集,然后再利用SPSS软件对填补后的数据集进行相应的统计分析. 本篇毕业论文主要针对缺失数据处理的方法进行分析研究,主要方法有均值填补法(Mean),期望值最大化填补法(EM),回归填补法(Regression)和多重填补法(MI).19068 关键字:数据缺失;回归填补法;期望值最大化填补法,均值填补法 The Estimation And Application of Missing Data Abstract In the current study investigated in all areas of society, because of the effect of all kinds factors that known or unknown, it always leads to missing data for this situation. The presence of the missing data not only increase the complexity and difficulty that research experts analyze the data, but also can lead to deviation of analytical results, thereby reducing the working efficiency of the workers, and as much as possible to consider how to eliminate or reduce the impact of these missing data has become more important. Firstly, it need several filling methods to fill the missing datas , constructing a complete data set, and then using the SPSS software to fill the corresponding statistical analysis for the data set. Processing method of this paper is aimed at missing data analysis, the main methods are mean imputation methods(MEAN), expectation maximization method (EM), regression imputation (Regression) and multiple method (MI). Keywords: Missing Data; Regression ; EM; Mean 目 录 摘 要 1 引言 2 1.缺失数据的含义和分类 3 1.1 缺失数据的含义 3 1.2数据缺失产生的因素 3 1.3缺失数据的分类 3 2.缺失数据的估计方法 4 2.1不处理 4 2.2删除法(Deletion) 4 2.3填补法(Imputation) 4 3.缺失数据的填补法估计 5 3.1均值填补法 5 3.2回归填补法 5 3.3期望值最大化填补法 6 3.4多重填补法 6 4.简单填补法的应用 7 4.1完整数据分析 7 4.2各种不同缺失率的比较 10 4.2.1 缺失率为5%时数据集的分析 10 4.2.3缺失率为25%时数据集的分析 11 4.2.4缺失率为35%时数据集的分析 12 4.2.5 缺失率为45%时的数据集的分析 12 5.模型展望与结论 13 参考文献 15 致 谢 ..........16 缺失数据的估计与应用 引言 在日常生活中,研究人员常常需要对大量的资料进行研究分析和处理, 传统的统计方法和理论几乎都是建立在完整的数据基础上.然而在实践中,研究人员通过调查、实验或引用等各种方法收集数据时,由于填写不合格,敏感问题调查失访,实验失误或引用数据不完全等其他原因等得某些数据无法获得的现象常常发生,产生缺失数据,给调查和数据的处理分析带来困难,甚至偏离原来的事实,造成错误的结论.传统的统计分析中,出于严谨的处理问题,更准确的接近事实,分析人员往往需要完整的数据.当缺失数据存在时应该如何处理,怎么样才能够充分的利用资料信息,更加准确地描述所研究问题的情况,进而对研究的问题进行分析、预测,从而达到预期的研究目的,已成为当前的信息社会统计分析研究的一个重要的难点与热点问题.传统的分析方法和一些分析软件中仅仅把缺失的数据或记录删除,其实这种方法不适合所有的缺失数据问题.错误的删除,可能损失原有的信息,所得的结果也是建立在不完整的信息之上,这有可能产生分析效能降低和错误的预测两个可能问题,因此,不能再直接使用传统的统计方法去解决缺失数据的问题.为了更好地解决缺失数据的问题,近几十年,各国的学者专家们提出了很多有效的解决缺失数据问题的方法.对于同一个缺失数据的问题,不同的处理方法有不同的效果.为了很好的解决这类问题,在处理问题前,应首先先对缺失数据的类型进行分析,并尽可能挖掘有用信息,再选择适合的方法解决问题. (责任编辑:qin) |