变量选择的实质是从所获得的回归模型中各个可能的子回归模型中选择最 优的变量。变量选择主要从下面两个角度来考虑:模型解释性。即对于多解释变 量的模型,通过某种方法来获得影响显著的变量使得模型更易解释和控制;预测 精确度。有些模型有小的偏差,大的方差,这时便可以通过变量选择删除小影响 变量,从而牺牲偏差来获取稳定性。变量选择的传统方法研究可以追溯到 20 世

纪 60 年代。 

早期的变量选择的理论和方法主要集中在低维情况,面对最小二乘法的缺陷, 统计学门提出了许多有效的方法。其中,逐步回归法,岭回归方法是比较经典的 方法,在变量选择中取得了较好的效果,并得到了广泛应用。即便如此,这两种 方法也不是完美的。逐步回归方法并不能很好地保持变量选择结果的稳定,有时 较小的数据改变就会导致模型的改变。而岭回归只是使某些较大的变量系数变小, 但是却会使得所有的变量系数同比例变小,从而影响了模型的可解释。 

之后,统计学家基于最小化预测误差变量而提出了C�准则[17],该方法通过

研究子模型的均方差来获得模型选择的标准。另外,一些基于似然惩罚函数的方

法也得到广泛关注,其中最著名的包括 AIC 准则[15]和 BIC 准则[18]。AIC 准则 是通过比较与真实模型之间的 K-L 距离得到的,而 BIC 准则是通过假定参数的先 验分布,从 Bayes 的观点得到的。这几种方法都可以归结为基于信息准则的不连

续惩罚方法。其主要是基于假设检验产生一系列模型,并利用拟合优度统计量来 选出最优的模型。但是这种检验方法要求误差服从正态分布,这在实际问题中可 能不成立,导致了模型参数的估计不是那么准确。另外,对于高维数据或数据量 很大时,这几种方法在数据计算处理时便会遇到障碍。

近年来,随着科学技术的发展以及计算机等现代化技术被广泛使用,海量数 据开始充斥我们的生活,数据收集的方法也越简便,可供研究的数据越来越丰富。 在一些研究模型中大量的高维度数据非常普遍,这样就给模型选择和变量选择带 来巨大困难和挑战。这种情况在一些前沿学科如遗传学、经济学、医学以及工程 等方面更加普遍。正因如此,高维数据的处理促进了统计思想和数据分析方法的 变革,对高维数据提取特征进行降维处理则成了研究重点。此时,科学家们希望 找到新的变量选择方法,以谋求好的效果。一些学者对回归系数施加连续惩罚, 从而得到了新的变量选择方法。 

另外,包括交叉验证、广义交叉验证等统计学习方法被提出使用。此外统计

学家提出了许多同时进行变量选择和参数估计的方法。如对目标函数加入

上一篇:矩阵逼近中的统计问题
下一篇:概率论在生活中的应用概率论的起源和历史发展

数学问题情境的呈现方式...

二项选择敏感性问题的抽样设计探究

C语言中的选择结构及其应用

二维连续型随机变量函数的密度计算技巧探讨

含参变量数学试题的归类探讨

多维随机变量在经济生活中的应用

随机模拟方法的独立同分...

我国风险投资的发展现状问题及对策分析

LiMn1-xFexPO4正极材料合成及充放电性能研究

张洁小说《无字》中的女性意识

ASP.net+sqlserver企业设备管理系统设计与开发

安康汉江网讯

麦秸秆还田和沼液灌溉对...

老年2型糖尿病患者运动疗...

新課改下小學语文洧效阅...

网络语言“XX体”研究

互联网教育”变革路径研究进展【7972字】