高维数据的分析越来越受关注。例如,统计处理信号和系统。对繁杂的系统进行统计建模,医疗研究中成分和结构的规律分析,基因表达研究。不定量数据的统计分析。
利用稀疏性特征,对于高维数据的分析,研究者们现阶段的主流做法是将数据降低维度,用低维问题来替换高维问题,从而便于利用已有的办法来解决问题。例如对于某个珍稀动物的具体生理与病理指标,研究者们可以无限地观测和获取,然而现实生活中能够得到的实例极其稀少,研究者们很难获得足够数量的个体作为样本分析,且获取样本进行研究的成本较高。这种情况下,观测数(n)就呈现了远大于变量数()的状况。同时,维数越来越高,各个变量间的关系随之愈加复杂。82576
十二年前,美国国家自然科学基金(National Science Foundation, NSF)的报告预测高维数据分析会成为本世纪统计学的重要前沿研究[6]。这一研究是一个现代统计学科学家面前的巨大挑战,对很多领域的研究都有不可估量的影响。在医学,生物,电子领域,都需要在少量样本的条件下进行研究推断。研究者们现今的主要任务就是降维,这也牵涉到模型的选择。而采用算法的类型有别,选取标准不一,输出的结果也各异。论文网
2 正则化估计方法的研究现状
为使可能产生的模型误差尽可能小,初始建模时,会引入一些可能与之相关的变量[7]。而为了使模型的预测精度尽量提高,提高可解释性,需要选择强相关变量[7]。而这个步骤则需要正则化估计方法。目前较流行的正则化方法有经典的变量选择方法、连续缩减的正则化估计方法,以及高维数据挖掘正则化估计的坐标算法[8]。在图像处理和机器学习等领域,正则化稀疏模型都发挥了很大作用。