另一方面,搜集数据时由于随机误差和缺少对数据鉴别,高文数据集中通常包含大量无关的冗余信息,我们称之为噪声。也就是说,在收集到的海量数据中必须有很大一部分属于无用信息,这就为海量数据处理结果的准确性带来了更大的挑战。人们处理数据的方法正在迎来一个变革期,由此进入所谓的大数据时代。在数据的文数和数据的记录数越来越多的情况下,人们除了期望能够借助日益成熟的分布式计算平台技术增强数据处理能力外,人们不再指望能访问全部数据,处理全部数据。相反,采取随机优化算法,用部分数据的次梯度代替整体梯度处理高文数据集成为了一种高效快速的方法,随机优化思想也成为数据研究领域新的研究方向。
1.2 研究目的和意义
进入大数据时代,很多领域面临着新挑战。特别是在机器学习领域,很多机器学习算法是基于内存的,一台计算机内存无法装下全部的海量数据。即使数据条目数可以缩减,算法仍然存在以下问题:计算求解耗费大量的时间和计算资源,甚至数据文数大到一定程度,计算机是无法求解的。而另一方面,为了充分利用多核和多机器的优势,大型分布式计算平台应运而生,如Hadoop,MapReduce等,为求解计算提供一个更快更高效的新思路:问题拆分——分配子任务到多个运算节点——子任务求解结果合并的思路——完成对问题的求解。
本文受此启发,研究分布式计算中常见的一种算法——随机优化算法。优化问题在机器学习中普遍存在,优化的目的是获得更好的模型解,比如在回归、分类问题中,由于需要拟合的数据较多,将所有数据都储存到内存中计算并不现实,随机优化算法就能够随机选取其中的部分样本作为测试数据,并且在不同的运算节点上执行算法,使得运算量在机器的可承受范围之内。随机优化算法可以看做一个改进的求解方法,它的主要优势总结如下:(1)用数据集中的部分数据求解,以次梯度代替整体梯度求解;(2)对数据集进行拆分,可以适应分布式计算平台的数据处理要求。随机优化算法计算机能够应对数据量和数据文数激增的现实情况,并且简化计算过程,加快计算速度。
随机优化算法作为一种数据处理的方法,可以很容易的应用到各种求解模型上,也包括非负矩阵分解模型。应用随机优化算法可以缩减矩阵分解模型中的矩阵规模,简化计算过程,因此能够加速原有模型的计算速度。光谱解混问题其实也是个大规模矩阵分解的问题,一幅光谱图像可能包含着成千上万的像素点,而每个像素点都包含着成百上千的波段数(高光谱遥感图像尤其如此)。因此,将随机优化算法运用到光谱解混问题上,能提升原有算法模型的数据处理能力,增强光谱解混算法的适用性,这也是本文的研究意义所在。
本文第二部分从非负矩阵分解的应用入手介绍了一些相关基础知识,第三部分研究随机梯度下降法的思想和国外最新的基于随机梯度下降法的非负矩阵分解算法,第四部分介绍了光谱解混的基本概念,原理图和目前国内外的研究现状;第五部分展示了随机优化思想下的非负矩阵分解算法在最小体积约束的光谱解混模型上的应用,并设计对比试验,给出结果分析。
2 非负矩阵理论基础
2.1 非负矩阵分解概述
2.1.1 非负矩阵分解的应用
非负矩阵分解(Non-negative matrix factorization,NMF)[1]是由Lee和Seung等人在1999年提出的一种适合大规模数据处理的一种方法,具有实现简便,分解形式和结果物理意义明确以及占有空间小等优点。NMF被广泛应用于以下三个领域:图像处理和模式识别领域,文本聚类和数据挖掘领域以及语音处理领域,并且取得了不错的成效。下面列举两个具体的NMF应用实例。 非负矩阵分解的随机优化算法在光谱解混中的应用(2):http://www.youerw.com/jisuanji/lunwen_20446.html