1.4.3波长优选
近红外光谱原始数据中一般存在较多的波长变量,含有大量的冗余信息,当利用全波长光谱数据建立预测模型时,容易造成模型过度拟合,会降低模型的检测分析效率,更重要的是会影响模型检测的可靠性和稳定性。因此对原始光谱数据进行波长优选,可以从全波长中提取待测样品的特征波长,消除与样品无关的信息,选取建立预测模型的最佳波长组合,以提高模型的检测效率以及检测结果的精确性和稳定性。目前,常用的特征波长筛选算法主要有竞争性自适应重加权算法(CompetitiveAdaptiveReweightedSampling,CARS)、无信息变量消除算法(UninformativeVariablesElimination,UVE)以及随机蛙跳算法(Randomfrog,RF)等。
(1)竞争性自适应重加权算法竞争性自适应重加权算法(CARS)是通过使用达尔文进化理论所基于的简单而有效的“适者生存”原则来选择存在于全光谱区中回归系数绝对值较大的波长与PLS的最佳组合。剔除权重极小的波长变量,采用交叉验证建模筛选出交叉验证均方根误差最小的最优特征波长变量子集,可有效筛选出待测样品性质相对应的最优波长变量组合。
(2)无信息变量消除算法无信息变量消除算法(UVE)常用于近红外光谱特征波长优选,是基于偏最小二乘法分析回归系数b建立的波长优选方法。由于现代光谱仪器灵敏度及测量精度较高,可以采集到较多的光谱变量。采集的光谱数据中不仅包含待测样品的有效信息,同时也携带大量的无关信息,这些无用信息会降低预测模型的可靠性和预测精度。UVE算法可以实现对光谱数据无用信息的剔除,减少模型的变量,提高预测模型的可靠性[28]。
(3)随机蛙跳算法随机蛙跳算法(RF)是一种新型的特征波长优选方法,可以用少量的波长变量迭代建模,是一种有效的高维波长数据优选方法。该算法可以计算每个变量被选的概率,根据概率的大小进行波长优选。
1.4.4预测模型的评价指标
模型建立后,其预测能力的好坏需要相关的指标进行评价。模型的评价指标主要包括校正集均方根误差(RMSEC)、交叉验证均方根误差(RMSECV)、预测集均方根误差(RMSEP)、校正集相关系数(Rc)、交叉验证相关系数(Rcv)和预测集相关系数(Rp)。RMSEC、RMSECV以及RMSEP三者的绝对值越小且相互之间越接近,意味着模型的稳定性越高,预测结果越精准。相关系数越大,表示预测值与实际值越接近[29]。
(1)校正集均方根误差校正集均方根误差表示的是校正集样品的预测值与实际值间的差异,是模型预测能力最重要的评价指标。
公式中,�表示校正集的样品数, 基于近红外光谱技术结合波长优选分析桑叶品质(7):http://www.youerw.com/shengwu/lunwen_203692.html