(2) 代价敏感学习 代价敏感学习是指在训练时,引入惩罚因子的概念,对不同类样本的分类错误
施以不同的惩罚,从而纠正整体的训练误差。
Veropoulos 等[26]提出在对支持向量机训练时,可以为不同类样本赋予不同的误 差权重。相应地,Zhou 与 Liu[27]讨论了在神经网络上实现代价敏感学习的可能性。 而 Zong 等[28]则将上述思想移植到了极限学习机上,其会在下文做详细介绍。
然而,上述算法均只考虑了不同类样本之间应赋予不同的权重,而忽略了同一 类样本由于所处位置不同而导致的重要度差异。为此,Batuwita 和 Palade 等[29]提出 了模糊代价敏感不平衡支持向量机算法(FSVM-CIL),该算法通过为不同的样本设计 不同的代价权重,从而有效地提高了分类的准确度。在该算法中,作者设计了 6 种 不同的隶属度函数,用以确定个样本的代价权重。但其缺点也较为明显,因其假设 各类样本均近似满足正态高斯分布,故在实际应用中,其效果也会有所限制。
(3) 决策输出补偿技术 决策输出补偿技术也可以被看做是一种分类器层面的类别不平衡学习方法,它
通过直接为最终的决策输出做正补偿的方式来修正原本偏倚的分类面,其实质就是 对分类器做平移处理。Zhou 等[28]将神经网络的输出限定在[0, 1]之间,并在训练后对 输出值进行归一化,其后在归一化的输出上乘以不同的阈值,以达到平移分类面的 目的,其缺点在于阈值是通过经验设定的,并没有耦合样本的先验分布信息。Lin 和 Chen[29]提出了一种基于支持向量机的决策输出补偿算法,补偿值由多数类及少数 类样本规模共同决定。Yu 等[31]在其基础上进行了改进,考虑了先验分布信息的作 用,通过观察训练集中 G-mean 值的改变逐步调整分类面的位置,从而自适应地找 到决策面的最优位置,以力求使分类性能最大化。在上述工作基础上,Yu 等[32]又对 基于极限学习机的决策输出补偿策略进行了研究,提出了 ODOC-ELM 算法,该算 法分别采用黄金分割优化搜索算法与粒子群优化搜索算法来解决二类不平衡及多类 不平衡分类问题中的最优补偿值求解问题,得到了较优的性能。然而,上述方法仅 能使分类面做平行移动,而无法改变分类面的方向,故性能提升的程度非常有限。文献综述
决策输出补偿也是一种有效的类不平衡学习方法,其优点在于确定补偿值的过 程与分类器的训练过程是相互独立的,而难点在于最优补偿值不易确定, 且即使能 够确定,也只能保证分类面做平行移动,而无法改变其方向,如能引入样本的局部 先验分布信息,则有望使此类方法的性能得到进一步提升。
(4) 一类分类技术
与传统的分类技术不同,一类分类技术[33]仅采用隶属于一个类别的样本来训练 分类器,其通常被用于某种极端场景,即训练样本仅包含正常样本,而异常样本不 可得的情况。该技术也已被用于解决极度不平衡分类问题,因为在此类问题上,传 统的类别不平衡学习方法通常不能取得较好的分类效果[34-35]。目前, 最为常用的一 类分类器包括基于高斯密度估计的方法、基于神经网络的方法、 基于聚类的方法、 一类支持向量机及支持向量数据描述法等。无论哪种方法, 都是用于刻画一个覆盖 关系,从而更好地描述正常样本的分布,使之与异常样本区分开来。
(5) 集成学习技术 鉴于单分类器具有性能不稳定与易于缺失重要信息等缺点,故亦可采用集成学来:自[优.尔]论,文-网www.youerw.com +QQ752018766-
习技术来解决不平衡分类问题。在此,需要将集成学习模型与上述某种技术方法结 合使用。如 Chawla 等[36] 将 SMOTE 方法与 Boosting 学习模型相结合,提出了 SMOTEBoost 方法,该方法没有沿用传统 Boosting 算法样本加权的思想,而是在上 一轮错分的少数类样本周围增加一些伪样本,从而降低其在本轮被误分的机率。 Seiffert 等[37]则将该思想与随机降采样方法相结合,提出了 RUSBoost 方法,发现其 性能比 SMOTEBoost 更优。Liu 等[38]结合随机降采样与 AdaBoost 算法提出了两种集 成学习方法: EasyEnsemble 和 BalanceCascade,它们具有时间复杂度低,数据利用率 高等优点。Sun 等[39]提出了一种用于解决类不平衡问题的集成学习方法,其首先将 多数类样本随机无交叉的划分成多个子集,每个子集与少数 类样本数大致相当,然 后构建多个平衡训练子集,再进行集成,在其实验中,也对五种不同的集成决策规 则进行了比较分析。Diez-Pastor 等[40]则在其研究中强调了在集成中保持个体分类器 差异度的重要性。 不平衡模糊加权极限学习机算法研究(5):http://www.youerw.com/jisuanji/lunwen_94100.html