图 2-1 给出了 SLFNs 的基本结构,其中, ai 和 bi 是第 i 个隐藏层节点的权重和 偏置常数, i 是指第 i 个隐藏层节点对应的输出权重,G 是指类似 sigmoid,sine, hardlim,tribas,radbas 这样的激活函数,激活函数用于把一个实数域的输出值映射 到-1 到 1 之间。由于输入样例、隐层权重与偏置、期望输出(类别标记) 均已知, 则 输出权重矩阵 即可由下式直接计算得到:
其中, H† 是隐藏层输出矩阵的 Moore-Penrose 广义逆, 为输出矩阵,T 指代 期望输出矩阵,其与训练类标标记相对应。故在 ELM 算法中,可以通过最小二乘法 直接一步求出输出权重矩阵,而无需迭代调整,这就大大缩短了网络的训练时间。
也可用最优化的思想来解式(2-1),解该方程实际上就是试图找到一个解使得其 可同步最小化::
HT & (2-2)
可把上述两个条件结合为如下的一个优化式:
其中 ti 和 i 分别指代输出的类标预测值及其与真实类标之间的偏差, C 为调节
参数,用于平衡上述两部分,使得尽可能在缩小训练误差的同时,最大化网络的泛 化能力。通过解式(2-3),可以得到[7]:
其中 I 表示单位矩阵,H 为隐层输出矩阵, f (x) [ f1(x),。。。, fm (x)] 为 m 个输出节 点所对应的类标向量。则给定一个样本 x,其类标可通过下式计算得到:
2。2 类别不平衡学习算法概述
近十几年来,类别不平衡学习一直是数据挖掘,机器学习领域的热点,包括 AAAI00[20],ICML03[21]及 PAKDD09[22]等主流学术会议都曾以此为专题组织过相应 的学术研讨会,2005 年,该问题更是被列入了数据挖掘领域十大待解决难题之一。 图 2-2 为采用“class imbalance ∩ classification”作为关键词在 EI Village 中所查询到的 近 10 年该领域发表文献情况。从该图中可以看出,该领域的文献发表数在近 10 年
几乎呈现逐年递增的趋势,尤其是在 2014 年,论文数更是超过了 160 篇。由此可 见,类别不平衡问题正受到学术界日益增多的关注。事实上,考虑到关键词及数据 库选取的局限性,上述统计结果比实际文献发表数要少得多。论文网
顾名思义,类别不平衡问题是指训练集中的不同类样本在数目上差异较大,从 而导致训练出的分类器对少数类适应性较差的问题。然而,在现实情况下,往往识 别出这些少数类样本才是学习的主要目的,故如果使用传统的机器学习方法应对不 平衡数据,常会导致任务失败。近些年,国内外对于不平衡数据的研究主要集中在 以下方面:
图 2-2 EI Village 上以 class imbalance ∩ classification 为关键词所搜索到的近十年的相关文献数量 变化图
(1) 采样技术
采样,即通过一定的方法来增加和删除样本以使得原本不平衡的训练集的平衡 度趋向于 1。采样技术主要包括以下两种方法:一为过采样,其通过某些策略来增 加少数类样本的数量以平衡训练集;二为欠采样,其仅仅选取并保留部分多数类样 本,从而达到平衡数据集的目的。随机过采样 ROS(Random Over-Sampling)和随机 降采样 RUS(Random Under-Sampling)是最简单也是最为常用的采样方法[23]。但是, 两种方法均有都有各自的缺点,对于前者,其首先增加了算法的时空复杂度,其 次,由于对少数类样本的重复采集,很容易发生过拟合现象;而对于后者,由于其 剔除了很大一部分的多数类样本,故会丢失很多重要的信息。
近年来,为克服上述两中简单算法的缺点,一些人提出了一些有效的改进算 法。如 Chawla 等[24]在 2002 年提出了 SMOTE 算法(Synthetic Minority Oversampling Technique),该算法通过在任意两个邻近的少数类样本之间生成虚拟样本的方式,从 而在一定程度上解决了随机过采样的过拟合问题。 与此相对应的是, Informed undersampling 算法被用于解决欠采样中信息丢失的问题。