图 1-1 全球数据存储量示意图
自上世纪八十年代起,现代科技可存储数据的容量每 40 个月即增加一倍[1]截至
2012 年,每天全世界产生 2。5 艾字节( 2。51018 字节)的数据[2]。在许多领域中,大数 据对于科学家的分析研究造成了很大的障碍,这些领域包括:气象学、基因组学
[3]、神经网络体学、复杂的物理模拟,以及生物和环境研究等。而在机器学习领
域,如此规模宏大的数据,应用到一些时间复杂度很高的算法上,就必然导致算法 无法在合理时间内执行完毕,这也就限制了这一领域的发展。
极限学习机[4] (Extreme Learning Machine, ELM)是由 Huang 等人在 2006 年提出 的一种行之有效的机器学习算法,近些年在机器学习领域引起了广泛的关注。与传统的基于迭代的误差反传(Back-Propagation, BP)算法[5]不同,ELM 基于最小二乘法 来训练单隐层前馈神经网络(Single hidden-Layer Feedback Networks, SLFNs),训练过 程可以一步达成,这就具有比传统算法更好地时间优势[6-7]。ELM 可以广泛的应用 在许多回归和分类问题上,故其具有泛化能力强的优点。
然而极限学习机也面临着其它机器学习算法所经常面对的一个严峻挑战,那就 是当算法应用到不平衡数据时,会对算法的性能产生很大的影响[7-8]。不平衡数据是 指训练数据集中任意两类数据的量差距很大,导致由于缺少足够的少数类样本支 持,所以训练出的分类器对少数类样本的识别率很低的现象。在实际生活领域,不 平衡数据随处可见。在机器的故障检测,信用卡欺诈,敌我识别等方面,由于现实 条件的限制,获取异常类样本的代价很高,或者根本无法获取,导致在这些领域, 所要处理的数据往往会出现极度不平衡的情况,致使对异常类的识别准确率很低, 这不能满足我们的实际需求。故研究一种能够应用于不平衡数据的有效算法是具有 很强的现实意义的。
1。2 国内外研究现状
1。3 本文主要工作
本文主要工作是在 WELM 的基础上,分别设计并开发了耦合样本全局先验分布 信息和局部先验分布信息的方法,以确定最佳权重,从而提升分类的性能。在耦合 全局先验分布信息的方法中,本文借鉴了 FSVM-CIL 算法中所提出的四种策略,将 其与 WELM 算法相结合,并提出了四种对应算法;在耦合局部先验分布信息的方法 中,则同步考虑了每个样本邻域不纯度、密度及样例偏离度三项指标,对其加以综 合计算,得出隶属度,并以此来作为 WELM 中每个样本权重设定的计算依据。
1。4 本文的组织结构
本文具体的组织结构如下:第二章介绍了与本文算法相关的基础理论;第三章 介绍了耦合样本全局先验分布信息的极限学习机算法,具体给出了算法的运行流 程,并提供了大量的比较实验结果,最后对结果做出了分析;第四章详细阐述了耦 合样本局部先验分布信息的极限学习机算法,并与前人的算法和第三章的算法进行 了比较,对实验结果做出了客观分析;第五章对全文进行了总结并对未来研究进行 了展望。
第二章 相关基础理论
2。1 ELM 算法简介
极限学习机(ELM)是由 Huang 等[4]人于 2006 年所提出的,最初是为了解决单隐 层前馈神经网络收敛速度慢的问题,之后被扩展到更一般化的单隐层前馈神经网络 SLFNs 上。极限学习机不需要对网络权重和偏置进行调整,而是通过最小二乘法直 接计算得来,故大大提高了网络的训练速度,且客观上减少了网络陷入过适应的可 能性。
图 2-1 单隐层前馈网络 SLFNs 的基本结构图