图 1-1 全球数据存储量示意图

自上世纪八十年代起,现代科技可存储数据的容量每 40 个月即增加一倍[1]截至

2012 年,每天全世界产生 2。5 艾字节( 2。51018 字节)的数据[2]。在许多领域中,大数 据对于科学家的分析研究造成了很大的障碍,这些领域包括:气象学、基因组学

[3]、神经网络体学、复杂的物理模拟,以及生物和环境研究等。而在机器学习领

域,如此规模宏大的数据,应用到一些时间复杂度很高的算法上,就必然导致算法 无法在合理时间内执行完毕,这也就限制了这一领域的发展。

极限学习机[4] (Extreme Learning Machine, ELM)是由 Huang 等人在 2006 年提出 的一种行之有效的机器学习算法,近些年在机器学习领域引起了广泛的关注。与传统的基于迭代的误差反传(Back-Propagation, BP)算法[5]不同,ELM 基于最小二乘法 来训练单隐层前馈神经网络(Single hidden-Layer Feedback Networks, SLFNs),训练过 程可以一步达成,这就具有比传统算法更好地时间优势[6-7]。ELM 可以广泛的应用 在许多回归和分类问题上,故其具有泛化能力强的优点。

然而极限学习机也面临着其它机器学习算法所经常面对的一个严峻挑战,那就 是当算法应用到不平衡数据时,会对算法的性能产生很大的影响[7-8]。不平衡数据是 指训练数据集中任意两类数据的量差距很大,导致由于缺少足够的少数类样本支 持,所以训练出的分类器对少数类样本的识别率很低的现象。在实际生活领域,不 平衡数据随处可见。在机器的故障检测,信用卡欺诈,敌我识别等方面,由于现实 条件的限制,获取异常类样本的代价很高,或者根本无法获取,导致在这些领域, 所要处理的数据往往会出现极度不平衡的情况,致使对异常类的识别准确率很低, 这不能满足我们的实际需求。故研究一种能够应用于不平衡数据的有效算法是具有 很强的现实意义的。

1。2 国内外研究现状

1。3 本文主要工作

本文主要工作是在 WELM 的基础上,分别设计并开发了耦合样本全局先验分布 信息和局部先验分布信息的方法,以确定最佳权重,从而提升分类的性能。在耦合 全局先验分布信息的方法中,本文借鉴了 FSVM-CIL 算法中所提出的四种策略,将 其与 WELM 算法相结合,并提出了四种对应算法;在耦合局部先验分布信息的方法 中,则同步考虑了每个样本邻域不纯度、密度及样例偏离度三项指标,对其加以综 合计算,得出隶属度,并以此来作为 WELM 中每个样本权重设定的计算依据。

1。4 本文的组织结构

本文具体的组织结构如下:第二章介绍了与本文算法相关的基础理论;第三章 介绍了耦合样本全局先验分布信息的极限学习机算法,具体给出了算法的运行流 程,并提供了大量的比较实验结果,最后对结果做出了分析;第四章详细阐述了耦 合样本局部先验分布信息的极限学习机算法,并与前人的算法和第三章的算法进行 了比较,对实验结果做出了客观分析;第五章对全文进行了总结并对未来研究进行 了展望。

第二章 相关基础理论

2。1 ELM 算法简介

极限学习机(ELM)是由 Huang 等[4]人于 2006 年所提出的,最初是为了解决单隐 层前馈神经网络收敛速度慢的问题,之后被扩展到更一般化的单隐层前馈神经网络 SLFNs 上。极限学习机不需要对网络权重和偏置进行调整,而是通过最小二乘法直 接计算得来,故大大提高了网络的训练速度,且客观上减少了网络陷入过适应的可 能性。

图 2-1 单隐层前馈网络 SLFNs 的基本结构图

上一篇:C#+sqlserver中小型超市运营管理系统设计与实现
下一篇:通用知识管理中地域管理的研究

内容的模糊图像检索技术研究【975字】

电子商务条件下大學城女...

基于加权LBP的自动人脸识别系统实现

层次分析法和模糊评价法...

Aproiri模糊关联规则实现研究

运动模糊图像的模糊参数估计方法研究

几类模糊图像复原算法的比较研究+源代码

安康汉江网讯

网络语言“XX体”研究

我国风险投资的发展现状问题及对策分析

张洁小说《无字》中的女性意识

LiMn1-xFexPO4正极材料合成及充放电性能研究

麦秸秆还田和沼液灌溉对...

新課改下小學语文洧效阅...

老年2型糖尿病患者运动疗...

ASP.net+sqlserver企业设备管理系统设计与开发

互联网教育”变革路径研究进展【7972字】