2.3.4 k-近邻 17
2.3.5 支持向量机 18
2.4 聚类算法介绍 18
2.4.1 针对不同层次的聚类 19
2.4.2 针对划分区域的聚类 19
2.4.3 针对不同密度的聚类 19
2.4.4 针对网格的聚类方法 20
2.4.5 针对模型的聚类方法 20
3 基于Hadoop的数据挖掘系统的设计 21
3.1 系统的测试 21
3.2 测试环境 21
3.2.1 软件的配置 23
3.2.2 Hadoop集群测试 29
4 Naive Bayes分类算法的研究与优化 35
4.1 基于HADOOP的分类算法的设计 35
4.2 NAIVE BAYES分类算法概述 36
4.3 NAIVE BAYES分类算法的优化 36
4.4 实验结果分析 38
4.5 本章小结 39
5 K-Means聚类算法的研究与优化 40
5.1 基于HADOOP的K-MEANS聚类算法的设计 40
5.2 K-MEANS算法概述 40
5.3 改进的K-MEANS算法设计与实现 42
5.4 MAP函数的设计 42
5.5 算法优化结果分析 43
5.6 本章小结 44
致谢 45
参考文献 1
1 绪论
在当今社会计算机技术互联网技术的的迅猛发展及相关应用的推广下,我们所处的现代社会己经迈进信息化网络化数据化的时代。人们每天都接收并制造着大量的数据和信息,不同用户及商业活动带来的数据量也呈爆炸性增长。所以,当今社会被各类不同数据充斥着,又与我们息息相关。
根据互联网数据中心(Internet Data Center)IDC预测,当今社会只需十八个月就能让产生的各类数据量扩增一倍。2014年当年就新增了4.1ZB的数据量,可见整个世界数据量的增速是怎样的。如此庞大的数据量来自社会活动、商业运用等各个方面。例如各类用于监测的传感器、社交网络公司、用户个人的行为记录、汽车的导航等。如同以上正在飞速产生的各式各样的数据正在迅速填充着整个网络,毋庸置疑现今人类社会已经迈向了大数据的时代。
1.1 课题背景及意义
大数据这个词,其实早在1995年就由有着数据仓库之父称号的毕耳•恩门提出了。不难发现,大数据、互联网和云计算等技术紧密交织在一起。移动互联网、物联网以及云计算等技术的进步与大数据的发展息息相关、相互影响、相互促进。愈加与大海相似,鱼群就是数据集合,而所有的数据和存储设备,采集设备,处理设备代表了互联网的数据海洋,而相关从业者例如开发人员就是渔夫。
大数据的定义是指,实现储存、搜索、分析、共享以及可视化在技术上具有难度的大型数据集合。总体而言,大数据的数据量己经是传统数据仓库处理能力及容量所不能应对的了。何况其数量还在以火箭般的速度激增,例如,遥测卫星工作一小时就会带来20TB的采样数据,现今较为传统的具有组织性的企业级数据仓库的容量也就处于PB尺度,而当今大数据的所占空间则轻松达到为 EB尺度,就目前的发展速度来看,不久就会达到ZB尺度。
巨额容量仅仅是第一个挑战,基于大数据的相关分析技术还面临着所应对数据内容和数据结构的不可预测及不稳定性。这就要求这些大数据分析技术不仅要能处理尺度上的“大”,还需要处理内容上的“乱”,就是要能像筛子一样筛掉低目标意义或低有效性、低可用价值的“垃圾”,从而将其中之宝藏发掘出来。大数据在处理上的核心思路就是从巨额的散乱的信息中筛选并分析出有价值的内容。 基于hadoop的数据挖掘算法研究与实现(2):http://www.youerw.com/jisuanji/lunwen_39778.html