毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

基于hadoop的数据挖掘算法研究与实现(4)

时间:2019-09-25 12:42来源:毕业论文
本文包括五章的内容: 第一章绪论。本章主要介绍论文的研究背景及意义,介绍了大数据的背景及大数据时代云计算的发展状况,提出了本文研究的主要内


本文包括五章的内容:
第一章绪论。本章主要介绍论文的研究背景及意义,介绍了大数据的背景及大数据时代云计算的发展状况,提出了本文研究的主要内容。
第二章开源云平台Hadoop及数据挖掘概述。本章首先介绍Hadoop生态系统的组成,对Hadoop的核心技术架构HDFS、 MapReduce和HBase的体系及其相关特性进行深入的讨论分析。阐释什么是数据挖掘,包括其中的分类及聚类的概念及主要算法。
第三章基于Hadoop的数据挖掘系统的设计。本章通过搭建Hadoop平台,构建试验环境,并对集群进行了稳定性测试,为今后的实验打下基础。
第四章Naive Bayes分类算法的研究与优化。本章介绍了在Hadoop平台上的分类算法的执行过程,并详细描述了Naive Bayes分类算法的特性,及其相应的并行策略,并成功地将其移植到Hadoop平台,之后就算法优化的对比结论展开分析。
第五章K-Means聚类算法的研究与优化。本章介绍了在Hadoop平台上聚类算法的执行过程,并以K-Means算法为例,详细地解读了聚类算法的设计及实现,其中介绍了K-Means算法的特性及其并行策略,并成功地将其移植到Hadoop并行计算平台,之后就算法优化的对比结论展开分析。

2    Hadoop及数据挖掘概述
2.1    Hadoop云计算平台
2.1.1    Hadoop生态圈架构
在2005年夏天,Jeffrey Dean和Sanjay Ghemawat提出了MapReduce的框架模型,意着Google的大型数据处理系统的正式公开。当年秋天,在这篇论文的启发下,Hadoop作为lucence子项目Nutch的一个部分被Apache正式引入。
Hadoop是非常优秀的大数据解决方案,它可以对PB尺度下的散乱信息进行处理和分析,可以被开发者利用多种工具达成很多目的,例如数据挖掘。Hadoop依托Google公司的的MapReduce和分布式文件系统技术,可配置在随处可见的普通的小型计算机以及服务器上。即使是没有经验的用户也可以很方便的在Hadoop上使用其提供的分布式编程来处理大量的数据,在有需要的时候还可以方便的对载体硬件实施升级工作。还可以处于无人值守时处理多种故障,包含的工具能进行排错、修复,适用性大大增加。
这些解决方案都是针对巨额数据的,花样繁多,我们可以用盆洗脸用盆刷牙,用导弹发射卫星用导弹点烟,各有各的用途和使用环境,寻找到合适的才是最重要的。 基于hadoop的数据挖掘算法研究与实现(4):http://www.youerw.com/jisuanji/lunwen_39778.html
------分隔线----------------------------
推荐内容