毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
基于hadoop的数据挖掘算法研究与实现(4)
本文包括五章的内容:
第一章绪论。本章主要介绍论文的研究背景及意义,介绍了大数据的背景及大数据时代云计算的发展状况,提出了本文研究的主要内容。
第二章开源云平台Hadoop及数据挖掘概述。本章首先介绍Hadoop生态系统的组成,对Hadoop的核心技术架构HDFS、 MapReduce和HBase的体系及其相关特性进行深入的讨论分析。阐释什么是数据挖掘,包括其中的分类及聚类的概念及主要算法。
第三章基于Hadoop的数据挖掘系统的设计。本章通过搭建Hadoop平台,构建试验环境,并对集群进行了稳定性测试,为今后的实验打下基础。
第四章Naive Bayes分类算法的研究与优化。本章介绍了在Hadoop平台上的分类算法的执行过程,并详细描述了Naive Bayes分类算法的特性,及其相应的并行策略,并成功地将其移植到Hadoop平台,之后就算法优化的对比结论展开分析。
第五章K-Means聚类算法的研究与优化。本章介绍了在Hadoop平台上聚类算法的执行过程,并以K-Means算法为例,详细地解读了聚类算法的设计及实现,其中介绍了K-Means算法的特性及其并行策略,并成功地将其移植到Hadoop并行计算平台,之后就算法优化的对比结论展开分析。
2 Hadoop及数据挖掘概述
2.1 Hadoop云计算平台
2.1.1 Hadoop生态圈架构
在2005年夏天,Jeffrey Dean和Sanjay Ghemawat提出了MapReduce的框架模型,意着Google的大型数据处理系统的正式公开。当年秋天,在这篇论文的启发下,Hadoop作为lucence子项目Nutch的一个部分被Apache正式引入。
Hadoop是非常优秀的大数据解决方案,它可以对PB尺度下的散乱信息进行处理和分析,可以被开发者利用多种工具达成很多目的,例如数据挖掘。Hadoop依托Google公司的的MapReduce和分布式文件系统技术,可配置在随处可见的普通的小型
计算机
以及服务器上。即使是没有经验的用户也可以很方便的在Hadoop上使用其提供的分布式编程来处理大量的数据,在有需要的时候还可以方便的对载体硬件实施升级工作。还可以处于无人值守时处理多种故障,包含的工具能进行排错、修复,适用性大大增加。
这些解决方案都是针对巨额数据的,花样繁多,我们可以用盆洗脸用盆刷牙,用导弹发射卫星用导弹点烟,各有各的用途和使用环境,寻找到合适的才是最重要的。
共4页:
上一页
1
2
3
4
下一页
上一篇:
基于云平台的web日志挖掘与研究
下一篇:
vb+sqlserver家庭理财软件设计与实现
基于Apriori算法的电影推荐
PHP+IOS的会议管理系统的设计+ER图
数据挖掘在电子商务中的应用
数据挖掘的主题标绘数据获取技术与实现
基于PageRank算法的网络数据分析
基于神经网络的验证码识别算法
基于网络的通用试题库系...
公寓空调设计任务书
10万元能开儿童乐园吗,我...
中国学术生态细节考察《...
志愿者活动的调查问卷表
神经外科重症监护病房患...
AT89C52单片机的超声波测距...
承德市事业单位档案管理...
C#学校科研管理系统的设计
医院财务风险因素分析及管理措施【2367字】
国内外图像分割技术研究现状