毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

大数据开发环境的搭建与优化研究(2)

时间:2018-10-18 11:27来源:毕业论文
1.2大数据研究的意义 随着网络的发展飞速,使用网络的人越来越多,与此同时在网络中产生的数据也就越来越多。经过时间的积累数据量变得越来越大,


1.2大数据研究的意义
随着网络的发展飞速,使用网络的人越来越多,与此同时在网络中产生的数据也就越来越多。经过时间的积累数据量变得越来越大,由于传统数据处理方式,处理小量数据尚可,当面对大量的数据信息变无力了。这是的数据处理变慢,然而大数据的出现是数据处理变得轻松快捷,能够轻松的从大量的数据中找到我们所需要的信息。这种方式如今被应用到金融、医药、科研等中药领域,所以大数据的开发对我们有重要的意义。
2.大数据开发技术分析
2.1分布式系统
GFS与传统的分布式文件系统仍有很多同的地方,如可伸缩性、可靠性等。但是GFS与传统文件系统不同与成功之处在于:通过数据分块、追加更新等方式实现了海量数据的高效存储。
2.2分布式数据系统
大数据开发平台有流式处理和批处理两种处理模式。流式处理是实时处理,批处理非实时处理。流式处理是将数据视为流的形式,数据形成数据流,实时的处理并且返回所要的数据形式。大数据实时处理是一个极其有挑战的工作,目前有代表性的处理系统有:Storm、S4等。
对于某些计算,由于输入数据量的巨大,想在可接受的时间内完成这些运算,只有将这些计算分布在许多主机上。对于处理并行计算、分发数据,使得原本复杂的运算变得容易处理。这是非实时处理的一种方式,代表系统有Hadoop。Hadoop的变成原理是MapReduce。
MapReduce编程模型的原理:将大量的数据分布在不同的计算机上,通过map处理将处理后的数据提以键值对的方式发送到reduce中,在发送的过程中会将键的数值相同的数据归集在一起最后经过reduce的处理得到人们想要的数据。
3.大数据开发环境框架介绍
3.1HDFS系统框架
HDFS是一个运行在普通硬件上的分布式系统,采用Master/Slave框架,由一个主节点Namenode多个从节点Datanode组成,Namenode负责对集群系统元数据的管理工作,Datanode的地址管理。Datanode负责对数据的存储进行管理。
HDFS系统中文件的目录结构独立存储在NameNode上,对数据来说被拆分成若干Block,NameNode负责关闭、打开和重命名数据文件和目录等操作,建立Block和DataNode节点的映射关系。客户机的读写需求是由DataNode节点响应完成的,同时DataNode节点中的Block是在NameNode的统一指挥下创建、删除和复制。 大数据开发环境的搭建与优化研究(2):http://www.youerw.com/jisuanji/lunwen_24330.html
------分隔线----------------------------
推荐内容