大数据开发环境的搭建与优化研究(2)

1.2大数据研究的意义
随着网络的发展飞速，使用网络的人越来越多，与此同时在网络中产生的数据也就越来越多。经过时间的积累数据量变得越来越大，由于传统数据处理方式，处理小量数据尚可，当面对大量的数据信息变无力了。这是的数据处理变慢，然而大数据的出现是数据处理变得轻松快捷，能够轻松的从大量的数据中找到我们所需要的信息。这种方式如今被应用到金融、医药、科研等中药领域，所以大数据的开发对我们有重要的意义。
2.大数据开发技术分析
2.1分布式系统
GFS与传统的分布式文件系统仍有很多同的地方，如可伸缩性、可靠性等。但是GFS与传统文件系统不同与成功之处在于：通过数据分块、追加更新等方式实现了海量数据的高效存储。
2.2分布式数据系统
大数据开发平台有流式处理和批处理两种处理模式。流式处理是实时处理，批处理非实时处理。流式处理是将数据视为流的形式，数据形成数据流，实时的处理并且返回所要的数据形式。大数据实时处理是一个极其有挑战的工作，目前有代表性的处理系统有：Storm、S4等。
对于某些计算，由于输入数据量的巨大，想在可接受的时间内完成这些运算，只有将这些计算分布在许多主机上。对于处理并行计算、分发数据，使得原本复杂的运算变得容易处理。这是非实时处理的一种方式，代表系统有Hadoop。Hadoop的变成原理是MapReduce。
MapReduce编程模型的原理：将大量的数据分布在不同的计算机上，通过map处理将处理后的数据提以键值对的方式发送到reduce中，在发送的过程中会将键的数值相同的数据归集在一起最后经过reduce的处理得到人们想要的数据。
3.大数据开发环境框架介绍
3.1HDFS系统框架
HDFS是一个运行在普通硬件上的分布式系统，采用Master/Slave框架，由一个主节点Namenode多个从节点Datanode组成，Namenode负责对集群系统元数据的管理工作，Datanode的地址管理。Datanode负责对数据的存储进行管理。
HDFS系统中文件的目录结构独立存储在NameNode上，对数据来说被拆分成若干Block，NameNode负责关闭、打开和重命名数据文件和目录等操作，建立Block和DataNode节点的映射关系。客户机的读写需求是由DataNode节点响应完成的，同时DataNode节点中的Block是在NameNode的统一指挥下创建、删除和复制。大数据开发环境的搭建与优化研究(2):http://www.youerw.com/jisuanji/lunwen_24330.html