HADOOP基于大数据的网上旅游线路推荐模型构建(5)

时间:2022-04-10 22:45 来源:毕业论文作者:毕业论文点击:次

图1 Hadoop核心设计

Figure 1 Hadoop’s core design

HDFS的架构如图2所示。HDFS架构采用主从架构（master/slave）。一个典型的HDFS集群包含一个NameNode节点和多个DataNode节点。NameNode节点负责整个HDFS文件系统中的文件的元数据的保管和管理，集群中通常只有一台机器上运行NameNode实例，DataNode节点保存文件中的数据，集群中的机器分别运行一个DataNode实例。在HDFS中，NameNode节点被称为名称节点，DataNode节点被称为数据节点。DataNode节点通过心跳机制与NameNode节点进行定时的通信。

Hadoop的核心是MapReduce，而MapReduce的核心又在于map和reduce函数。它们是交给用户实现的，这两个函数定义了任务本身。Map函数：接受一个键值对（key-value pair），产生一组中间键值对。Map/Reduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。 Reduce函数：接受一个键，以及相关的一组值（例如上图中Shuffling后的结果），将这组值进行合并产生一组规模更小的值（通常只有一个或零个值）后的结果）但是，Map/Reduce并不是万能的，适用于Map/Reduce计算有先提条件：（1）待处理的数据集可以分解成许多小的数据集；（2）而且每一个小数据集都可以完全并行地进行处理；若不满足以上两条中的任意一条，则不适合适用Map/Reduce模式。

（3）Hadoop1。x和Hadoop2。x对比分析

从Hadoop整体框架来说，Hadoop1。0即第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中HDFS由一个NameNode和多个DateNode组成，MapReduce由一个JobTracker和多个TaskTracker组成。Hadoop2。0即第二代Hadoop为克服Hadoop1。0中的不足：针对Hadoop1。0单NameNode制约HDFS的扩展性问题，提出HDFS Federation，它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展，同时彻底解决了NameNode单点故障问题；针对Hadoop1。0中的MapReduce在扩展性和多框架支持等方面的不足，它将JobTracker中的资源管理和作业控制分开，分别由ResourceManager（负责所有应用程序的资源分配）和ApplicationMaster（负责管理一个应用程序）实现，即引入了资源管理框架Yarn。同时Yarn作为Hadoop2。0中的资源管理系统，它是一个通用的资源管理模块，可为各类应用程序进行资源管理和调度，不仅限于MapReduce一种框架，也可以为其他框架使用，如Tez、Spark、Storm等。图3 Hadoop1。x和Hadoop2。x架构图Figure 3 Hadoop1。x and Hadoop2。x architecture diagram文献综述

从MapReduce计算框架来说，MapReduce1。0计算框架主要由三部分组成：编程模型、数据处理引擎和运行时环境。它的基本编程模型是将问题抽象成Map和Reduce两个阶段，其中Map阶段将输入的数据解析成key/value，迭代调用map()函数处理后，再以key/value的形式输出到本地目录，Reduce阶段将key相同的value进行规约处理，并将最终结果写到HDFS上；它的数据处理引擎由MapTask和ReduceTask组成，分别负责Map阶段逻辑和Reduce阶段的逻辑处理；它的运行时环境由一个JobTracker和若干个TaskTracker两类服务组成，其中JobTracker负责资源管理和所有作业的控制，TaskTracker负责接收来自JobTracker的命令并执行它。MapReducer2。0具有与MRv相同的编程模型和数据处理引擎，唯一不同的是运行时环境。MRv2是在MRv1基础上经加工之后，运行于资源管理框架Yarn之上的计算框架MapReduce。它的运行时环境不再由JobTracker和TaskTracker等服务组成，而是变为通用资源管理系统Yarn和作业控制进程ApplicationMaster，其中Yarn负责资源管理的调度而ApplicationMaster负责作业的管理。

2。1。2Zookeeper搭建高可用集群技术分析 (责任编辑：qin)

HADOOP基于大数据的网上旅游线路推荐模型构建(5)

时间:2022-04-10 22:45 来源:毕业论文 作者:毕业论文 点击:次

时间:2022-04-10 22:45 来源:毕业论文作者:毕业论文点击:次