(1)Client。Client节点上运行了Map/Reduce程序和JobClient,负责提交Map/Reduce作业和为用户处理结果。
(2)JobTracker。JobTracker负责协调Map/Reduce作业的执行,是Map/Reduce运行框架里面的主控节点。其功能包含了制定Map/Reduce作业的执行计划、分配任务的Map和Reduce执行节点、监控任务的执行、重新分配是失败的任务等。每个Hadoop集群只有一个JobTracker。
(3)TaskTracker。它主要负责执行由JobTracker分配的Map或Reduce任务,系统中可以有多个Map TaskTracker或者Reduce TaskTracker。
2.1.4 Hive的介绍
Hive是一个建立在Hadoop基础之上的数据仓库[13],它设计的目的是让熟练掌握SQL语言,但不具备Java编程能力的数据分析人员,能对存储好的结构化数据进行数据查询和处理操作,其中Hive定义的语言为HiveQL,类似于SQL。在Hive中,数据是以库(Database)、表(Table)、分区(Partition)和桶(Bucket)的层次进行组织的,而数据的这些组织形式信息成为元数据,Hive的元数据都集中存放在元数据库(Metastore)中,Hive采用关系数据库(MySQL或Derby)存储元数据
基于Hadoop的大数据分析研究与系统开发(4):http://www.youerw.com/jisuanji/lunwen_20548.html