上文中已经详细介绍了HDFS存储机制和MapReduce程序详细的执行过程,下文进行详细介绍一个hadoop程序如何进行完整的计算。从读取数据到MapReduce计算到输出数据。整个hadoop程序计算流程如下:
(1)客户端提交一个mr的jar包给JobClient(提交方式:hadoop jar ...)。
(2) JobClient通过RPC和JobTracker进行通信,返回一个存放jar包的地址(HDFS)和jobId。