请选择 进入手机版 | 继续访问电脑版

好程序员-千锋教育旗下高端IT职业教育品牌

400-811-9990
我的账户
好程序员

专注高端IT职业培训

亲爱的猿猿,欢迎!

已有账号,请

如尚未注册?

[BigData] Hadoop的提交流程

[复制链接]
沫沫老师 发表于 2018-12-6 13:38:13 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
本帖最后由 wowo 于 2018-12-11 13:29 编辑

Hadoop如何正确提交?
    1.客户端向resourceManager发送job请求。
    2.resourceManager返回存储路径,jobId给客户端。
    3.客户端创建路径把jobId,分片信息,配置文件信息,jar文件拷贝到返回的存储路径上。
    4.客户端向resourceManager报告提交完成。
    5.resourceManager在nodeManager上启动一个容器(container),在container中执行mrappmaster进程(主管mr任务执行)。
    6.mrappmaster取得分片信息,任务的相关配置,计算job所需资源。
    7.mrappmaster向resourceManager申请资源。
    8.resourceManager准备资源,mrappmaster启动container运行mapTask。
    9.maptask进程启动之后,根据给定的数据切片范围进行数据处理,处理流程:
    1)利用客户指定的inputformat来获取recordReader读取数据,形成kv键值对。
    2)将kv传递给客户定义的mapper类的map方法,做逻辑运算,并将map方法的输出kv收集到缓存。
    10.mrappmaster监控所有的maptask进程完成之后,会根据用户指定的参数来启动相应的reduceTask进程,并告知reduceTask需要处理的数据范围。
   11.reducetask启动之后,根据appmaster告知的待处理的数据位置,从若干的maptask所在的机器上获取若干的maptask输出结果,并在本地进行一个归并排序,然后,再按照相同的key的kv为一组,调用客户自定义的reduce方法,并收集输出结果kv,然后按照用户指定的outputFormat将结果存储到外部设备。
   12.所有任务定期向mrappmaster报告任务进度,所有任务完成后,mrappmaster报告resourceManager释放资源。



精彩内容,一键分享给更多人!
回复

使用道具 举报

您需要登录后才可以回帖

本版积分规则

关注我们
好程序员
千锋好程序员

北京校区(总部):北京市海淀区宝盛北里西区28号中关村智诚科创大厦

深圳西部硅谷校区:深圳市宝安区宝安大道5010号深圳西部硅谷B座A区605-619

杭州龙驰智慧谷校区:浙江省杭州市下沙经济技术开发区元成路199号龙驰智慧谷B座7层

郑州校区:郑州市二七区航海中路60号海为科技园C区10层、12层

Copyright 2007-2019 北京千锋互联科技有限公司 .All Right

京ICP备12003911号-5 京公安网11010802011455号

请您保持通讯畅通1对1咨询马上开启