请选择 进入手机版 | 继续访问电脑版

好程序员-千锋教育旗下高端IT职业教育品牌

400-811-9990
我的账户
好程序员

专注高端IT职业培训

亲爱的猿猿,欢迎!

已有账号,请

如尚未注册?

[BigData] 好程序员大数据培训分享MAPREDUCE

[复制链接]
叶子老师 发表于 2019-8-22 14:16:22 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
  好程序员大数据培训分享MAPREDUCE,需求:统计大量的文本文件中的单词出现的次数
- 1)整个运算需要分阶段
        - 阶段一:并行局部运算
        - 阶段二 :汇总处理,不同的阶段需要开发不同的程序
- 2)阶段之间的调用
- 3)业务程序(task程序)如何并发到集群并启动程序
- 4)如何监控task程序的运行状态,如何处理异常
- ::这些问题是开发分布式程序都会面临的问题,完全可以封装成框架::
MR        的结构
- 一个完整的MapReduce运行时有三类实例进程:
- 1MRAppMaster : 负责整个程序的过程调度和状态调度
- 2mapTask:负责map阶段的整个数据处理流程
- 3ReduceTask:负责reduce阶段的整个数据处理流程
MR设计框架
::MAPERDUCE详细框架::
                - 1)资源如何分发? ::放到HDFS:::中不能由客户端发送,如果配置1000台机器,也不能做pipeline,所以,可以把jar放在HDFS中的一个目录下。
                - 2)虽然有上千台机器,现在job只需要20台机器即可完成,由谁决定是哪20台机器?::ResourceManager:: 作为master
                - 3)worker--NODEMANAGER,执行应用程序,监控应用程序的资源使用情况(cpu,磁盘,网络,硬盘)并且向调度器ResourceManager汇报
![](MAPREDUCE/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202018-09-19%20%E4%B8%8B%E5%8D%889.27.42.png)
::作业提交流程::
- 1)客户端提交作业给resourcemanager
- 2resourcemanager返回jobid,存储路径path信息
- 3)客户端将job.jar  job.split(确定需要运行多少task)、job.splitinfo等资源上传到HDFS的存储路径
- 4)上传到hdfs完成后,客户端通知resourcemanager启动job
- 5resourcemanagerjob加入到job*等待队列*,然后nodemanager启动container,将资源下载到container内,向客户端发出请求启动master
- 6)Appmasterresourcemanager请求maptask的资
- 7resourcemanager分配资源,从hdfs下载jarcontainer中,master启动maptask,通过心跳机制,检查job.split
- 8maptask执行完成,通知Appmaster,释放maptask资源。
## 分片机制
::如何确定需要运行多少task(并行度)::
![](MAPREDUCE/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202018-09-20%20%E4%B8%8A%E5%8D%882.30.10.png)
- 决定需要多大的并行度
        - map阶段并行度:客户端首先查看一下待处理数据目录下的数据量
        /data/a.txt 1G
        /data/b.txt  800M
        -  循环遍历:对每个文件看文件有多少个block,将block数量累加到计数器   
        - 返回一任务规划描述文件:job.split
                                                                - [ ] split0:         /data/a.txt                 0-128M
                                                                - [ ] split1:        /data/a.txtx         128-256M
                                                                ..
                                                                - [ ] split8:        /data/b.txt                 0-128M
        写入HDFS
                                                               
        - 分片和分块不同:
                - 分片是逻辑概念,给task一个数据处理的范围
                - 存在冗余(10%),偏移量和数据大小
- 特性:移动计算(jar包中封装的计算)而不是移动数据
编写MR程序的步骤:
1、用户编写程序分为三个部分:MapperReducerDriver
2Mapper的输入数据是kv对的形式(数据类型可自定义)
3Mapper的输出数据是kv对的形式(数据类型可自定义)
4Mapper中的业务逻辑写在map()方法中
5Map()方法对每一对kv值调用一次
6Reducer的输入数据是kv对的形式(数据类型可自定义)
7Reducer的输出数据是kv对的形式(数据类型可自定义)
8Reducer中的业务逻辑写在reduce()方法中
9ReduceTask进程对每一组相同的key<k,v>调用一次reduce()方法
10、用户自定义的MapperReducer类都要继承各自的父类
11、整个程序需要一个Driver来进行提交,提交是一个描述了各种必要信息的job对象
- 案例:wordcount
- 需求:有一批数据文件(TB或者PB级别的数据),如何统计这些文件中的单词出现次数
好程序员大数据培训官网:http://www.goodprogrammer.org/

精彩内容,一键分享给更多人!
回复

使用道具 举报

您需要登录后才可以回帖

本版积分规则

关注我们
好程序员
千锋好程序员

北京校区(总部):北京市海淀区宝盛北里西区28号中关村智诚科创大厦

深圳西部硅谷校区:深圳市宝安区宝安大道5010号深圳西部硅谷B座A区605-619

杭州龙驰智慧谷校区:浙江省杭州市下沙经济技术开发区元成路199号龙驰智慧谷B座7层

郑州校区:郑州市二七区航海中路60号海为科技园C区10层、12层

Copyright 2007-2019 北京千锋互联科技有限公司 .All Right

京ICP备12003911号-5 京公安网11010802011455号

请您保持通讯畅通1对1咨询马上开启