mapreduce的shuffle，partition，combine

红太狼 2021-06-24 14:00 440阅读 0赞

shuffle：

　　是描述着数据从map端传输到reduce端的过程，而且我们知道的是hadoop的集群环境中，大部分map task和reduce task是在不同的node上执行，主要的开销是网络开销和磁盘IO开销，因此shuffle的主要作用相当于是

　　1.完整的从map task端传输到reduce task端。

　　2.跨节点传输数据时，尽可能减少对带宽的消耗.（注意是reduce执行的时候去拉取map端的结果）

　　3.减少磁盘IO开销对task的影响。

shuffle的详细：http://webcache.googleusercontent.com/search?q=cache:MP\_qIMfp1N4J:langyu.iteye.com/blog/992916+mapreduce+shuffle+partition%E4%BD%9C%E7%94%A8&cd=1&hl=zh-CN&ct=clnk&gl=cn

Partition：
Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求：

1）均衡负载，尽量的将工作均匀的分配给不同的reduce。

2）效率，分配速度一定要快。

　　重定向mapper的输出，根据key来决定mapper应该讲k，v对输出给谁，默认采用的hash key来实现，也可以根据自己的需要来实现。

partition的更多参考：http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/

combiner：

　　相当于本地的reduce，在分发mapper的结果之前做一下本地的reduce，比如说wordcount程序，单词“a”出现了500次，存储并洗牌一次（“a”，500）键值对比许多次（“a”，1）要高效。

发表评论取消回复

表情：

评论列表（有 0 条评论，440人围观）

还没有评论，来说两句吧...

相关阅读

相关 Hadoop的MapReduce

文章目录介绍工作原理编程规范 InputFormat数据输入切片：

「爱情、让人受尽委屈。」/ 2023年05月22日 05:59/ 0 赞/ 134 阅读

相关 mapreduce的知识

winutils的github： https://github.com/SirMin/winutils https://github.com/cdarl

╰+攻爆jí腚メ/ 2022年12月12日 15:22/ 0 赞/ 199 阅读

相关 mapreduce

job： setNumReduces，设置reduce task数目； waitForCompletion-》submit提交任务 con

灰太狼/ 2022年10月18日 12:52/ 0 赞/ 282 阅读

相关 MapReduce

摘要 MapReduce是一个编程模式，它是与处理/产生海量数据集的实现相关。用户指定一个map函数，通过这个map函数处理key/value（键/值）对，并且产生一系列

电玩女神/ 2022年09月17日 11:27/ 0 赞/ 313 阅读

相关 MapReduce 示例：减少 Hadoop MapReduce 中的侧连接

> 摘要：在排序和reducer 阶段，reduce 侧连接过程会产生巨大的网络I/O 流量，在这个阶段，相同键的值被聚集在一起。本文分享自华为云社区《[MapReduce

爱被打了一巴掌/ 2022年09月11日 13:28/ 0 赞/ 198 阅读

相关 MapReduce: 提高MapReduce性能的七点建议[译]

Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统，并且它们运行着各式各样用户的代

曾经终败给现在/ 2022年08月14日 01:50/ 0 赞/ 276 阅读

相关 MapReduce

MapReduce 的具体工作过程 Algorithm Sorting Searching indexing

心已赠人/ 2022年08月04日 12:57/ 0 赞/ 288 阅读

相关 MapReduce理解-深入理解MapReduce

　前面的几篇博客主要介绍了[Hadoop][]的存储[HDFS][]，接下来几篇博客主要介绍Hadoop的计算框架MapReduce。本片博客主要讲解MapReduce框架的具

心已赠人/ 2022年07月12日 06:59/ 0 赞/ 521 阅读

相关 MapReduce2和MapReduce1的架构设计对比

MapReduce2 架构设计： 1:用户向YARN中提交应用程序，其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序

朴灿烈づ我的快乐病毒、/ 2022年06月07日 07:41/ 0 赞/ 289 阅读

相关 MapReduce

MapReduce简介 1. MapReduce是一种分布式计算模型，是Google提出的，主要用于搜索领域，解决海量数据的计算问题。 2. MR有两个阶段组成：Ma

忘是亡心i/ 2022年03月01日 15:42/ 0 赞/ 403 阅读