mapreduce的shuffle,partition,combine

红太狼 2021-06-24 14:00 440阅读 0赞

shuffle:

  是描述着数据从map端传输到reduce端的过程,而且我们知道的是hadoop的集群环境中,大部分map task和reduce task是在不同的node上执行,主要的开销是网络开销和磁盘IO开销,因此shuffle的主要作用相当于是

  1.完整的从map task端传输到reduce task端。

  2.跨节点传输数据时,尽可能减少对带宽的消耗.(注意是reduce执行的时候去拉取map端的结果)

  3.减少磁盘IO开销对task的影响。

shuffle的详细:http://webcache.googleusercontent.com/search?q=cache:MP\_qIMfp1N4J:langyu.iteye.com/blog/992916+mapreduce+shuffle+partition%E4%BD%9C%E7%94%A8&cd=1&hl=zh-CN&ct=clnk&gl=cn

Partition:
Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:

1)均衡负载,尽量的将工作均匀的分配给不同的reduce。

2)效率,分配速度一定要快。

  重定向mapper的输出,根据key来决定mapper应该讲k,v对输出给谁,默认采用的hash key来实现,也可以根据自己的需要来实现。

partition的更多参考:http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/

combiner:

  相当于本地的reduce,在分发mapper的结果之前做一下本地的reduce,比如说wordcount程序,单词“a”出现了500次,存储并洗牌一次(“a”,500)键值对比许多次(“a”,1)要高效。

发表评论

表情:
评论列表 (有 0 条评论,440人围观)

还没有评论,来说两句吧...

相关阅读

    相关 MapReduce

    摘要 MapReduce是一个编程模式,它是与处理/产生海量数据集的实现相关。用户指定一个map函数,通过这个map函数处理key/value(键/值)对,并且产生一系列

    相关 MapReduce

    MapReduce简介 1. MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。 2. MR有两个阶段组成:Ma