Mapreduce中Shuffle 与 Spark中Shuffle 的区别？

Love The Way You Lie 2021-09-25 05:14 518阅读 0赞

Spark 1.2以后默认用SortShuffleManager

不同点：

	Mapreduce Shuffle	Spark Shuffle
map端大文件的索引文件	没有	有
map端输出的文件是否有序	有序	如果启用byPass机制则不会排序，反之会排序
reduce端读取文件	直接读取map输出的大文件	先读取索引文件

启用byPass机制的触发条件：

shuffle read task数量小于spark.shuffle.sort.bypassMergeThreshold参数的值（默认是200）
不是聚合类的shuffle算子（比如repartition、join；reduceByKey是聚合类算子）

相同点：

1 都是先写到内存，达到阈值时溢出多个小文件

2 有多少个map会产生多少个大文件；上游stage有多个少task，也会产生多少个大文件；

网上经常说的spark基于内存计算，意思是可以把反复用到的数据cache到内存中，不再反复从磁盘加载到内存，所以快。spark的shuffle，中间文件也是会落磁盘的！

mr不会把多次用到的同一份数据cache到内存中，是多次从磁盘加载到内存。

发表评论取消回复

表情：

评论列表（有 0 条评论，518人围观）

还没有评论，来说两句吧...

相关阅读

相关简述 Spark中的 Shuffle

Spark中的 Shuffle 1. Hash Shuffle （一）未优化的Hash Shuffle

痛定思痛。/ 2024年04月07日 14:11/ 0 赞/ 124 阅读

相关 Spark Shuffle

1：老版本介绍，温故知新 [Spark的Shuffle的四种机制以及参数调优\_qichangjian的博客-CSDN博客\_spark.shuffle.file.buffe

迈不过友情╰/ 2023年10月01日 17:33/ 0 赞/ 93 阅读

相关 spark中shuffle运行原理

`ShuffleManager`里有四个接口，register，reader，writer和stop。核心接口则是reader和writer，当前版本reader接口

我就是我/ 2022年10月07日 02:00/ 0 赞/ 336 阅读

相关 Spark 中shuffle原理与调优

shuffle调优调优概述大多数[Spark][]作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操

今天药忘吃喽~/ 2022年06月14日 03:20/ 0 赞/ 322 阅读

相关 Spark和MapReduce的Shuffle比较。

熟悉 Hadoop MapReduce 中的 shuffle 过程，学习Spark的时候可能会按照 MapReduce 的思路去想象 Spark 的 shuffle 过程。然而

女爷i/ 2022年05月28日 00:47/ 0 赞/ 272 阅读

相关 MapReduce中Shuffle机制详解——Map端Shuffle

> 相关链接 > [MapReduce运行机制][MapReduce] > [MapReduce中Shuffle机制详解——Reduce端Shuffle链接][MapR

雨点打透心脏的1/2处/ 2022年05月27日 04:37/ 0 赞/ 273 阅读

相关 mapreduce shuffle过程

1.map端先将数据源文件切分成若干个切片，一般按照hdfs切块方式128m，最后一个允许1.1倍大小 2.每个切片开启一个maptask，调用run方法，将数据读取到sh

素颜马尾好姑娘i/ 2022年01月31日 04:06/ 0 赞/ 336 阅读

相关 Mapreduce中Shuffle 与 Spark中Shuffle 的区别？

Spark 1.2以后默认用SortShuffleManager 不同点： <table> <tbody> <tr> <td style="width:2

Love The Way You Lie/ 2021年09月25日 05:14/ 0 赞/ 519 阅读

相关 MapReduce之shuffle

从map()的输出到reduce()的输入，中间的过程被称为shuffle过程。 map side 1.在写入磁盘之前，会先写入环形缓冲区(circul

不念不忘少年蓝@/ 2021年09月14日 04:18/ 0 赞/ 440 阅读

相关十二、MapReduce中的Shuffle

Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle，本文主要介绍Shuffle的相关内容。关注专栏[《破茧成蝶——大数据篇》][Link 1]

àì夳堔傛蜴生んèń/ 2021年08月31日 19:52/ 0 赞/ 409 阅读