Spark之coalesce合并分区源码

r囧r小猫 2022-12-30 10:38 165阅读 0赞

# Spark之coalesce合并分区源码 #

Coalesce算子包括：配置执行Shuffle和配置不执行Shuffle两种方式。

## 1、不执行Shuffle方式 ##

**1）函数签名：**

def coalesce(numPartitions: Int, shuffle: Boolean = false,  //默认false不执行shuffle
            partitionCoalescer: Option[PartitionCoalescer] = Option.empty)
            (implicit ord: Ordering[T] = null) : RDD[T]

**2）功能说明：缩减分区数，用于大数据集过滤后，提高小数据集的执行效率。**  
**3）需求：4个分区合并为2个分区**  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80Mjc5NjQwMw_size_16_color_FFFFFF_t_70]

4）分区源码  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80Mjc5NjQwMw_size_16_color_FFFFFF_t_70 1]

## 2.repartition()重新分区（执行Shuffle） ##

**1）函数签名：**

def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]

**2）功能说明**

> **该操作内部其实执行的是coalesce操作**，参数shuffle的默认值为true。无论是将分区数多的RDD转换为分区数少的RDD，还是将分区数少的RDD转换为分区数多的RDD，repartition操作都可以完成，因为无论如何都会经shuffle过程。

**3）需求说明：创建一个4个分区的RDD，对其重新分区。**  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80Mjc5NjQwMw_size_16_color_FFFFFF_t_70 2]

[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80Mjc5NjQwMw_size_16_color_FFFFFF_t_70]: /images/20221120/7c32bcfd5d55451081aa45ce5313e9ba.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80Mjc5NjQwMw_size_16_color_FFFFFF_t_70 1]: /images/20221120/8493ccac6a9647edb73e71a71d2d3d88.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80Mjc5NjQwMw_size_16_color_FFFFFF_t_70 2]: /images/20221120/8577354a36434bae932b2fa184f6c664.png