Spark RDD 机制理解吗？RDD的五大属性，RDD、DataFrame、DataSet三者的关系，RDD和DataFrame的区别，Spark有哪些分区器【重要】...

ゞ浴缸里的玫瑰 2023-10-14 11:51 1阅读 0赞

**一、Spark RDD机制：【重要】**

RDD（Resilient Distributed DataSet）叫做弹性分布式数据集，是Spark中最基本的数据处理模型，也是Spark进行高并发和高吞吐的数据处理三大数据结构之一，所有的算子都是基于RDD来执行的，不同的场景有不同的RDD实现类，他们互相之间可以进行转换，来实现特定的需求。RDD代表一个弹性、可分区、不可变、里面的元素可并行计算的集合。

**➢ 弹性：**

*   **存储的弹性：**  内存与磁盘可以自动切换；RDD的数据默认存放在内存中，当内存资源不足时，spark会自动将RDD数据写入磁盘。
 *   **容错的弹性：**  数据丢失可以自动恢复；RDD可以通过自己的数据来源重新计算该partition
 *   **计算的弹性：**  计算出错的话，可以进行重试机制；
 *   **分片的弹性：**  可根据需要重新进行分片

**➢  分布式：**  数据存储在大数据集群不同节点上；

**➢  数据集：**  RDD封装了计算逻辑，并不会保存数据；

**➢  不可变：**  RDD封装了计算逻辑，是不可以改变的，想要改变，只能产生新的RDD，在新的RDD里面封装计算逻辑；

**➢  可分区、并行计算：**  RDD在逻辑上是一个HDFS文件，在抽象上是一种元素集合。它是可以被分区的，每个分区分布在集群中的不同结点上，从而让RDD中的数据可以被并行操作。

>  Spark   计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于   处理不同的应用场景。三大数据结构分别是： 
> 
>  ➢   RDD :   弹性分布式数据集 
> 
>  ➢   累加器：分布式共享   只写   变量 
> 
>  ➢   广播变量：分布式共享   只读   变量

**二、RDD的五大属性**

* Internally, each RDD is characterized by five main properties:
     *
     *  - A list of partitions
     *  - A function for computing each split
     *  - A list of dependencies on other RDDs
     *  - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
     *  - Optionally, a list of preferred locations to compute each split on (e.g. block locations for
     *    an HDFS file)

**1.分区列表：**  RDD数据结构中存在分区列表，用于执行任务时并行计算，是实现分布式计算的重要属性。

protected def  **getPartitions**  : Array\[Partition\]

**2.分区计算函数：**  Spark在计算时，会使用分区函数对每一个分区进行计算。

def  **compute**  (split: Partition, context: TaskContext): Iterator\[T\]

**3.RDD之间的依赖关系：**  RDD是计算模型的封装，当需求中需要将多个计算模型进行组合时，就需要将多个RDD建立依赖关系。

protected def  **getDependencies**  : Seq\[Dependency\[\_\]\] = deps

**4.分区器（可选）：**  当数据为KV类型数据时，可以通过设定分区器自定义数据的分区。

[ @transient ][_transient] val  **partitioner**  : Option\[Partitioner\] = None

**5.首选位置（可选）：**  计算数据时，可以根据计算结点的状态选择不同的结点位置进行计算。

protected def  **getPreferredLocations**  (split: Partition): Seq\[String\] = Nil

**三、RDD、DataFrame、DataSet三者的关系**

早期SparkSQL为了简化RDD的开发，提高开发效率，对SparkCore进行了一些封装，提供了2个编程抽象，分别是DataFrame和DataSet。

这三个数据结构分别计算后，都可以给出相同的结果，不同的是它们的执行效率和执行方式。

**三者的共性：**

*  RDD、DataFrame、DataSet都是Spark平台下的弹性分布式数据集，为处理大型数据提供便利。
 *  三者都有惰性机制，在进行创建、转换等操作时不会立即执行，只有触发行动算子时才会执行。
 *  在对DataFrame和DataSet进行操作时都需要导入隐式转换的包“import spark.implicits”
 *  三者都会根据Spark的内存情况自动缓存运算，所以即使数据量很大，也不用担心内存溢出。
 *  DataFrame和DataSet均可使用模式匹配获取各个字段的值和类型。
 *  三者都有partition的概念、以及有许多共同的函数，如filter、排序等。

**三者之间的互相转换：**

![up-3cb5f0adbf86a3cd9483261acaefc2f3c62.png][]

**四、RDD和DataFrame的区别**

RDD和DataFrame均是Spark平台对数据的一种抽象，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。

DataFrame与RDD的主要区别在于，  **DataFrame关心数据的结构，RDD不关心数据的结构，只关心数据是什么。**  比如给个数据1，RDD不关心1代表什么意思，只关心1、2、3就够了，而DataFrame更关心1所代表的含义，比如它是个年龄age，那么在SQL查询的时候就会方便很多，  **它可以利用已知的结构信息来提升执行的效率、减少数据的读取，所以DataFrame可以简化RDD的开发，提高开发效率。**

**五、Spark有哪些分区器？**

**spark**   默认是提供了两种分区器 ,  **HashPartitioner和RangePartitioner**

但是有的时候不能满足我们实际的需求,这个时候我们可以自定义一个分区器 。

**自定义分区器流程：**

（1）继承Partitioner（2）重写方法（numPartitions、getPartition）

[_transient]: https://my.oschina.net/u/3683339
[up-3cb5f0adbf86a3cd9483261acaefc2f3c62.png]: https://oscimg.oschina.net/oscnet/up-3cb5f0adbf86a3cd9483261acaefc2f3c62.png