spark中算子详解：aggregateByKey

ゝ一世哀愁。 2022-03-30 03:22 339阅读 0赞

[https://blog.csdn.net/jiaotongqu6470/article/details/78457966][https_blog.csdn.net_jiaotongqu6470_article_details_78457966]

通过scala集合以并行化方式创建一个RDD

> scala> val pairRdd = sc.parallelize(List(("cat",2),("cat",5),("mouse",4),("cat",12),("dog",12),("mouse",2)),2)

pairRdd 这个RDD有两个区，一个区中存放的是：

> ("cat",2),("cat",5),("mouse",4)

另一个分区中存放的是：

> ("cat",12),("dog",12),("mouse",2)

然后，执行下面的语句

> scala > pairRdd.aggregateByKey(100)(math.max(\_ , \_),  \_ + \_ ).collect

结果：

> res0: Array\[(String,Int)\] = Array((dog,100),(cat,200),(mouse,200)

下面是以上语句执行的原理详解：

aggregateByKey的意思是：按照key进行聚合

**第一步：将每个分区内key相同数据放到一起**

分区一

> ("cat",(2,5)),("mouse",4)

分区二

> ("cat",12),("dog",12),("mouse",2)

**第二步：局部求最大值**

对每个分区应用传入的第一个函数，math.max(\_ , \_)，这个函数的功能是求每个分区中每个key的最大值

这个时候要特别注意，aggregateByKe(100)(math.max(\_ , \_),\_+\_)里面的那个100，其实是个初始值

在分区一中求最大值的时候,100会被加到每个key的值中，这个时候每个分区就会变成下面的样子

分区一

> ("cat",(2,5，100)),("mouse",(4，100))

然后求最大值后变成：

> ("cat",100), ("mouse",100)

分区二

> ("cat",(12,100)),("dog",(12.100)),("mouse",(2,100))

求最大值后变成：

> ("cat",100),("dog",100),("mouse",100)

**第三步：整体聚合**

将上一步的结果进一步的合成，这个时候100不会再参与进来

最后结果就是：

> (dog,100),(cat,200),(mouse,200)  
>

[https_blog.csdn.net_jiaotongqu6470_article_details_78457966]: https://blog.csdn.net/jiaotongqu6470/article/details/78457966

发表评论取消回复

表情：

评论列表（有 0 条评论，339人围观）

还没有评论，来说两句吧...

相关阅读

相关 Spark Streaming之Transform算子详解

Transform算子解读： transform操作，应用在DStream上时，可以用于执行任意的RDD到RDD的转换操作。它可以用于实现， DStream API中所没有

Myth丶恋晨/ 2022年12月28日 12:52/ 0 赞/ 120 阅读

相关 Spark Streaming之UpdateStateByKey算子详解

流处理中，有个状态（state）的概念：无状态的：当前批次处理完之后，数据只与当前批次有关有状态的：前后批次的数据处理完之后，之间是有关系的 updateS

不念不忘少年蓝@/ 2022年12月28日 12:48/ 0 赞/ 150 阅读

相关 spark的aggregateByKey简单用法

问题：求key只出现一次的数据，如果用groupByKey或reduceByKey很容易就做出来了，现在用aggregateByKey求解一下。输入数

喜欢ヅ旅行/ 2022年06月11日 00:07/ 0 赞/ 96 阅读

相关 spark 算子

原文地址：[http://blog.csdn.net/u013980127/article/details/53046760][http_blog.csdn.net_u013

叁歲伎倆/ 2022年06月06日 10:36/ 0 赞/ 200 阅读

相关 spark中算子详解：aggregateByKey

[https://blog.csdn.net/jiaotongqu6470/article/details/78457966][https_blog.csdn.net_jiao

ゝ一世哀愁。/ 2022年03月30日 03:22/ 0 赞/ 340 阅读

相关 Spark 基本算子

前言在前面的几章内, 我们分别介绍了`Spark的安装`与`Spark Shell的基本操作`. 本章, 我们注重介绍下`Spark的基本算子`. Spark的相关权

╰+攻爆jí腚メ/ 2022年01月26日 10:11/ 0 赞/ 228 阅读

相关 Spark、RDD、算子

Spark、RDD、算子 spark特点：速度快(基于内存处理数据，有相无关图)，语言广一、Spark核心-RDD（弹性分布式数据） Rdd是逻辑概念，part

川长思鸟来/ 2021年12月03日 10:21/ 0 赞/ 402 阅读

相关 Spark提交任务详解、宽窄依赖、算子

Spark任务提交、算子、RDD宽窄依赖、stage 一、任务提交 Standalone提交在有压缩包的任意一个节点都可以提交无需配置 Standalo

以你之姓@/ 2021年12月03日 05:17/ 0 赞/ 275 阅读

相关 spark算子集合

spark算子集合文章目录 spark算子集合 1.Transformation算子 map/mapToPair

叁歲伎倆/ 2021年11月09日 10:10/ 0 赞/ 598 阅读

相关 Spark操作 aggregate、aggregateByKey 实例

1. aggregate函数将每个分区里面的元素进行聚合，然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函

向右看齐/ 2021年09月25日 01:12/ 0 赞/ 240 阅读