发表评论取消回复
相关阅读
相关 【Spark源码】spark-submit和Spark-class
首先从启动脚本开始看: bin/spark-submit \ --class org.apache.spark.examples.SparkPi \
相关 Java 面试系列 - 分布式缓存
1. 什么是分布式缓存 ? 传统意义上的缓存是保存在应用本身的(JVM),只有应用本身可以对缓存进行读写。在分布式系统中,将缓存抽取出来做成了缓存中间件(数据库),分布式
相关 Spark源码系列之Spark内核——Storage模块
1.Storage模块架构 Storage模块分为两部分: 1. 通信层:Storage模块的通信层通过Master/Slave模型实现的。Master和Sla
相关 Spark源码系列之Spark内核——Task运行
在详细介绍前,还是让我们先看看Task运行的流程,先有个整体的感觉: ![Center][] Executor收到序列化的Task后,先反序列化取出正常的Task,然
相关 Spark源码系列之Spark内核——Job提交
在介绍Job提交之前,我们先看下Job提交的过程: ![Center][] 看完上图之后,大家应该会有一个比较直观的了解,同时也便于对整个流程的把握。 D
相关 spark源码系列文章------shuffle模块详解
[原文链接][Link 1] 摘要: 一、Basic shuffle writer实现解析 在Executor上执行shuffle Map Task时,最终会调用shuffl
相关 Spark系列--Spark Streaming(五)DStreams输入--高级数据源之Flume
一般Spark Streaming从Kafka获取数据,进行实时计算,从Flume获取数据的项目还没接触过,在此Mark下,待需要时参考。 [Spark Streaming
相关 spark源码分析
rdd变换: textfile()加载文件:返回hadoopRDD(创建HadoopRDD之前,先将hadoopConfiguration进行广播)调用map
相关 Mapper系列五:二级缓存
1、MyBatis配置文件开启二级缓存功能 <settings> <setting name="cacheEnabled" value="true"/>
相关 Spark 源码系列(五)分布式缓存
这一章想讲一下 Spark 的缓存是如何实现的。这个 persist 方法是在 RDD 里面的,所以我们直接打开 RDD 这个类。 def persist(newLe
还没有评论,来说两句吧...