Spark的架构原理

傷城~ 2021-09-14 03:56 477阅读 0赞

一、相关名词解释

  1. DriverDriverSpark集群的节点之一,我们编写的Spark程序就在Driver上,由Driver进程执行。
  2. MasterMaster是个进程,主要负责资源的调度和分配,还有集群的监控,等等职责。
  3. WorkerWorker是个进程,主要负责两个方面,一个是用自己的内存存储RDD的某个或某些partition;另一个,是启动其他进程和线程,对RDD上的partition进行版型的处理和计算。
  4. ExecutorTask:负责执行,对RDDpartition进行并行的计算。也就是执行我们队RDD的定义,比如:mapflatMapreduce等算子操作。

二、执行流程

  1. 1Driver进程启动之后,会做一些初始化的操作,在这个过程中,就会发送请求到Master上,进行Spark应用程序的注册。
  2. 2Master在接收到了Spark应用程序的注册申请之后,会发送请求给Worker,进行资源的调度和分配。
  3. 3Worker接收到Master的请求之后,会为Spark应用启动Executor
  4. 4Executor启动之后,会向Driver进行反注册。这样,Driver就知道,哪些Executor是为它进行服务的了。
  5. 5Driver注册了一些Executor之后,就可以开始正式执行我们的Spark应用程序了。首先第一步就是,创建初始的RDD,读取数据源。HDFS文件内容读取到多个worker节点上,形成内存中的分布式数据集,也就是初始RDD
  6. 6Driver会根据我们对RDD定义的操作,提交一大堆taskExecutor上。
  7. 7Executor接收到task之后,会启动多个线程来执行task
  8. 8task就会对RDDpartition数据执行指定的算子操作,形成新的RDDpartition

发表评论

表情:
评论列表 (有 0 条评论,477人围观)

还没有评论,来说两句吧...

相关阅读

    相关 Spark架构原理

    一、相关名词解释        Driver:Driver是Spark集群的节点之一,我们编写的Spark程序就在Driver上,由Driver进程执行。