一、相关名词解释

   Driver：Driver是Spark集群的节点之一，我们编写的Spark程序就在Driver上，由Driver进程执行。
   Master：Master是个进程，主要负责资源的调度和分配，还有集群的监控，等等职责。
   Worker：Worker是个进程，主要负责两个方面，一个是用自己的内存存储RDD的某个或某些partition；另一个，是启动其他进程和线程，对RDD上的partition进行版型的处理和计算。
   Executor和Task：负责执行，对RDD的partition进行并行的计算。也就是执行我们队RDD的定义，比如：map、flatMap、reduce等算子操作。

二、执行流程

    （1）Driver进程启动之后，会做一些初始化的操作，在这个过程中，就会发送请求到Master上，进行Spark应用程序的注册。
    （2）Master在接收到了Spark应用程序的注册申请之后，会发送请求给Worker，进行资源的调度和分配。
    （3）Worker接收到Master的请求之后，会为Spark应用启动Executor。
    （4）Executor启动之后，会向Driver进行反注册。这样，Driver就知道，哪些Executor是为它进行服务的了。
    （5）Driver注册了一些Executor之后，就可以开始正式执行我们的Spark应用程序了。首先第一步就是，创建初始的RDD，读取数据源。HDFS文件内容读取到多个worker节点上，形成内存中的分布式数据集，也就是初始RDD。
    （6）Driver会根据我们对RDD定义的操作，提交一大堆task去Executor上。
    （7）Executor接收到task之后，会启动多个线程来执行task。
    （8）task就会对RDD的partition数据执行指定的算子操作，形成新的RDD的partition。