元数据与数据治理|Spark初探(第四篇) 迈不过友情╰ 2022-03-29 12:52 241阅读 0赞 ** 文章进行了部分简化(元数据与数据治理系列文章)** **认识Spark** Spark是一个开源的分布式计算系统,它的目的是使得数据分析更快——写起来和运行起来都很快。 Spark 是基于内存计算的大数据并行计算框架。Spark 基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark 部署在大量廉价硬件之上,形成集群。 **Spark发展史** 2009年,Spark诞生于加州大学伯克利分校AMPLab 2013年6月,Spark成为Apache孵化项目 2014年2月,Spark取代MapReduce成为Apache顶级项目 **Spark生态系统** Spark拥有一套生态系统,叫做伯克利数据分析栈(BDAS) **为什么比MapReduce快** Spark官网上如是说:Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk. 那Spark究竟是为什么比MapReduce快呢? 1. MapReduce通常会将中间结果放到HDFS上,Spark 是基于内存计算的大数据并行计算框架,中间结果在内存中,对于迭代运算效率比较高。 2. MapReduce消耗了大量时间去排序,而有些场景不需要去排序,Spark可以避免不要的排序带来的开销。 3. Spark能够将要执行的操作做成一张有向无环图
还没有评论,来说两句吧...