走进SparkStreaming

向右看齐 2021-11-10 15:26 465阅读 0赞

Spark Streaming类似于Apache Storm，但是sparkStreaming用于微批实时处理。官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用SparkRDD如：map、reduce、join、window等进行运算。而结果也能保存在很多地方，如HDFS，数据库等。另外Spark Streaming也能和MLlib（机器学习）以及Graphx完美融合。

$640?wx\_fmt=jpeg$

One.什么是微批实时处理？

微批实时处理并不是真正的实时,只不过是因为批处理的速度较快而达到了类似实时的效果,就像坐电梯一样，我们把一批数据装入电梯，然后一批批的去输送,当然，每一批的间隔是以秒级别的,

Two.为什么需要SparkStreaming

Ease of Use(易用)
Fault Tolerance(容错)
Spark Integration(易整合到Spark体系)

Three.Strom与Spark的对比:

Strom:

实时计算模型:纯实时，来一条数据，处理一条数据.
实时计算延时度:毫秒级
吞吐量:低
事务机制:支持完善
容错性:Zookeeper,Acker,非常强
动态调整并行度:支持

Spark Streaming

a.实时计算模型:准实时（微批),对一个时间段内的数据收集起来,作为一个Rdd在处理.

b.实时计算延时度:秒级

c.吞吐量:高

d.事务机制:支持，不完善

e.容错性:Checkpoint,WAL,一般

d.动态调整并行度:不支持

Four.了解Dstream

SparkStreaming提供了一个叫做离散流或Dstream的高级抽象,它代表连续的数据流和经过各种Spark原语操作后的结果数据流。在内部实现上，DStream是一系列连续的RDDs序列。每个RDD含有一段时间间隔内的数据。

Five.strom与sparkstreaming的应用场景

Strom:

strom需要纯实时的环境,不能忍受1秒以上的延迟环境，比如银行类的金融系统
如果在实时计算中要保证事务性的话，同样还是银行，数据要非常精准,
需要最大限度的利用集群资源，也可以考虑Strom.

Sparkstreaming：

不要求纯实时，不要求强大可靠的事务机制，不要求动态调整并行度，那么可以考虑使用Spark Streaming
考虑使用Spark Streaming最主要的一个因素，应该要针对整个项目进行宏观的考虑,如果一个项目除了实时计算之外，还包括了其他业务功能.就要考虑使用Sparkstreaming.

$640?wx\_fmt=png$

发表评论取消回复

表情：

评论列表（有 0 条评论，465人围观）

还没有评论，来说两句吧...

相关阅读

相关走进Spark Streaming

[640?wx\_fmt=png][640_wx_fmt_png] **离散流DStream** ![640?wx\_fmt=png][640_wx_fmt_png]...

柔光的暖阳◎/ 2024年04月18日 11:25/ 0 赞/ 109 阅读

相关走进JVM

JVM的位置在操作系统之上，可以想象成一个软件，Java程序都运行在上面 ![在这里插入图片描述][0d13e3633a2242d6a04102bb4db8729b

系统管理员/ 2023年09月24日 17:42/ 0 赞/ 121 阅读

相关走进Java

Java主要的优点： 1. 摆脱了平台的束缚，实现了“一次编译，到处运行”。 2. 提供了一个相对安全内存管理和访问机制，完善的垃圾回收机制，避免绝大部分内存泄漏和指针越

向右看齐/ 2022年09月23日 03:59/ 0 赞/ 296 阅读

相关走进Reac

走进React 　　React是一个构建用户界面的JavaScript库，是Facebook公司在2013年5月在github上开源的。其特点如下：高效--Re

小灰灰/ 2022年07月11日 08:57/ 0 赞/ 327 阅读

相关走进Vue.js

原文链接：http://www.jianshu.com/p/78c9e5342990 Vue.js作为目前最热门最具前景的前端框架之一，其提供了一种帮助我们快速构建并开发前端

一时失言乱红尘/ 2022年06月13日 14:18/ 0 赞/ 268 阅读

相关走进jvm

java源代码是怎么被机器识别并执行的呢?答案是java虚拟机,即java virtual machine. 1、字节码(也称中间码,bytecode) 一、java所有的

亦凉/ 2022年03月18日 13:26/ 0 赞/ 320 阅读

相关走进SparkStreaming

Spark Streaming类似于Apache Storm，但是sparkStreaming用于微批实时处理。官方文档介绍，Spark Streaming有高吞吐量和容错能力

向右看齐/ 2021年11月10日 15:26/ 0 赞/ 466 阅读

相关走进Spark

A.Spark是什么？快如闪电的搜索引擎是一个通用的分析引擎，用来进行大规模的数据处理实际上Spark同样也是解决了大数据怎么计算的问

本是古典何须时尚/ 2021年11月05日 15:58/ 0 赞/ 495 阅读

相关走进压力测试

> 首先声明：本人并非专业测试人员，而是在项目开发过程当中正好接触到了压力测试的环节，特此对压力测试做了一些简单的了解。本文围绕压力测试相关的一些问题作出相应的整理，希望可以帮

曾经终败给现在/ 2021年11月05日 05:06/ 0 赞/ 794 阅读

相关走进 Java 异常

点击上方 [Java后端][Java]，选择设为星标优质文章，及时送达 -------------------- 作者：北冥有只鱼链接：segmentfault.

た入场券/ 2021年08月29日 13:12/ 0 赞/ 470 阅读