走进Spark Streaming

柔光的暖阳◎ 2024-04-18 11:25 108阅读 0赞

$640?wx\_fmt=png$

离散流DStream

$640?wx\_fmt=png$

DStream是Spark Streaming中的一个最基本的抽象，代表了一系列连续的数据流,本质上就是一系列的RDD。StreamingContext会根据设置的批处理的时间间隔将产生的RDD归为一批，这一批RDD就是一个DStream，该DStream里面产生都是相同业务逻辑的RDD，只不过是RDD里面读取的数据不相同。

DStream每隔一段时间生成一个RDD，我们对DStream进行操作，本质上就是对里面的对应时间的RDD进行操作。

DStream与DStream之间存在依赖关系，在一个固定时间点，两个存在依赖关系的DStream对应的RDD也存在依赖关系，每个固定的时间，其实产生了一个小的DAG，周期性的将生成的小的DAG提交到集群中运行。

$640?wx\_fmt=png$

批数据(**batch data**)：这是化整为零的第一步，将实时流数据以时间片为单位进行分批，将流处理转化为时间片数据的批处理。随着持续时间的推移，这些处理结果就形成了对应的结果数据流了。

时间片或批处理时间间隔（ batch interval**）**：这是人为地对流数据进行定量的标准，以时间片作为我们拆分流数据的依据。一个时间片的数据对应一个RDD实例。

窗口长度（**window length**）：一个窗口覆盖的流数据的时间长度，必须是批处理时间间隔的倍数。

Input DStream : input DStream是一个特殊的DStream，将Spark Streaming连接到一个外部数据源来读取数据。

$640?wx\_fmt=jpeg$

发表评论取消回复

表情：

评论列表（有 0 条评论，108人围观）

还没有评论，来说两句吧...

相关阅读

相关走进Spark Streaming

[640?wx\_fmt=png][640_wx_fmt_png] **离散流DStream** ![640?wx\_fmt=png][640_wx_fmt_png]...

柔光的暖阳◎/ 2024年04月18日 11:25/ 0 赞/ 109 阅读

相关 Spark Streaming

1. kafka 具体步骤：启动 `zookeeper、kafka` `Shell` 方法测试 `kafka producer、consumer` 生产消

秒速五厘米/ 2023年09月29日 18:44/ 0 赞/ 51 阅读

相关 Spark Streaming

> 本文整理自下面两篇博客，以供资料整理使用 > > Spark Streaming简介：[http://c.biancheng.net/view/3658.html][ht

叁歲伎倆/ 2023年06月16日 05:58/ 0 赞/ 176 阅读

相关带你走进stream世界

带你走进stream世界引言什么是 Stream？怎么生成流

矫情吗；*/ 2023年06月10日 08:29/ 0 赞/ 97 阅读

相关 Spark Streaming 进阶实战五个例子

参考文章：[Spark Streaming 进阶实战五个例子][Spark Streaming] [Spark Streaming进阶][Spark Streaming 1]

「爱情、让人受尽委屈。」/ 2023年03月01日 08:59/ 0 赞/ 33 阅读

相关 Spark/Streaming

Spark Streaming 是基于Spark处理流式数据的框架,对数据进行实时处理。 Streaming streaming将数据离散化，按照batch size分

我就是我/ 2022年08月02日 12:53/ 0 赞/ 263 阅读

相关 Spark系列--Spark Streaming(一)Spark Streaming简介

一、简介 Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点

傷城~/ 2022年05月17日 23:28/ 0 赞/ 377 阅读

相关 Spark Streaming

教程： [http://spark.apache.org/docs/latest/streaming-programming-guide.html][http_spark.a

墨蓝/ 2022年05月14日 05:45/ 0 赞/ 316 阅读

相关 spark streaming

<table> <tbody> <tr> <td><strong>问题导读</strong><br><br><strong><span style="colo

心已赠人/ 2022年03月25日 03:56/ 0 赞/ 361 阅读

相关走进Spark

A.Spark是什么？快如闪电的搜索引擎是一个通用的分析引擎，用来进行大规模的数据处理实际上Spark同样也是解决了大数据怎么计算的问

本是古典何须时尚/ 2021年11月05日 15:58/ 0 赞/ 493 阅读