etl介绍与etl工具比较_ETL万岁

£神魔★判官ぃ 2023-02-25 03:52 83阅读 0赞

etl介绍与etl工具比较

提取转换负载是从一个数据系统中提取数据并加载到另一个数据系统中的过程。 涉及的数据系统称为源系统和目标系统。

format_png

来自源系统的数据形状与目标系统不匹配,因此需要进行一些转换以使其兼容,该过程称为Transformation 。 转换是由map / filter / reduce操作完成的。

format_png 1

为了处理数据系统之间的不兼容性,需要一些元数据。 哪种类型的元数据会有用?

将源数据转换成许多不同的形状以处理各种业务用例是非常普遍的,因此对于源系统使用描述 性元数据,对于目标系统使用描述性元数据是有意义的。

format_png 2

元数据在使系统向后向前兼容方面起着重要作用。

很多时候仅拥有元数据是不够的,因为某些源/目标系统数据太大或太小而无法容纳。

format_png 3

format_png 4

这是当变换变得有趣的情况。 这意味着某些值必须删除或设置为NULL或默认值,对此做出正确的决定对于转换的向后/向前兼容性非常重要。 我想说许多企业的成功还取决于如何解决这个问题! 如果正确完成,可以避免许多集成梦night。

到目前为止,我们只是在讨论单一源系统,但是在许多用例中,都需要来自其他系统的数据进行一些转换,例如将userid转换为name,派生新的列值,查找编码等等。

format_png 5

添加多源系统会增加转换的复杂性,以处理丢失的数据,陈旧的数据等。

随着数据系统的发展,今天不仅涉及关系存储,我们还看到键值存储,文档存储,图数据库,列存储,缓存,日志等。

新数据系统也已分发,因此这增加了转换复杂性的另一个维度。

我们的旧关系数据库也可以描述为它是使用ETL模式构建的,通过使用更改日志作为数据库所做的一切工作的源

format_png 6

关于ETL的神话之一是,它是批处理过程,但是随着Stream处理器(即Spark Streaming,Flink等)和Pub Sub系统(Kafka,Pulsur等)的出现,它会随着时间而改变。 这样可以在事件推送到源系统后立即进行转换。

流式流行语不要被太多带走,不
无论您使用哪个流处理器或发布子系统,但您仍然必须应对上述挑战或利用某些新平台来解决这一问题。

投资转换/业务逻辑,因为这是构建可维护和可扩展的成功系统的关键。

使其保持无状态,元数据驱动,处理重复/重试等,更重要的是编写Tests以在快速变化的时间内对其进行良好的维护。

下次当您对ETL流程有疑问时

您处理实时还是批量处理?

你的答案应该是

这是基于事件的处理。

ETL万岁

翻译自: https://www.javacodegeeks.com/2020/04/long-live-etl.html

etl介绍与etl工具比较

发表评论

表情:
评论列表 (有 0 条评论,83人围观)

还没有评论,来说两句吧...

相关阅读

    相关 ETL

    做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上

    相关 ETL数据抽取工具

    ETL负责将分布的、异构数据源中的数据如关系数据、 平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

    相关 ETL

    ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一

    相关 ETL

    做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上

    相关 数据集成--ETL工具

    背景:不同平台都可以获得用户,这些用户之间可能是交叉重复,比如你之前在A平台注册了,后来你又在B平台注册了。而不同的平台存储数据的表结构,表字段可能不同。最有代表性的,美团合并