Streamsets简介
Streamsets简介
- 一、是什么?
- 二、data collector简介
- 2.1 创建管道
- 2.2 streamsets data collector数据处理组件分类
- 2.3 streamsets data collector 事件类型
- 2.4 pipeline启动参数设置
- 三、常用参考
一、是什么?
Streamsets是由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人Arvind Prabhakar于2014年创立的公司,总部设在旧金山。streamsets产品是一个做大数据ETL的工具,支持包括结构化和半/非结构化数据源,拖拽式的可视化数据流程设计界面。而Streamsets旗下有如下三个产品: streamsets data collector(核心产品,开源):大数据ETL工具;streamsets data collector Edge(开源):将这个组件安装在物联网等设备上,占用少的内存和CPU;streamsets control hub(收费项目):可以将collector编辑好的pipeline放入control hub进行管理,可实现定时调度、管理和pipeline拓扑;
所以之后的介绍都会在streamsets data collector这个核心开源产品
二、data collector简介
2.1 创建管道
简介带图,之后会单独出一期安装创建的博客,话不多说先上图
在管道的创建上分为了三个管道:
data collector pipeline:用户普通collector开发(后续主要介绍)。
data collector Edge Pipeline:将开发好的pipeline上传到对应Edge系统。
microservice pipeline:提供微服务。
2.2 streamsets data collector数据处理组件分类
当管道创建好后,会根据需要去选择对应的组件信息。而组件分类如下图
origins (extract):数据来源,数据从不同的数据源抽取。(一个pipeline中只能有一个数据来源)
processor(transform):数据转化,将抽取来的数据进行过滤,清洗。
destination(load):数据存储,将数据处理完后存入目标系统或者转入另一个pipeline进行再次处理。
executor:由处理数据组件的事件触发executor,执行相应任务。例如:某个组件处理失败,发送邮件通知。
注:后期会出一些组件介绍!
2.3 streamsets data collector 事件类型
pipeline 相关事件()pipeline-related events):当pipeline开启(start)或者停止(stop)时会产生事件,可以在pipeline的配置参数中指定consumer,进行事件处理。配置如图:
阶段组件相关事件(stage-related events):处理数据的组件会产生事件,指定对应的executor组件去处理事件。如图
2.4 pipeline启动参数设置
在pipeline设置界面中parameters:
组件中调用方式:
${jdbc_con}
三、常用参考
Streamsets问答社区:https://ask.streamsets.com/question
当遇到一些问题时可以去搜索是否有同样的人遇到,会提出自己新的问题
Streamsets使用手册:https://streamsets.com/documentation/datacollector/latest/help/
streamsets详细使用文档
Streamsets简单案例教程:https://github.com/streamsets/tutorials
一些简单的Streamsets使用教程
streamsets data collector源码地址:https://github.com/streamsets/datacollector
还没有评论,来说两句吧...