Kettle spoon
ETL
- ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据
- ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。
- ETL工具:Kettle spoon
Kettle spoon
1. 转换:将数据流经过一系列操作传输到目标数据源
- 转换的创建:
新建一个转换
1新建空白转换
文件—>新建—>转换 :新建一个空白的转换,ctrl+s保存该转换,命名为标准表的表名;
2添加数据库连接
在主对象树中,双击DB连接,或右击DB连接,选择新建数据库连接,打开数据库连接对话框:
其中Oracle数据库连接中的数据表空间,索引表空间两项不需要填。其余参数必填,填好之后点测试,检测是否能正确连接,连接成功后,点确认,便保存了当前连接。
其实,可以随时在需要的时候建立数据库连接,而不必刚开始就添加。
3添加需要的step
在核心对象的各个分组中,找到需要的step,双击,或者拖拽到右侧设计界面,即可添加step到当前转换中。
- 转换的使用
点开左侧栏的输入,找到表输入,并用鼠标把表输入拖向右边空白区域。
双击拖进来的表输入,编辑表输入里面的信息。
点开左侧栏的输出,找到插入/更新,并用鼠标把插入/更新拖向右边空白区域。
摁住shift键不放,鼠标点击表输入,然后拖向旁边的插入/更新,这样就把两个动作连接起来了。
双击插入/更新,编辑插入/更新里面的信息。最后把该转换保存,这里保存成test.ktr。
3.点击运行就可以转换了
2. 作业:
3.Kettle作业与转换如何配合使用:
1、一个作业相当于一个主要任务项,在这个主线中可以调用其它若干个转换,每个转换中可以从作业这个主线中获取数据,然后将数据进行相应的处理操作,再将数据传递给作业主线,也可以在转换中单独获取数据———处理数据———输出数据;
2、并且如果对于需要设置变量的情况下,一般也是需要用到作业与转换的配合使用,因为变量在当前线中设置,不能再当前线中获取,需要到下一个线中才能够获取;
3、一个任务只能够有一个主作业,但是可以有多个子作业,主作业中可以调用转换,也可以调用子作业,具体是调用转换还是调用子作业,需要根据不同的需求,进行不同的定制;
PS:更加详细的描述
还没有评论,来说两句吧...