Kettle学习(3)

来源:网络收集 时间:2025-08-22 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xuecool-com或QQ:370150219 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

文本文件输出

1、 Run this as a command instead:把结果输出到命令行或者脚本

2、 文件名里包含步骤数:如果你在多个拷贝中运行步骤,拷贝的数量将包含到文件名中。 3、 Include partition nr in filename:文件名中包含数据分区数量 4、 文件名包含日期 5、 文件名包含时间 6、 追加 7、 分隔符

8、 封闭符:封闭字段的一对字符,可选 9、 强制在字段周围加上封闭符 10、 头部:如果享有一个头部行,选中 11、 尾部:如果享有一个尾部行,选中 12、 格式:DOS文件的分隔符可以是回车或换行符 13、 编码:指定编码,如果空白就是用系统缺省的编码 14、 Compression(压缩):指定压缩的类型(zip,gzip) 15、 Right pad fields:在字段最后添加空格或者删除字符,直到长度达到指定 16、 Fast data dump(no formatting):当处理大量数据到一个文本文件时,提高性能.(不

包含任何格式化信息) 17、 分拆每一行:如果n比0大,用n行拆分文本文件,分割成多个部分。 18、 Add Ending line of file:指定输出文本的额结束行。

表输出

1、 Target Schema:目标模式。要写数据的表的Schema的名称。允许表明中包含“。”对数

据源来说是很重要的

2、 目标表:要写数据的表名。

3、 提交记录数量:在数据表中用事物插入行。如果n比0大,每n行提交一次连接。否则

不使用事务,速度会慢一些。

4、 裁剪表:在第一行数据插入之前裁剪表。

5、 忽略插入错误:使Kettle忽略比如违反主键约束之类的插入错误,最多20个警告将被

日志记录。在批量插入的时候这个功能不可用。 6、 使用批量插入:这个选项速度快,默认被选上。

7、 表分区数据:使用这个选项可以在多个表之间拆分数据。例如把数据放到表s1、s2、s3

中来代替之间插入数据到表s中。 例如:create or replace view sales as Select * from sales_200501 Union all Select * from sales_200502

8、 表名定义在一个字段里:使用此选项可以拆分数据到一个或者多个表里,目标表名可以

用你指定的字段来定义。例如如果你想存储客户性别数据,这些数据可能会存储到表M和表F里面。这个选项可以阻止这些字段插入到相应的表里。

9、 返回一个自动产生的关键字:往表中插入行时,是否产生一个关键字。

11 / 42

10、 自动产生关键字的字段名称:指定包含关键字的输出字段的字段名称。

插入/更新

1、 target schema:要写入数据的表的schema名称。允许表名包含”.”是很重要的。 2、 commit size:提交之前要改变的行数(插入/更新)。

3、 不执行任何更新:如果被选择,则不执行任何更新,只允许插入。

4、 用来查询的关键字:可以指定字段值或者比较符。可以用以下比较符:>、>=、=、<>、

<、<=、between、like、is null、is not null

5、 用来查询的关键字:输入用来指定记录的关键字。 6、 更新字段:指定想要插入/更新的字段。

更新(可以用插入/更新替代)

更新只能用来更新,不能用来插入数据。

删除

执行删除操作。

注意:在输出中,插入/更新、删除、更新对应的是数据库的增、删、改。

序列化到文件(以前是Cube output)

这个步骤存储数据到一个二进制文件。这个步骤有个优势就是回读的时候,文本文件的内容不需要解析。这是因为元数据也同时存储在cube文件中。 用输出的Cube文件,用cube输入读入文件练习下。

XML输出

1、 文件名中包含步骤号码:如果你在多个拷贝中运行一个步骤,在文件扩展名的前面,将

包含拷贝的号码。

2、 分割每一个行:每个xml文件中包含的记录数。0表示不分割。 3、 正在编码:在XML文件头部指定。 4、 字段选项卡

5、 元素名称:xml文件使用的元素的名称,不指定,则元素名称和字段名相同。 6、 10进制:小数点可以是”.”或者”,” 7、 分组:分组符可以是”,”或者”.”

8、 空:表示当字段值为空时,则用此字段值代替。

12 / 42

Excel输出

利用这个步骤,可以写入数据到一个或者多个文件中。 1、 文件名和扩展名:可以使用变量。 2、 头部、尾部:给文件添加头部和尾部。

3、 Split every…rows:分割数据到几个输出文件中。 4、 Use template:使用模板

5、 追加excel模板:是否将Excel输出添加到指定的Excel模板中。

Access输出

1、 数据库名:注意要写入扩展名,否则输出的文件名不包含扩展名”.mdb” 2、 创建数据库:选中则创建数据库。 3、 Target table:表名。

4、 Create table:选中则创建数据表。

5、 Commit size:定义输出数据时的提交尺寸。

数据库查询(Database lookup)

这个步骤允许你在数据库表中查找值(多个表之间需要进行连接查询时用到left join)。 1、 使用缓存:使用缓存,这意味着在某种查询值的条件下,每次数据库都能返回同样的结

果。

流查询

1、 源步骤:数据来源的步骤名称。

2、 查询值所需要的关键字:允许你来指定用来查询值的字段名称。值总是用“等于”比较

符来搜素。

3、 接收的字段:你可以指定用来接收字段的名称,或者在值没有找到的情况下的缺省值,

或者你不喜欢旧的字段名称的情况下的新字段名称。 4、 Preserve Memory(保留内存):排序的时候对数据行进行编码以保护内存。

5、 Key and value are exactly one integer field:排序的时候对数据行进行编码以保护内存。 6、 Use sorted list:是否用一个排序列表来存储值,它提供更好的内存使用。

7、 获取字段:自动获取源步骤的可用字段的名称,你可以删除你不想查询的字段。 8、 获取查询字段:自动获取输出流中的可用字段名称。你可以删除你不想返回的字段。

13 / 42

调用数据库存储过程

这个步骤允许运行一个数据库存储过程,获取返回结果。 1、 存储过程名称:调用的存储过程或者函数名称。 2、 自动提交:在运行存储过程的时候自动提交。

3、 结果名称:调用存储过程或者函数返回结果的名称。 4、 结果类型:返回结果的类型。

5、 参数:存储过程或者函数需要的参数列表。

5.1.名称:字段的名称

5.2.方向:可以是in,out,inout、

5.3.类型:使用输出参数,以便Kettle知道返回了什么。 注意:如果是函数的话,通过结果名称返回值;如果是存储过程的话,通过参数列表返回值。

HTTP客户端

http客户端根据一个附带条件的基准URL,来调用一个简单的调用。例如:http://?p1=v1&p2=v2&...,结果存储在指定名称的字符类型字段中。 1、 URL:基准url字符串

2、 结果字段名称:存储结果的字段名称。

3、 参数:用名称——值键值对来定义通过url传递的参数。

字段选择

这个步骤常常用来:

1、 选择字段 2、重命名字段 3、指定字段长度或者精度 以下是三个不同标签的功能:

1、 选择和修改:指定输出流中字段的精确顺序和名称。 2、 删除:指定必须从输出流中删除的字段。

3、 元数据:修改数据字段的名称、类型、长度和精度。

14 / 42

选项:

1、 字段名称:选择或者修改的字段名称。 2、 改名:如果不想改名就留空白。

3、 长度、精度:输入数字指定长度、精度(-1:代表没有长度、精度指定)

过滤记录

这个步骤允许你根据条件和比较符来过滤记录。一旦这个步骤连接到先前的步骤中,单机“”,“=”和“”区域来构建条件。

1、 发送“true”数据给步骤:指定条件返回true 的数据将发送到此步骤。 2、 发送“false”数据给步骤:指定条件返回false 的数据将发送到此步骤。

排序记录

这个步骤利用你指定的字段排序行,无论他们是按照升序还是降序。 备注:当行数超过5000行的时候,Kettle使用临时文件来排序行。

1、 排序目录:临时文件存储的目录。如果缺省则为标准的系统临时文件夹。 2、 内存里存放的记录数:存储在内存中的行越多,排序的速度就越快。 3、 临时文件前缀:选择一个好记的前缀,以便在临时目录中容易寻找。 4、 压缩临时文件:当需要完成排序的时候,这个选项将压索临时文件。

添加序列

一个序列是在某个起始值和增量的基础上,经常改变的整数值。你可以使用数据库的序列,也可以使用Kettle决定的序列。

备注:Kettle序列在同一个转换中是唯一使用的。每一次转换运行的时候,序列的值又会重新循环一次(从开始值开始)。 1、 使用数据库获取序列 连接名称:选择数据库序列存在的连接名称。 序列名称:数据库序列名称。 2、 使用计数器计算序列

计数器名称、增量、最大值

空操作(什么也不做)

此步骤什么也不做。

作用:在你想测试什么的时候充当一个占位符,例如有一个转换,你至少需要两个彼此连接的步骤。如果你想测试文本文件输入步骤,你可以将它连接到一个D步骤,例如以下示例:

15 / 42

百度搜索“70edu”或“70教育网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,70教育网,提供经典教育范文Kettle学习(3)在线全文阅读。

Kettle学习(3).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.70edu.com/fanwen/1069329.html(转载请注明文章来源)

相关推荐:

Copyright © 2020-2025 70教育网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:370150219 邮箱:370150219@qq.com
苏ICP备16052595号-17
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:7 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219