kettle操作文档。
介绍。 22. kettle**。 2
3.使用规范和注意事项。 2
3.1.配置数据库的全局变量。 2
3.2.文件命名规范(不要用汉字)。 2
3.3.文件存放位置。 3
3.4.配置启动任务文件。 3
3.5.注意事项。 3
4. kettle部署使用。 4
4.1.启动kettle。 4
4.2.创建转换文件。 5
4.2.1.使用标识字段实现新增数据。 5
4.2.2.使用时间戳实现新增或修改数据。 10
4.2.3.使用时间比较实现新增或修改数据。 13
4.2.4.使用对某一数据值比较实现新增或修改数据。 16
4.3.创建任务文件。 18
4.4.命令行启动任务。 19
etl(extract-transform-load的缩写,即数据抽取、转换、装载的过程),对于**部门来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。
kettle是一款国外开源的etl工具,纯j**a编写,绿色无需安装,数据抽取高效稳定,提供了图形化界面,使用很方便。kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
kettle可以在****kettle压缩包,因kettle为绿色软件,解压即可使用。这个压缩包,公司加了一些功能,跟官网**的不太一样,建议使用公司论坛上的压缩包。
资料**:注:解压路径尽量不要有中文。
kettle:存放kettle的一些环境变量信息,资源库的信息。
jre6:存放j**a运行库文件(1.6版本)。
launcher:存放启动的文件以及启动的配置信息。
lib:存放kettle的库文件。
libext:存放用到的外部库文件。
libswt:存放用到的界面库文件。
plugins:存放插件文件。
resources:存放编写的转换和任务文件,以及日志和任务
配置信息。ui:存放用到的的**和配置信息。
任务文件执行器(命令行模式)。
转换文件执行器(命令行模式)。
设置kettle运行的环境变量。
打开设计工具(界面方式)。
工具的图标。
启动存放在resources目录下的任务配置文件。
说明。txt:使用的规范和注意事项。
在。kettle目录下的文件配置数据库全局变量。
属性:hostname,databasename,portnumber,username,password。
规则:地市名+数据库名+属性名=值,且命名时第一个单词以小写字母作为开头,后面的单词则用大写字母开头。
如:昆山的ebcmks数据库,配置如下:
ksebcmkshostname=2.2.2.7
ksebcmksdatabasename=ebcmks
ksebcmksportnumber=1433
ksebcmksusername=sa
ksebcmkspassword=powerdata
在工具中使用方法为:$。
转换文件用操作数据库的表名(大写中文首字母)。
任务文件用项目名。
配置启动任务文件用项目名。
日志文件用“kettlelog_项目名。log”。
文件统一放到resources目录下。
存放规则:项目名目录->(transformations目录,jobs目录),config目录,logs目录;
其中transformations目录主要存放转换文件,jobs目录存放任务文件,config目录存放配置启动任务文件(需要执行的任务文件配置信息)。
如昆山:项目名目录为:ks,转换文件目录:transformations,任务文件目录:jobs,配置文件目录:config,日志文件目录:logs。
配置文件统一放到:项目名目录->config目录下。
文件后缀名为:bat(批处理文件)。
编写规则: -file=%cd%esources\任务文件(从项目名目录开始) -level=日志等级 -log=resources\logs\日志文件(以工具主目录为起始目录),之间用空格分割;
如: -file=%cd%esources\ks\jobs\ -level=basic -log=resources\logs\kettlelog_
其中level等级包括(basic, detailed, debug, rowlevel, error, nothing)。
如下:1):路径和文件名称不要使用中文。
2):在只进行新增操作时,如果两边的表字段数量不一样,应把“表输出”的specify database选中。
3):启动任务只需执行主目录下的文件。
4):在任务中选择一个交换时的目录应使用相对路径,如:应把“d:
\kettle\kettle4.2.0esources\ks\transformations\t_workflow_修改为:
“$esources\ks\transformations\t_workflow_使用$全局变量。
5):在表里面新增字段后,如果在别的控件(如“表输入”)中没有找到新增的字段,此时应操作菜单tool->database->clear cache,把缓存清除掉。
6):在预览数据时,如果数据量比较大的情况下可能会报错,此时应把“表输入”的“记录数量限制”修改为100,正式转换时应把值修改为0。
把**的压缩文件压缩到d盘根目录。
双击kettle4.2.0目录下的文件,出现kettle欢迎界面如图1。
图1进入主界面如图2。
题2如:传输人员的轨迹信息。
单击菜单项的文件->新建->转换,创建一个转换文件;保存文件名为:wzxx路径为主目录下的resources\ks\transformations\右键选择“转换设置”,把转换名字修改为:轨迹信息;如图3.
图3把左边菜单“输入”下的“表输入”,通过鼠标左键拖到主界面中,并双击“表输入”,如图4。
图4单击图4界面中的“新建”按钮,创建源数据连接信息,弹出框如图5。
connection name:ebcmks。(连接库的名称)
connection type:ms sql server。(数据库类型)
host name:通过ctrl+alt+space(空格),选择ksebcmkshostname(也可直接输入)。(数据库的服务器ip地址)
database name:$。数据库名称)
port number:$。数据库端口号)
user name:$。数据库用户名)
password:$。数据库密码)
说明:使用$表示的value值,都是在文件中配置的变量名。
配置格式为:ksebcmksdatabasename=ebcmks。
配置好上面的信息之后,可以用“test”按钮进行测试,如果连接成功,单击“ok”按钮。
图5在图4中的sql面板中输入“select * from t_emop_wzxx where isnull(flag,'0')<1'”
可以通过“预览”按钮,查看数据,如果数据量比较大的情况下可能会报错,此时应把“表输入”的“记录数量限制”修改为100,正式转换时应把值修改为0,单击“ok”。
与“表输入”同理,把左边菜单中的“表输出”用鼠标拖到主界面中,按住shift键,用鼠标把“表输入”与“表输出”连接起来,如图5。
图5表输出”的功能就是往表里面新增数据,在图5中双击“表输出”,在弹出的窗口中单击“新建”按钮,创建目标数据连接信息(与源目标连接信息同理),配置信息如下,如图6:
connection name:datacenter_ks。
connection type:ms sql server。
host name:通过ctrl+alt+space(空格),选择ksdatacenter_kshostname(也可直接输入)。database name:$。
port number:$。
user name:$。
password:$。
图6表输出配置信息如下(图7):
数据库连接选为:datacenter_ks。
目标表选择:t_emop_wzxx。
specify database fileds前面的勾打上。
图7单击图7中的database fileds选项卡,如图8,单击enter filed mapping,在弹出框中单击“猜一猜”,会把相同的字段匹配上,单击“确定”。
Kettle高级应用
在昨天的帖子里面,我介绍了一些etl初级的东西,不知道大家是否已经掌握,我现在介绍一些kettle应用中,比较有帮助的一些地方。1,kettle跨平台使用。例如 在aix下 aix是ibm商用unix操作系统,此处在linux unix同样适用 运行kettle的相关步骤如下 1 进入到kettle...
物流操作员操作内容
3.3.3 系统信息。包括托运单据的填写,系统对接要求,信息提供方式等。3.3.3.1 托运单据的填写 不同的托运单位因为系统的要求不同,所以对托运单据的填写要求也是不一样的。航空运单的填写,主要注重的是 收货人,联系 体积,重量,货物品名等。收货人有一个字错误哪怕是多一个点都会造成提货提不出来的现...
操作操作系统大型作业
所在班级 0310401班。学生学号 031040109 学生姓名 李雨晴。题目 生产者和消费者问题 任课教师 李艳老师。完成日期 2012年12月2日 目录。操作系统课程设计 1 一 课程的地位 目标和任务 3 二 课程设计的基本要求 3 1.课程设计要求 3 2.学习要求 3 三 题目分析 3 ...