ETL 工具 -- KETTLE 基本使用 1

分享 123456789987654321 ⋅ 于 2020-10-28 21:18:38 ⋅ 4071 阅读

Kettle

软件链接:https://pan.baidu.com/s/1jF6kMg4t0UmTNicT6TefFw 
提取码:irjm 

csv转换为excel

file

2.输入

file

3.输出

file

file****

4.启动

file

执行结果

1.日志

1.显示错误日志
2.删除日志
3.齿轮:设置日志界别,一般为基本日志

file

2.步骤度量

//程序执行步骤

file

3.Metrics

//转换时间

file

4.Preview

数据预览

file

KETTLE核心概念

1.转换

1.转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。
2.转换包含一个或多个步骤(step),如读取文件、过滤数据行、数据清洗或将数据加载到数据库。
3.转换里的步骤通过跳(hop)来连接,跳定义一个单向通道,允许数据从一个步骤向另一个步骤流动。
4.在Kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。
5.数据流有的时候也被称之为记录流。

2.Step步骤

步骤(控件)是转换里的基本的组成部分。

快速入门的案例中就存在两个步骤,“CSV文件输入”和“Excel输出”。

一个步骤有如下几个关键特性:
① 步骤需要有一个名字,这个名字在转换范围内唯一。
② 每个步骤都会读、写数据行(唯一例外是“生成记录”步骤,该步骤只写数据)。
③ 步骤将数据写到与之相连的一个或多个输出跳,再传送到跳的另一端的步骤。
④ 大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被被设置为分发和复制,分发是目标步骤轮流接收记     录,复制是所有的记录被同时发送到所有的目标步骤。

3.Hop跳

跳就是步骤之间带箭头的连线,跳定义了步骤之间的数据通路。

跳实际上是两个步骤之间的被称之为行集的数据行缓存(行集的大小可以在转换的设置里定义)。

当行集满了,向行集写数据的步骤将停止写入,直到行集里又有了空间。

当行集空了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行。

file

4.数据行-数据类型

数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合,字段包含下面几种数据类型。
① String:字符类型数据
② Number:双精度浮点数。
③ Integer:带符号长整型(64位)。
④ BigNumber:任意精度数据。
⑤ Date:带毫秒精度的日期时间值。
⑥ Boolean:取值为true和false的布尔值。
⑦ Binary:二进制字段可以包含图像、声音、视频及其他类型的二进制数据。

file

5.数据行-元数据

每个步骤在输出数据行时都有对字段的描述,这种描述就是数据行的元数据。
通常包含下面一些信息。
①  名称:行里的字段名应用是唯一的。
②  数据类型:字段的数据类型。
③  格式:数据显示的方式,如Integer的#、0.00。
④  长度:字符串的长度或者BigNumber类型的长度。
⑤  精度:BigNumber数据类型的十进制精度。
⑥  货币符号:¥
⑦  小数点符号:十进制数据的小数点格式。不同文化背景下小数点符号是不同的,一般是点(.)或逗号(,)。
⑧  分组符号:数值类型数据的分组符号,不同文化背景下数字里的分组符号也是不同的,一般是点(.)或逗号(,)    或单引号(’)

file

6.并行

跳的这种基于行集缓存的规则允许每个步骤都是由一个独立的线程运行,这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理。在数据仓库里,我们经常要处理大量数据,所以这种并发低消耗内存的方式也是ETL工具的核心需求。

对于kettle的转换,不可能定义一个执行顺序,因为所有步骤都以并发方式执行:当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输入跳,直到输入跳里不再有数据,就中止步骤的运行。当所有的步骤都中止了,整个转换就中止了。 (要与数据流向区分开)

如果你想要一个任务沿着指定的顺序执行,那么就要使用后面所讲的“作业”!

csv文件输入

//输入:就是用来抽取数据或生成数据。
是ETL操作的E。

file

csv文件输入

CSV文件是一种带有固定格式的文本文件。

文本文件输入

1.文本文件

提取日志信息的数据是开发常见的操作,日志信息基本都是文本类型。

file

一定要和文本文件里面的分隔符一样

file

Excel输入

1.Excel文件

微软的Excel目前有两种后缀名的文件分别为:xls和xlsx。
xls:2007年之前
xlsx:2007年之后

file

多文件合并

具有相同格式的文件可以合并
文件/目录     通配符 
//文件路径    文件名.*

file

版权声明:原创作品,允许转载,转载时务必以超链接的形式表明出处和作者信息。否则将追究法律责任。来自海汼部落-123456789987654321,http://hainiubl.com/topics/75352
本帖已被设为精华帖!
本帖由 青牛 于 3年前 加精
回复数量: 0
    暂无评论~~
    • 请注意单词拼写,以及中英文排版,参考此页
    • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
    • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
    • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
    • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
    Ctrl+Enter