怎么用 kettle 做整个离线数仓的 etl 过程怎么做?

问答 然. ⋅ 于 2021-06-04 18:13:28 ⋅ 最后回复由 然. 2021-06-04 19:53:24 ⋅ 1461 阅读

这几天 研究了一下 会了一些转换 ,但是感觉 还是不太会 怎么个流程去做阿 拿到原始表 把数据转换到ods层 然后到dwd呢 抽取ods几张表中需求的字段 转换过去吗!

回复数量: 6
  • 犀牛
    2021-06-04 19:05:11

    个人觉得kettle从源系统抽到贴源层就可以了,仓内加工还是用SQL来的方便。

  • 然.
    2021-06-04 19:09:49

    @犀牛 以前都没用过搞过 仓内 我把数据源抽到ods 然后具体就写sql 把 ods层 几个表 导入一个dwd表中吗 join进去吗

  • 犀牛
    2021-06-04 19:25:45

    @张孟轩 那要具体看你们数仓咋架构设计的了,一般来说贴源层是要进模型层的,模型层就按照模型师的er图来做SQL就好了,比如多张表的其中一部分字段抽离出来,落地到模型层的某一主题下面。ETL工具只适合做数据交换工作而不适合做仓内复杂逻辑加工,写写SQL封装到一个脚本里,用调度调脚本执行就好了,比etl工具做仓内加工方便多了,kettle做仓内加工太麻烦了,你还得在windows上做各种逻辑的点点点和逻辑连线,以及中间多表关联等等,最终导出ktr,再用pan去上调度,想想都能吐。

  • 然.
    2021-06-04 19:30:50

    @犀牛 对!我们设计也是这样!多张ods表提取一些字段进dwd某个主题下层,那我就直接把需要的字段写成sql然后直接调度来导就可以了吧,

  • 犀牛
    2021-06-04 19:52:11

    @张孟轩 是的,不用整那些花里胡哨的etl工具,etl就抽数就行了,还是Python+sql或者shell+sql最朴实无华也最靠谱。

  • 然.
    2021-06-04 19:53:24

    @犀牛 好的!谢谢了哥!

暂无评论~~
  • 请注意单词拼写,以及中英文排版,参考此页
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
  • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
  • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
  • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
Ctrl+Enter