kettle 是做什么的呢?平时工作中

问答 ling775000 ⋅ 于 2018-02-01 17:53:35 ⋅ 最后回复由 歌唱祖国 2018-02-07 16:58:23 ⋅ 5029 阅读

网上看了解释比较晕

成为第一个点赞的人吧 :bowtie:
回复数量: 4
  • 青牛 国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
    2018-02-01 22:43:40

    kettle可以通过图形化拖放方式设计数据处理环节也可集成其他大数据组件进行扩展,比如可用于快速实现ETL等流程。

  • 歌唱祖国 不要跟过去的自己比,要期待未来的自己,珍爱现在的自己。
    2018-02-07 00:37:54

    kettle国内常用的ETL工具,ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库.在企业中常用来做一些抽取excel文件数据导入数据库,在数据库中关联其他表之类的做一些转换操作。基本sql能做的,它都能做,还能设置一些定时的任务去跑,ETL一般属于数据仓库这个方向。

  • ling775000
    2018-02-07 16:12:25

    @歌唱祖国 那效率和sqoop hive等数据仓库清洗手段来讲,哪个快呢?是不是数据量小用kettle,数据量大就跑程序?

  • 歌唱祖国 不要跟过去的自己比,要期待未来的自己,珍爱现在的自己。
    2018-02-07 16:58:23

    @ling775000 数据量大的话还是用大数据的工具来清洗好一点,sqoop用的比较多的是将关系型数据库的数据导入到非关系型的数据库。hive里面做清洗的话首先还是要数据先入库吧,就算是外部表的话,数据的schema还是要一致才行。况且hive还不能做太复杂的逻辑。在数据入库这方面kettle里面有很多的组件,只需要灵活运用就好了。我现在用最多的是通过talend将excel里面的数据导入到数据库,再通过逻辑将数据分层。

暂无评论~~
  • 请注意单词拼写,以及中英文排版,参考此页
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
  • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
  • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
  • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
Ctrl+Enter