hive 自定义 udaf 的缓冲区集群工作原理是什么?

问答 Balder-Chang ⋅ 于 2020-08-01 17:27:38 ⋅ 最后回复由 青牛 2020-08-01 20:19:00 ⋅ 75 阅读

问两个问题:
1.MyAvgUDAF这个例子中,那个自定义缓冲区不擦写好像也没有问题,我们这个算平均值的例子是不是可以不擦除?
2file这个自定义缓冲区在分布式环境下运行时,是怎么个原理,是每一个node上都会有一个独立的MyAvgAggregationBuffer对象,这个node的map的任务共享这个缓冲区吗?最后的结果值是怎么汇总到一起的?

点赞
成为第一个点赞的人吧 :bowtie:
回复数量: 3
  • 青牛 国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
    2020-08-01 17:41:03

    MyAvgAggregationBuffer就是数据的bean,每map用自己的,然后在reduce进行汇总,merge方法就相当于reducer中的reduce方法,UDAF那几个方法就是个mr的过程。

  • Balder-Chang 持续学习,持续进步
    2020-08-01 19:44:04

    @青牛 红框中的获取缓冲区是获取这个map自已的缓冲区还是其他map的?
    下面又进行了聚合,我没懂它是和缓冲区中谁的值进行聚合了?

    file

  • 青牛 国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
    2020-08-01 20:19:00

    @Balder-Chang 不要把它理解成缓冲区,就理解成数据的bean,过去的是自己的,底层是mr都是自己跑自己的。

暂无评论~~
  • 请注意单词拼写,以及中英文排版,参考此页
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
  • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
  • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
  • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
Ctrl+Enter