针对 Flink 批处理能力现状怎么样?(与 spark 对比)

问答 Jack.Wang ⋅ 于 2022-06-20 11:35:59 ⋅ 最后回复由 小小只鸟 2022-06-30 10:48:11 ⋅ 1979 阅读

大家有用Flink跑批处理吗? Flink 和spark 批处理能力(性能 资源使用 优化程度等多维度情况)
有做过评估的 、开发的经验能否分享下:
1)用 table api开发,Flink SQL spark SQL
2)dataset or datastream api 开发
毕竟两套引擎两套代码,太麻烦了。

成为第一个点赞的人吧 :bowtie:
回复数量: 3
  • 青牛 国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
    2022-06-20 13:42:49

    跑批还是用spark吧,flink反压那块会产生太多阻塞

  • Jack.Wang
    2022-06-21 21:15:08

    1)flink datastream api 批处理走batch mode,针对 反压stage,可以细粒度 操控并行度 、slot group 、opertor chain 大概就能解决掉吧。
    -- 最近看到 flink 1.15 新增的一个特性——批处理自适应调度器:可以根据 数据量的大小 ,自动推导并行度。
    2)flinksql 批处理,针对反压stage, 如果部署在k8s上,利用弹性扩缩容特性,主动给更多资源呢?
    @青牛

  • 小小只鸟 Contributor of apache Flink
    2022-06-30 10:48:11

    你好,我认为目前做批处理还是spark合适点。目前flink跑任务如果不开ck假如因为资源网络问题导致某个taskmanager挂了,整个作业就失败了。而spark跑任务executor挂了会另起一个节点接着跑。另外我觉得spark的rdd/dataframe更灵活点,比如调用缓存api更便捷点。flink虽然有算子chain合并优化序列化和网络io,但是在flinksql方式有些却不适合(datastream模式还好),比如读取某个源的表5个并行度,去关联维表,记得默认是source和join算子chain在一起。如果不单独设置join并行度而数据量比较大的情况下,这个时候并行度设置更大合适点。flinksql目前似乎无法单独设置某个运行算子的并行度,这让用户使用起来不太好扩展。

暂无评论~~
  • 请注意单词拼写,以及中英文排版,参考此页
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
  • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
  • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
  • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
Ctrl+Enter