小小只鸟

第 4617 位会员
注册于 2021-06-11 13:17:38
活跃于 2024-03-25 13:50:54


Contributor of apache Flink
最近话题
最新评论
  • [下载]【海牛大数据】大数据面试宝典 at 2023-09-14 20:39:17

    666

  • 针对 Flink 批处理能力现状怎么样?(与 spark 对比) at 2022-06-30 10:48:11

    你好,我认为目前做批处理还是spark合适点。目前flink跑任务如果不开ck假如因为资源网络问题导致某个taskmanager挂了,整个作业就失败了。而spark跑任务executor挂了会另起一个节点接着跑。另外我觉得spark的rdd/dataframe更灵活点,比如调用缓存api更便捷点。flink虽然有算子chain合并优化序列化和网络io,但是在flinksql方式有些却不适合(datastream模式还好),比如读取某个源的表5个并行度,去关联维表,记得默认是source和join算子chain在一起。如果不单独设置join并行度而数据量比较大的情况下,这个时候并行度设置更大合适点。flinksql目前似乎无法单独设置某个运行算子的并行度,这让用户使用起来不太好扩展。