小小只鸟个人信息_海汼部落 | IT学习->实战为王

牛仕

第 4617 位会员

0 关注者

2 评论

1 话题

Contributor of apache Flink

最新评论

[下载] 大数据面试宝典

666
针对 Flink 批处理能力现状怎么样？（与 spark 对比）

你好，我认为目前做批处理还是spark合适点。目前flink跑任务如果不开ck假如因为资源网络问题导致某个taskmanager挂了，整个作业就失败了。而spark跑任务executor挂了会另起一个节点接着跑。另外我觉得spark的rdd/dataframe更灵活点，比如调用缓存api更便捷点。flink虽然有算子chain合并优化序列化和网络io，但是在flinksql方式有些却不适合(datastream模式还好)，比如读取某个源的表5个并行度，去关联维表，记得默认是source和join算子chain在一起。如果不单独设置join并行度而数据量比较大的情况下，这个时候并行度设置更大合适点。flinksql目前似乎无法单独设置某个运行算子的并行度，这让用户使用起来不太好扩展。