Spark submit 参数调优是否有一定标准或者规律?

问答 潇洒劫个妞 ⋅ 于 2019-05-14 18:16:58 ⋅ 最后回复由 青牛 2019-05-16 08:45:21 ⋅ 1680 阅读

看了很多文章,但是大多数都只是告诉你这四个参数是什么作用。

唯有16年的Spark Summit大会上Top 5 Mistakes When Writing Apache Spark Applications演讲专题提到了一种计算方法(固定executor-cores为5,每太理解为什么他说超过5 hdfs 的thoughout会降低)并手把手的教了怎么计算。但是我实际测试过程中效果并不好。(见下图,程序很简单就是读取数据存入hdfs as parquet file,没有多余操作。当时所有节点也基本空闲,没有其他业务运作)
file

Spark submit 调参是不是玄学?(我后来一次出现过一千万量级数据我使用了第20排那个配比,并没有达到20分钟的效果,用了一小时)
如果不是玄学,它们的配比确实能明显影响到运作效率,是否有什么教程能够明确展示几个参数见得关系和影响?(类似上述演讲中的计算方式)

成为第一个点赞的人吧 :bowtie:
回复数量: 1
  • 青牛 国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
    2019-05-16 08:45:21

    你的环境、版本、机器、配置、运行的数据集都和表格中的一样吗

暂无评论~~
  • 请注意单词拼写,以及中英文排版,参考此页
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
  • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
  • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
  • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
Ctrl+Enter