Spark submit 参数调优是否有一定标准或者规律？

问答 ⋅ 听说 ⋅ 于 2019-01-23 13:33:22 ⋅ 最后回复由青牛于 2019-01-24 17:52:43 ⋅ 1761 阅读

看了很多文章，但是大多数都只是告诉你这四个参数是什么作用。
唯有16年的Spark Summit大会上Top 5 Mistakes When Writing Apache Spark Applications演讲专题提到了一种计算方法（固定executor-cores为5，每太理解为什么他说超过5 hdfs 的thoughout会降低）并手把手的教了怎么计算。但是我实际测试过程中效果并不好。（见下图，程序很简单就是读取数据存入hdfs as parquet file，没有多余操作。当时所有节点也基本空闲，没有其他业务运作）
file

Spark submit 调参是不是玄学？（我后来一次出现过一千万量级数据我使用了第20排那个配比，并没有达到20分钟的效果，用了一小时）
如果不是玄学，它们的配比确实能明显影响到运作效率，是否有什么教程能够明确展示几个参数见得关系和影响？（类似上述演讲中的计算方式）

成为第一个点赞的人吧

回复数量: 1

青牛国内首批大数据从业者，就职于金山，担任大数据团队核心研发工程师
⋅ 2019-01-24 17:52:43

参数调优其实是一个很值得研究的领域我接触到的项目实践的时候用处不大，实际中只要给出压力测试或是性能测试的结果即可

请注意单词拼写，以及中英文排版，参考此页
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
支持表情，可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif，教程
发布框支持本地存储功能，会在内容变更时保存，「提交」按钮点击时清空

Ctrl+Enter

Spark submit 参数调优是否有一定标准或者规律？

作者：听说

听说的其他话题

分类下其他主题

随机推荐话题

Spark submit 参数调优是否有一定标准或者规律？

添加附言

作者：听说

听说 的其他话题

分类下其他主题

随机推荐话题

听说的其他话题