pyspark on yarn 模式如何搭建?

问答 M先生 ⋅ 于 2019-07-30 17:54:25 ⋅ 最后回复由 青牛 2019-08-01 08:49:15 ⋅ 2243 阅读

请问一下如何基于集群Python3搭建pyspark集群on yarn模式?

问题1:在集群搭建好yarn和hadoop后,需要每台都装同版本的Python3以及相同的依赖包,如pandas吗。

问题2:搭建好后如何启动pyspark进入yarn模式,如果可以的话能否在jupyter调用,而非submit模式。

现在遇到的问题,我现在的情况是集群中某几台机器装了多个版本的python3,导致了一些权限以及路径等报错,怎么样在启动时指定某台服务器的解释器路径?现在yarn client模式报错权限错误,其实应该是python解释器错了

比如在node1中有两个版本的python3(/a/python3和/b/python3)如何在程序中指定worker的解释器路径?

成为第一个点赞的人吧 :bowtie:
回复数量: 1
  • 青牛 国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
    2019-08-01 08:49:15

    1、其实只要用spark环境就行了,你安装相同的python环境更好
    2、不能连jupyter 不然只能是单机版
    3、如何在程序中指定worker的解释器路径?这个要通过参数传递 最好能在submit的时候指定

暂无评论~~
  • 请注意单词拼写,以及中英文排版,参考此页
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
  • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
  • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
  • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
Ctrl+Enter