关于 hive 和 spark 元数据库及 sparkstandalone 与 spark thrift 的疑惑?

问答 jin327192319 ⋅ 于 2020-12-22 00:12:37 ⋅ 最后回复由 jin327192319 2020-12-22 00:42:45 ⋅ 1526 阅读

想请问万能的老师以及各位大佬,
问题1.搭建集群后,hive或者spark sql在启动之后,总是要先show databases才能查表,若是直接use 数据库名,则显示database不存在,甚至是database ‘default’ not exist。
初步判断,首先mysql元数据库在远程机器节点,然后是因为企业的数据库设置了一些我不懂的限制,访问总是延迟的,甚至过一段时间就断开远程mysql的连接。

问题2.在第一点出现的情况下,安装hue4.2.0,整合了mysql,hive和sparksql,发现在hue可视化界面上,mysql展示一切正常,hive在左边列表能刷新展示存在什么数据库,而spark就不行,但是都不耽误在sql查询界面上进行使用,不知道为啥这样子。
初步判断,首先,hue是通过安装livy服务进行连接spark的jdbc,然后我觉得是对spark的支持还不够完善。

问题3.测试一个数据的时候,两张200W表跟一张1.8亿表join,最大表有35G大,同样的是--driver-memory=5G,--executor-memory=5G的情况下,使用spark-shell 的sparkstandalone模式能跑出来,而使用spark-sql on yarn和spark thrift on yarn就跑不出来,甚至调到driver-memory=10G,executor-memory=15G的情况下也跑不出来,爆内存溢出,或者spark.driver.maxResultSize不够。
这个我也没有判断了,只知道后两种可能是local模式了,但也不知道为什么一样配置跑不出来,该怎么才能跑出来呢?

成为第一个点赞的人吧 :bowtie:
回复数量: 2
  • 青牛 国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
    2020-12-22 00:23:00

    先保证它不是local模式不然你怎么也跑不出来

  • jin327192319
    2020-12-22 00:42:45

    @青牛 好的,明天我再试试看

暂无评论~~
  • 请注意单词拼写,以及中英文排版,参考此页
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
  • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
  • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
  • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
Ctrl+Enter