深圳某司面试技术问题

分享 yybigdata ⋅ 于 2022-05-20 15:38:24 ⋅ 992 阅读

1.你们最大的表多大?
2.1小时才能跑完的数据,怎样变成20分钟?
3.hadoop和spark的区别还是联系?
4.你们是hive可视化工具是用什么的?就是说hive sql在哪写?在linux上的话你们怎么测试?一个很长的sql,几百行,你们也直接在linux上运行吗?
5.hive sql和spark sql的区别?
6.spark sql 一定比hive sql快吗?
7.说说spark rdd的弹性?
8.造成hive数据倾斜的原因?
9.hive怎么优化?
10.资源充足的情况下,hive跑不动,什么原因?
11.hive自定义函数得步骤?
12.你用自定义函数转换过什么业务?
13.hive sql怎么走mapreduce?
14.你mapreduce都写了什么函数?
15.persist和cache区别?
16.数仓从一个分层到下一个分层你们用的什么?

版权声明:原创作品,允许转载,转载时务必以超链接的形式表明出处和作者信息。否则将追究法律责任。来自海汼部落-yybigdata,http://hainiubl.com/topics/75861
成为第一个点赞的人吧 :bowtie:
回复数量: 0
    暂无评论~~
    • 请注意单词拼写,以及中英文排版,参考此页
    • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
    • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
    • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
    • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
    Ctrl+Enter